बदलते API के सामने AI एजेंट स्किल का स्वचालित टेस्टिंग

vm0-ai/vm0-skills रिपॉज़िटरी में, हमने विभिन्न थर्ड-पार्टी SaaS प्लैटफ़ॉर्म के साथ इंटीग्रेट करने के लिए दर्जनों स्किल विकसित की हैं। ये स्किल Claude Code और Codex एजेंटों को GitHub, Slack, Discord और बाकी कई सेवाओं के साथ निर्बाध रूप से बातचीत करने में सक्षम बनाती हैं।

ये इंटीग्रेशन बेहद मूल्यवान होते हुए भी, एक बड़ी टेस्टिंग चुनौती पेश करते हैं। उचित टेस्टिंग इन्फ़्रास्ट्रक्चर के बिना, हम भरोसे से यह सत्यापित नहीं कर सकते कि स्किल अपेक्षा के अनुसार काम करती हैं या नहीं, या तब ब्रेकिंग बदलावों का पता लगा सकते हैं जब थर्ड-पार्टी API विकसित होते हैं।

थर्ड-पार्टी AI एजेंट स्किल को टेस्ट करना क्यों मुश्किल है

थर्ड-पार्टी इंटीग्रेशन को टेस्ट करना स्वभाव से ही कठिन है। हर स्किल बाहरी API पर निर्भर करती है जो बिना सूचना बदल सकते हैं, और विश्वसनीयता बनाए रखने के लिए लगातार सतर्कता की माँग करते हैं। पारंपरिक यूनिट टेस्ट अक्सर कम पड़ जाते हैं क्योंकि वे वास्तविक-दुनिया के API व्यवहार, प्रमाणीकरण फ़्लो, और उन एज केसों की नकल नहीं कर सकते जो केवल प्रोडक्शन वातावरण में ही उभरते हैं।

व्यापक टेस्टिंग के बिना, कई गंभीर मुद्दे अनसुलझे रह जाते हैं:

कार्यक्षमता सत्यापन: हम पुष्टि नहीं कर सकते कि स्किल वास्तविक उपयोग परिदृश्यों में अपेक्षा के अनुसार काम करती हैं
ब्रेकिंग बदलाव का पता लगाना: जब थर्ड-पार्टी SaaS API विकसित होते हैं, तो हमारे पास संगतता मुद्दों की पहचान करने का कोई स्वचालित तरीका नहीं होता
प्रमाणीकरण सत्यापन: OAuth फ़्लो, टोकन रिफ़्रेश तंत्र, और अनुमति स्कोप को निरंतर सत्यापन की ज़रूरत होती है
एरर हैंडलिंग: हमें यह सुनिश्चित करना होता है कि बाहरी सेवाएँ अनुपलब्ध होने पर सहज ढंग से गिरावट हो

यह एक बड़ा रखरखाव बोझ और संभावित विश्वसनीयता मुद्दे पैदा करता है जो प्रोडक्शन वर्कफ़्लो को प्रभावित कर सकते हैं।

वास्तविक वातावरण में AI एजेंट स्किल टेस्ट करने के लिए AI एजेंटों का उपयोग

चूँकि ये स्किल खासकर Claude Code और Codex एजेंटों के लिए डिज़ाइन की गई हैं, इसलिए सबसे स्वाभाविक और कारगर तरीका है इन्हीं एजेंटों का उपयोग करके इन्हें टेस्ट करना। यह एक स्व-मान्यकारी पारितंत्र बनाता है जहाँ टूल खुद को अपने इच्छित वातावरण में टेस्ट करते हैं।

VM0 Claude Code और Codex एजेंटों को भरोसे से चलाने के लिए ज़रूरी क्लाउड इन्फ़्रास्ट्रक्चर प्रदान करता है, जो इसे इस टेस्टिंग रणनीति को लागू करने के लिए एक आदर्श प्लैटफ़ॉर्म बनाता है।

AI एजेंट स्किल टेस्ट करने के लिए एक शुरू-से-अंत स्वचालित वर्कफ़्लो

स्वचालित स्किल टेस्टिंग के लिए पूरा वर्कफ़्लो नीचे वर्णित है। यह एजेंट रिपॉज़िटरी की हर स्किल को व्यवस्थित रूप से टेस्ट करता है, व्यापक रिपोर्ट तैयार करता है, और कई चैनलों के माध्यम से टीम को सूचित करता है।

# Skills Tester Agent

## Overview

This agent performs automated testing of all skills in the vm0-skills repository.

## Critical Requirements

**MANDATORY: Complete All Tests Without Exception**

- No matter how long the task takes, it MUST be completed in full
- Continue until ALL items in `TODO.md` are tested - no early termination
- **NO skipping tasks** - every skill must be tested
- **NO selective testing** - do not cherry-pick which skills to test
- **Every example MUST have a result** - each example command in every skill's SKILL.md must be executed and recorded
- If a test fails, record the failure and continue to the next test
- Do not stop or pause until the entire test suite is complete

## Instructions

1. **Clone and Initialize**
   - Clone the repo `vm0-ai/vm0-skills`
   - Create a `TODO.md` file to track testing progress

2. **Generate Todo List**
   - For each skill folder in the repo, add a todo item to `TODO.md`

3. **Test Each Skill**
   - Create a sub-agent for each skill to test
   - Each sub-agent should:
     - Verify all required environment variables exist
     - Test each example command in the skill's SKILL.md
     - Write a temporary test result markdown file
     - Record whether the test passed, and specifically note any shell command failures or jq parsing errors

4. **Summarize Results**
   - Aggregate all test results into `result.md`

5. **Update README**
   - Based on `result.md`, update the `README.md`
   - Update or insert a skill list section with:
     - Brief description of each skill's capabilities
     - Test status (passed/failed)

6. **Commit and Push**
   - Only commit `README.md`
   - Push to the repository using `GITHUB_TOKEN` for authentication

7. **Report Issues**
   - For skills with test failures, create a GitHub issue summarizing all problems

8. **Notify Slack**
   - Post a message to Slack channel `#dev` with:
     - Total number of skills
     - Number of passed tests
     - Number of failed tests
     - Brief summary of issues
     - Link to the GitHub issue (if created)

9. **Notify Discord**
   - Post a message to the Discord `skills` channel with:
     - Confirmation that routine testing is complete
     - Number of skills that passed
     - Total number of skills tested

vm0.yaml के साथ एजेंट को कॉन्फ़िगर करना

इसके बाद, आपको बस इस वर्कफ़्लो को चलाने के लिए VM0 को शेड्यूल करना है। एजेंट कंटेनर कॉन्फ़िगरेशन का वर्णन करने के लिए एक vm0.yaml फ़ाइल बनाएँ। यह फ़ाइल बताती है कि एजेंट को कौन सी स्किल चाहिए, कौन से एनवायरनमेंट वैरिएबल इंजेक्ट करने हैं, और टेस्टिंग वर्कफ़्लो कैसे चलाना है।

version: "1.0"

agents:
  skills-tester:
    image: skills-tester:latest
    provider: claude-code
    instructions: AGENTS.md
    skills:
      - https://github.com/vm0-ai/vm0-skills/tree/main/github
      - https://github.com/vm0-ai/vm0-skills/tree/main/slack
      - https://github.com/vm0-ai/vm0-skills/tree/main/discord
    environment:
      CLAUDE_CODE_OAUTH_TOKEN: ${{ secrets.CLAUDE_CODE_OAUTH_TOKEN }}
      GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
      SLACK_BOT_TOKEN: ${{ secrets.SLACK_BOT_TOKEN }}
      DISCORD_BOT_TOKEN: ${{ secrets.DISCORD_BOT_TOKEN }}
      # ... additional environment variables as needed

पूरी कॉन्फ़िगरेशन फ़ाइल के लिए, vm0-skills/.vm0/vm0.yaml देखें। संक्षिप्तता के लिए इस उदाहरण में कुछ एनवायरनमेंट वैरिएबल छोड़ दिए गए हैं।

इस एजेंट कॉन्फ़िगरेशन में तीन ज़रूरी स्किल शामिल हैं:

GitHub skill: रिपॉज़िटरी ऑपरेशन, इश्यू बनाने, और README अपडेट के लिए
Slack skill: टीम चैनलों में टेस्ट परिणाम पोस्ट करने के लिए
Discord skill: टेस्ट पूरा होने के बारे में कम्युनिटी सूचनाओं के लिए

Docker इमेज बनाना

आपको एक Docker इमेज भी कॉन्फ़िगर करनी होगी जो ज़रूरी डिपेंडेंसी इंस्टॉल करती है, खासकर GitHub CLI (gh) जिसका इस्तेमाल एजेंट रिपॉज़िटरी ऑपरेशन के लिए करता है।

एक Dockerfile बनाएँ:

FROM node:20-slim

RUN apt-get update && apt-get install -y \\
    git \\
    curl \\
    python3 \\
    python3-pip \\
    python3-venv \\
    jq \\
    && rm -rf /var/lib/apt/lists/*

RUN curl -fsSL <https://cli.github.com/packages/githubcli-archive-keyring.gpg> | dd of=/usr/share/keyrings/githubcli-archive-keyring.gpg \\
    && chmod go+r /usr/share/keyrings/githubcli-archive-keyring.gpg \\
    && echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/githubcli-archive-keyring.gpg] <https://cli.github.com/packages> stable main" | tee /etc/apt/sources.list.d/github-cli.list > /dev/null \\
    && apt-get update \\
    && apt-get install -y gh \\
    && rm -rf /var/lib/apt/lists/*

RUN npm install -g @anthropic-ai/claude-code

यह Dockerfile एक हल्का कंटेनर बनाता है जिसमें:

Node.js 20: Claude Code के लिए रनटाइम वातावरण
Git: वर्ज़न कंट्रोल ऑपरेशन
GitHub CLI: सुव्यवस्थित GitHub API इंटरैक्शन
Python 3: स्किल टेस्ट स्क्रिप्ट चलाने के लिए
jq: शेल कमांड में JSON पार्सिंग

AI स्किल टेस्टिंग सिस्टम को एक साथ जोड़ना

बस इतना ही चाहिए! इन तीन फ़ाइलों के साथ: AGENTS.md, Dockerfile, और vm0.yaml, आपके पास एक पूरा स्वचालित टेस्टिंग सिस्टम है। आप पूरा कार्यान्वयन vm0-skills/.vm0 पर देख सकते हैं।

एजेंट को बिल्ड और डिप्लॉय करने के लिए अपनी प्रोजेक्ट डायरेक्ट्री में निम्नलिखित कमांड चलाएँ:

$ vm0 image build -f Dockerfile --name skills-tester
$ vm0 compose vm0.yaml

पहला कमांड सभी ज़रूरी डिपेंडेंसी के साथ Docker इमेज बनाता है। दूसरा कमांड एजेंट कॉन्फ़िगरेशन को VM0 के प्लैटफ़ॉर्म के साथ रजिस्टर करता है।

वर्कफ़्लो चलाना

अब आप पूरे टेस्टिंग वर्कफ़्लो को एक ही कमांड से चला सकते हैं:

$ vm0 run skills-tester "do the job"

एजेंट स्वायत्त रूप से:

vm0-skills रिपॉज़िटरी को क्लोन करेगा
सभी स्किल के लिए एक टेस्टिंग चेकलिस्ट तैयार करेगा
हर स्किल के लिए टेस्ट व्यवस्थित रूप से चलाएगा
व्यापक परिणाम संकलित करेगा
रिपॉज़िटरी README अपडेट करेगा
विफलताओं के लिए GitHub इश्यू बनाएगा
Slack और Discord को सूचनाएँ भेजेगा

चरण-दर-चरण डिबगिंग

अगर आप वर्कफ़्लो को धीरे-धीरे डिबग करना चाहते हैं या पहले एक अकेली स्किल टेस्ट करना चाहते हैं, तो आप लक्षित प्रॉम्प्ट का इस्तेमाल कर सकते हैं:

$ vm0 run skills-tester "Only do the first step, using a single skill."

एजेंट के पहला चरण पूरा करने के बाद, आप आउटपुट में दिए गए सेशन ID के आधार पर सेशन जारी रख सकते हैं:

$ vm0 run continue SESSION_ID "Do the next step."

यह इंटरैक्टिव तरीका आपको इसकी अनुमति देता है:

आगे बढ़ने से पहले हर चरण की पुष्टि करना
बीच के परिणामों का निरीक्षण करना
ज़रूरत पड़ने पर वर्कफ़्लो समायोजित करना
मुद्दों को अधिक कारगर ढंग से डिबग करना

परिणाम और सूचनाएँ

वर्कफ़्लो पूरा होने के बाद, आपको टेस्टिंग परिणामों की पुष्टि करने वाली सूचनाएँ कई चैनलों पर मिलेंगी।

Discord कम्युनिटी सूचना जो टेस्ट पूरा होने का सारांश दिखाती है

Slack टीम सूचना विस्तृत टेस्ट परिणामों के साथ

जो भी स्किल टेस्टिंग में विफल होती हैं, उनके लिए एजेंट अपने आप व्यापक विफलता विवरण के साथ एक GitHub इश्यू बनाता है। तैयार किए गए इश्यू फ़ॉर्मैट के एक उदाहरण के लिए Skill Test Failures - Issue #2 देखें।

AI एजेंट स्किल टेस्टिंग को स्वचालित करने से मिले प्रमुख सबक

VM0 एजेंटों के साथ स्वचालित स्किल टेस्टिंग लागू करने से कई गंभीर फ़ायदे मिलते हैं:

निरंतर सत्यापन: थर्ड-पार्टी API से आए ब्रेकिंग बदलावों को तुरंत पकड़ें, इससे पहले कि वे प्रोडक्शन को प्रभावित करें
यथार्थवादी टेस्टिंग वातावरण: एजेंट स्किल को ठीक उसी संदर्भ में टेस्ट करते हैं जहाँ वे इस्तेमाल होती हैं, जिससे टेस्ट और प्रोडक्शन के बीच का अंतर खत्म हो जाता है
शून्य मैनुअल मेहनत: एक बार कॉन्फ़िगर हो जाने पर, टेस्टिंग वर्कफ़्लो एक शेड्यूल पर अपने आप चलता है, किसी मानवीय हस्तक्षेप की ज़रूरत नहीं
व्यापक कवरेज: हर स्किल व्यवस्थित रूप से टेस्ट होती है, यह सुनिश्चित करते हुए कि कुछ भी दरारों से न फिसले
टीम जागरूकता: बहु-चैनल सूचनाएँ सभी को टेस्ट परिणामों और मुद्दों से अवगत रखती हैं

VM0 के क्लाउड इन्फ़्रास्ट्रक्चर और Claude की एजेंट क्षमताओं का लाभ उठाकर, आप बाहरी सेवाओं के साथ भरोसेमंद इंटीग्रेशन बनाए रख सकते हैं, साथ ही चालू रखरखाव के बोझ को कम कर सकते हैं। यह तरीका स्किल टेस्टिंग को एक मैनुअल, गलती-प्रवण प्रक्रिया से एक पूरी तरह स्वचालित गुणवत्ता आश्वासन सिस्टम में बदल देता है।

आज ही VM0 के साथ शुरू करें

AI एजेंटों के साथ अपने खुद के वर्कफ़्लो को स्वचालित करने के लिए तैयार हैं? VM0 प्रोडक्शन-तैयार एजेंटों को हफ़्तों में नहीं, बल्कि मिनटों में डिप्लॉय करना आसान बना देता है।

VM0 के साथ आप क्या बना सकते हैं

स्वचालित टेस्टिंग पाइपलाइन

इस स्किल टेस्टर जैसे शेड्यूल किए गए टेस्ट जॉब चलाएँ ताकि थर्ड-पार्टी API में ब्रेकिंग बदलाव जल्दी पकड़े जा सकें।
कॉन्टेंट जनरेशन वर्कफ़्लो

रिसर्च, नोट्स, या कच्चे इनपुट को बिना मैनुअल कॉपी-पेस्ट के ब्लॉग पोस्ट, डॉक्स, या रिलीज़ नोट्स में बदलें।
डेटा प्रोसेसिंग एजेंट

कई स्रोतों से डेटा खींचें, उसे साफ़ करें, और आगे की ओर ले जाएँ, साथ ही विफलताओं और रिट्राई को स्पष्ट रूप से संभालें।
कस्टमर सपोर्ट ऑटोमेशन

आने वाले अनुरोधों को triage करें, जवाब तैयार करें, और ज़रूरत पड़ने पर एज केसों को इंसानों को सौंप दें।
कोड समीक्षा और विश्लेषण

पुल रिक्वेस्ट की समीक्षा करें, संभावित मुद्दे चिह्नित करें, और किसी इंसान के कोड देखने से पहले बुनियादी नियम लागू करें।

अपना मुफ़्त अकाउंट बनाने और आज ही अपना पहला एजेंट डिप्लॉय करने के लिए vm0.ai पर जाएँ। दूसरे बिल्डरों से जुड़ने, अपने वर्कफ़्लो साझा करने, और टीम से मदद पाने के लिए हमारी Discord कम्युनिटी में शामिल हों।

स्वचालित वर्कफ़्लो का भविष्य बनाना शुरू करें।