Di repositori vm0-ai/vm0-skills, kami telah mengembangkan puluhan skill untuk berintegrasi dengan berbagai platform SaaS pihak ketiga. Skill-skill ini memungkinkan agent Claude Code dan Codex berinteraksi secara mulus dengan layanan seperti GitHub, Slack, Discord, dan banyak lainnya.
Meski integrasi ini sangat berharga, mereka menghadirkan tantangan pengujian yang besar. Tanpa infrastruktur pengujian yang tepat, kami tidak bisa memverifikasi secara andal apakah skill berfungsi sesuai harapan atau mendeteksi perubahan yang merusak ketika API pihak ketiga berevolusi.
Mengapa menguji skill AI agent pihak ketiga itu sulit
Menguji integrasi pihak ketiga secara inheren sulit. Setiap skill bergantung pada API eksternal yang bisa berubah tanpa pemberitahuan, sehingga membutuhkan kewaspadaan terus-menerus untuk menjaga keandalan. Unit test tradisional sering kali tidak memadai karena tidak bisa mereplikasi perilaku API dunia nyata, alur autentikasi, dan kasus tepi yang hanya muncul di lingkungan produksi.
Tanpa pengujian yang menyeluruh, beberapa masalah kritis tetap tidak tertangani:
- Verifikasi fungsionalitas: Kami tidak bisa memastikan skill bekerja sesuai maksud dalam skenario penggunaan nyata
- Deteksi perubahan yang merusak: Ketika API SaaS pihak ketiga berevolusi, kami tidak punya cara otomatis untuk mengidentifikasi masalah kompatibilitas
- Validasi autentikasi: Alur OAuth, mekanisme refresh token, dan scope izin perlu diverifikasi secara berkelanjutan
- Penanganan error: Kami harus memastikan degradasi yang baik ketika layanan eksternal tidak tersedia
Ini menciptakan beban pemeliharaan yang besar dan potensi masalah keandalan yang bisa berdampak pada alur kerja produksi.
Menggunakan AI agent untuk menguji skill AI agent di lingkungan nyata
Karena skill-skill ini dirancang khusus untuk agent Claude Code dan Codex, pendekatan yang paling alami dan efektif adalah menggunakan agent yang sama itu untuk mengujinya. Ini menciptakan ekosistem yang memvalidasi dirinya sendiri di mana tool menguji dirinya sendiri di lingkungan yang dimaksudkan.
VM0 menyediakan infrastruktur cloud yang diperlukan untuk menjalankan agent Claude Code dan Codex secara andal, menjadikannya platform yang ideal untuk menerapkan strategi pengujian ini.
Alur kerja otomatis menyeluruh untuk menguji skill AI agent
Alur kerja lengkap untuk pengujian skill otomatis dijelaskan di bawah. Agent ini secara sistematis menguji setiap skill di repositori, menghasilkan laporan yang komprehensif, dan memberi tahu tim melalui beberapa kanal.
# Skills Tester Agent
## Overview
This agent performs automated testing of all skills in the vm0-skills repository.
## Critical Requirements
**MANDATORY: Complete All Tests Without Exception**
- No matter how long the task takes, it MUST be completed in full
- Continue until ALL items in `TODO.md` are tested - no early termination
- **NO skipping tasks** - every skill must be tested
- **NO selective testing** - do not cherry-pick which skills to test
- **Every example MUST have a result** - each example command in every skill's SKILL.md must be executed and recorded
- If a test fails, record the failure and continue to the next test
- Do not stop or pause until the entire test suite is complete
## Instructions
1. **Clone and Initialize**
- Clone the repo `vm0-ai/vm0-skills`
- Create a `TODO.md` file to track testing progress
2. **Generate Todo List**
- For each skill folder in the repo, add a todo item to `TODO.md`
3. **Test Each Skill**
- Create a sub-agent for each skill to test
- Each sub-agent should:
- Verify all required environment variables exist
- Test each example command in the skill's SKILL.md
- Write a temporary test result markdown file
- Record whether the test passed, and specifically note any shell command failures or jq parsing errors
4. **Summarize Results**
- Aggregate all test results into `result.md`
5. **Update README**
- Based on `result.md`, update the `README.md`
- Update or insert a skill list section with:
- Brief description of each skill's capabilities
- Test status (passed/failed)
6. **Commit and Push**
- Only commit `README.md`
- Push to the repository using `GITHUB_TOKEN` for authentication
7. **Report Issues**
- For skills with test failures, create a GitHub issue summarizing all problems
8. **Notify Slack**
- Post a message to Slack channel `#dev` with:
- Total number of skills
- Number of passed tests
- Number of failed tests
- Brief summary of issues
- Link to the GitHub issue (if created)
9. **Notify Discord**
- Post a message to the Discord `skills` channel with:
- Confirmation that routine testing is complete
- Number of skills that passed
- Total number of skills tested
Mengonfigurasi agent dengan vm0.yaml
Berikutnya, Anda hanya perlu menjadwalkan VM0 untuk menjalankan alur kerja ini. Buat sebuah file vm0.yaml untuk mendeskripsikan konfigurasi container agent. File ini menentukan skill mana yang dibutuhkan agent, environment variable apa yang harus disuntikkan, dan bagaimana menjalankan alur kerja pengujian.
version: "1.0"
agents:
skills-tester:
image: skills-tester:latest
provider: claude-code
instructions: AGENTS.md
skills:
- https://github.com/vm0-ai/vm0-skills/tree/main/github
- https://github.com/vm0-ai/vm0-skills/tree/main/slack
- https://github.com/vm0-ai/vm0-skills/tree/main/discord
environment:
CLAUDE_CODE_OAUTH_TOKEN: ${{ secrets.CLAUDE_CODE_OAUTH_TOKEN }}
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
SLACK_BOT_TOKEN: ${{ secrets.SLACK_BOT_TOKEN }}
DISCORD_BOT_TOKEN: ${{ secrets.DISCORD_BOT_TOKEN }}
# ... additional environment variables as needed
Untuk file konfigurasi lengkapnya, lihat vm0-skills/.vm0/vm0.yaml. Beberapa environment variable dihilangkan dalam contoh ini agar ringkas.
Konfigurasi agent ini mencakup tiga skill penting:
- Skill GitHub: Untuk operasi repositori, pembuatan issue, dan pembaruan README
- Skill Slack: Untuk memposting hasil pengujian ke kanal tim
- Skill Discord: Untuk notifikasi komunitas tentang penyelesaian pengujian
Membuat image Docker
Anda juga perlu mengonfigurasi sebuah image Docker yang menginstal dependensi yang diperlukan, khususnya GitHub CLI (gh) yang digunakan agent untuk operasi repositori.
Buat sebuah Dockerfile:
FROM node:20-slim
RUN apt-get update && apt-get install -y \\
git \\
curl \\
python3 \\
python3-pip \\
python3-venv \\
jq \\
&& rm -rf /var/lib/apt/lists/*
RUN curl -fsSL <https://cli.github.com/packages/githubcli-archive-keyring.gpg> | dd of=/usr/share/keyrings/githubcli-archive-keyring.gpg \\
&& chmod go+r /usr/share/keyrings/githubcli-archive-keyring.gpg \\
&& echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/githubcli-archive-keyring.gpg] <https://cli.github.com/packages> stable main" | tee /etc/apt/sources.list.d/github-cli.list > /dev/null \\
&& apt-get update \\
&& apt-get install -y gh \\
&& rm -rf /var/lib/apt/lists/*
RUN npm install -g @anthropic-ai/claude-code
Dockerfile ini membuat sebuah container ringan dengan:
- Node.js 20: Lingkungan runtime untuk Claude Code
- Git: Operasi version control
- GitHub CLI: Interaksi API GitHub yang lebih efisien
- Python 3: Untuk menjalankan skrip pengujian skill
- jq: Parsing JSON dalam perintah shell
Merangkai sistem pengujian skill AI
Itu saja yang Anda butuhkan! Dengan ketiga file ini di tempatnya: AGENTS.md, Dockerfile, dan vm0.yaml, Anda memiliki sistem pengujian otomatis yang lengkap. Anda bisa melihat implementasi lengkapnya di vm0-skills/.vm0.
Jalankan perintah berikut di direktori proyek Anda untuk membangun dan men-deploy agent:
$ vm0 image build -f Dockerfile --name skills-tester
$ vm0 compose vm0.yaml
Perintah pertama membangun image Docker dengan semua dependensi yang diperlukan. Perintah kedua mendaftarkan konfigurasi agent ke platform VM0.
Menjalankan alur kerja
Kini Anda bisa menjalankan seluruh alur kerja pengujian dengan satu perintah:
$ vm0 run skills-tester "do the job"
Agent akan secara otonom:
- Meng-clone repositori vm0-skills
- Menghasilkan checklist pengujian untuk semua skill
- Menjalankan pengujian untuk setiap skill secara sistematis
- Menyusun hasil yang komprehensif
- Memperbarui README repositori
- Membuat GitHub issue untuk kegagalan
- Mengirim notifikasi ke Slack dan Discord
Debugging langkah demi langkah
Jika Anda ingin men-debug alur kerja secara bertahap atau menguji satu skill terlebih dahulu, Anda bisa menggunakan prompt yang ditargetkan:
$ vm0 run skills-tester "Only do the first step, using a single skill."
Setelah agent menyelesaikan langkah pertama, Anda bisa melanjutkan sesi berdasarkan session ID yang diberikan dalam output:
$ vm0 run continue SESSION_ID "Do the next step."
Pendekatan interaktif ini memungkinkan Anda:
- Memverifikasi setiap langkah sebelum melanjutkan
- Memeriksa hasil antara
- Menyesuaikan alur kerja jika diperlukan
- Men-debug masalah secara lebih efektif
Hasil dan notifikasi
Setelah alur kerja selesai, Anda akan menerima notifikasi di berbagai kanal yang mengonfirmasi hasil pengujian.
Notifikasi komunitas Discord yang menampilkan ringkasan penyelesaian pengujian
Notifikasi tim Slack dengan hasil pengujian yang detail
Untuk skill mana pun yang gagal pengujian, agent secara otomatis membuat sebuah GitHub issue dengan detail kegagalan yang komprehensif. Lihat Skill Test Failures - Issue #2 untuk contoh format issue yang dihasilkan.
Pelajaran utama dari mengotomasi pengujian skill AI agent
Menerapkan pengujian skill otomatis dengan agent VM0 memberikan beberapa manfaat penting:
- Validasi berkelanjutan: Tangkap perubahan yang merusak dari API pihak ketiga dengan segera, sebelum berdampak pada produksi
- Lingkungan pengujian yang realistis: Agent menguji skill dalam konteks persis tempat skill itu digunakan, menghilangkan jurang antara pengujian dan produksi
- Nol upaya manual: Setelah dikonfigurasi, alur kerja pengujian berjalan otomatis sesuai jadwal, tanpa memerlukan intervensi manusia
- Cakupan menyeluruh: Setiap skill diuji secara sistematis, memastikan tidak ada yang lolos dari perhatian
- Kesadaran tim: Notifikasi multi-kanal membuat semua orang tetap mengetahui hasil pengujian dan masalah
Dengan memanfaatkan infrastruktur cloud VM0 dan kemampuan agent Claude, Anda bisa menjaga integrasi yang andal dengan layanan eksternal sembari meminimalkan beban pemeliharaan yang terus berjalan. Pendekatan ini mengubah pengujian skill dari proses manual yang rawan kesalahan menjadi sistem jaminan kualitas yang sepenuhnya otomatis.
Mulai dengan VM0 hari ini
Siap mengotomasi alur kerja Anda sendiri dengan AI agent? VM0 memudahkan Anda men-deploy agent siap-produksi dalam hitungan menit, bukan minggu.
Apa yang bisa Anda bangun dengan VM0
-
Pipeline pengujian otomatis
Jalankan tugas pengujian terjadwal seperti skill tester ini untuk menangkap perubahan yang merusak di API pihak ketiga sejak dini.
-
Alur kerja pembuatan konten
Ubah riset, catatan, atau input mentah menjadi blog post, dokumen, atau release note tanpa salin-tempel manual.
-
Agent pemrosesan data
Tarik data dari berbagai sumber, bersihkan, dan teruskan ke hilir, sembari menangani kegagalan dan percobaan ulang secara eksplisit.
-
Otomasi dukungan pelanggan
Triage permintaan masuk, draf balasan, dan serahkan kasus tepi ke manusia ketika diperlukan.
-
Code review dan analisis
Tinjau pull request, tandai potensi masalah, dan terapkan aturan dasar sebelum manusia melihat kodenya.
Kunjungi vm0.ai untuk membuat akun gratis Anda dan men-deploy agent pertama Anda hari ini. Bergabunglah dengan komunitas Discord kami untuk terhubung dengan builder lain, berbagi alur kerja Anda, dan mendapat bantuan dari tim.
Mulai bangun masa depan alur kerja otomatis.


