Im Repository vm0-ai/vm0-skills haben wir Dutzende von Skills für die Integration mit verschiedenen SaaS-Plattformen von Drittanbietern entwickelt. Diese Skills ermöglichen es Claude Code- und Codex-Agenten, nahtlos mit Diensten wie GitHub, Slack, Discord und vielen anderen zu interagieren.
Obwohl diese Integrationen äußerst wertvoll sind, stellen sie eine erhebliche Test-Herausforderung dar. Ohne angemessene Test-Infrastruktur können wir nicht zuverlässig überprüfen, ob Skills wie erwartet funktionieren, oder Breaking Changes erkennen, wenn sich Drittanbieter-APIs weiterentwickeln.
Warum das Testen von KI-Agenten-Skills von Drittanbietern schwierig ist
Das Testen von Drittanbieter-Integrationen ist von Natur aus schwierig. Jeder Skill hängt von externen APIs ab, die sich ohne Vorwarnung ändern können, was ständige Wachsamkeit erfordert, um die Zuverlässigkeit aufrechtzuerhalten. Traditionelle Unit-Tests greifen oft zu kurz, weil sie das API-Verhalten, Authentifizierungs-Flows und Edge Cases aus der realen Welt nicht replizieren können, die nur in Produktionsumgebungen auftreten.
Ohne umfassende Tests bleiben mehrere kritische Probleme ungelöst:
- Funktionsüberprüfung: Wir können nicht bestätigen, dass Skills in tatsächlichen Nutzungsszenarien wie beabsichtigt funktionieren
- Erkennung von Breaking Changes: Wenn sich Drittanbieter-SaaS-APIs weiterentwickeln, haben wir keine automatisierte Möglichkeit, Kompatibilitätsprobleme zu identifizieren
- Authentifizierungsvalidierung: OAuth-Flows, Token-Refresh-Mechanismen und Berechtigungsbereiche benötigen kontinuierliche Überprüfung
- Fehlerbehandlung: Wir müssen eine angemessene Degradation sicherstellen, wenn externe Dienste nicht verfügbar sind
Dies führt zu einer erheblichen Wartungsbelastung und potenziellen Zuverlässigkeitsproblemen, die Produktions-Workflows beeinträchtigen könnten.
Verwendung von KI-Agenten zum Testen von KI-Agenten-Skills in realen Umgebungen
Da diese Skills speziell für Claude Code- und Codex-Agenten entwickelt wurden, ist der natürlichste und effektivste Ansatz, diese Agenten selbst zum Testen zu verwenden. Dies schafft ein selbstvalidierendes Ökosystem, in dem die Tools sich selbst in ihrer vorgesehenen Umgebung testen.
VM0 bietet die Cloud-Infrastruktur, die erforderlich ist, um Claude Code- und Codex-Agenten zuverlässig auszuführen, was es zu einer idealen Plattform für die Implementierung dieser Test-Strategie macht.
Ein durchgängiger automatisierter Workflow zum Testen von KI-Agenten-Skills
Der vollständige Workflow für automatisierte Skill-Tests wird im Folgenden beschrieben. Dieser Agent testet systematisch jeden Skill im Repository, generiert umfassende Berichte und benachrichtigt das Team über mehrere Kanäle.
# Skills-Tester-Agent
## Übersicht
Dieser Agent führt automatisierte Tests aller Skills im vm0-skills-Repository durch.
## Kritische Anforderungen
**OBLIGATORISCH: Alle Tests ohne Ausnahme abschließen**
- Egal wie lange die Aufgabe dauert, sie MUSS vollständig abgeschlossen werden
- Fortfahren, bis ALLE Elemente in `TODO.md` getestet sind - keine vorzeitige Beendigung
- **KEINE übersprungenen Aufgaben** - jeder Skill muss getestet werden
- **KEINE selektiven Tests** - nicht auswählen, welche Skills getestet werden
- **Jedes Beispiel MUSS ein Ergebnis haben** - jeder Beispielbefehl in der SKILL.md jedes Skills muss ausgeführt und aufgezeichnet werden
- Wenn ein Test fehlschlägt, den Fehler aufzeichnen und mit dem nächsten Test fortfahren
- Nicht stoppen oder pausieren, bis die gesamte Test-Suite abgeschlossen ist
## Anweisungen
1. **Klonen und Initialisieren**
- Das Repository `vm0-ai/vm0-skills` klonen
- Eine `TODO.md`-Datei erstellen, um den Testfortschritt zu verfolgen
2. **Todo-Liste generieren**
- Für jeden Skill-Ordner im Repository ein Todo-Element zu `TODO.md` hinzufügen
3. **Jeden Skill testen**
- Einen Sub-Agenten für jeden zu testenden Skill erstellen
- Jeder Sub-Agent sollte:
- Überprüfen, dass alle erforderlichen Umgebungsvariablen vorhanden sind
- Jeden Beispielbefehl in der SKILL.md des Skills testen
- Eine temporäre Testergebnis-Markdown-Datei schreiben
- Aufzeichnen, ob der Test bestanden wurde, und speziell Shell-Befehlsfehler oder jq-Parsing-Fehler notieren
4. **Ergebnisse zusammenfassen**
- Alle Testergebnisse in `result.md` aggregieren
5. **README aktualisieren**
- Basierend auf `result.md` die `README.md` aktualisieren
- Einen Skill-Listen-Abschnitt aktualisieren oder einfügen mit:
- Kurzbeschreibung der Fähigkeiten jedes Skills
- Teststatus (bestanden/fehlgeschlagen)
6. **Commit und Push**
- Nur `README.md` committen
- Mit `GITHUB_TOKEN` für die Authentifizierung zum Repository pushen
7. **Probleme melden**
- Für Skills mit Testfehlern ein GitHub-Issue erstellen, das alle Probleme zusammenfasst
8. **Slack benachrichtigen**
- Eine Nachricht im Slack-Kanal `#dev` posten mit:
- Gesamtanzahl der Skills
- Anzahl bestandener Tests
- Anzahl fehlgeschlagener Tests
- Kurze Zusammenfassung der Probleme
- Link zum GitHub-Issue (falls erstellt)
9. **Discord benachrichtigen**
- Eine Nachricht im Discord-Kanal `skills` posten mit:
- Bestätigung, dass Routine-Tests abgeschlossen sind
- Anzahl der Skills, die bestanden haben
- Gesamtanzahl der getesteten Skills
Konfiguration des Agenten mit vm0.yaml
Als Nächstes müssen Sie VM0 nur so planen, dass dieser Workflow ausgeführt wird. Erstellen Sie eine vm0.yaml-Datei, um die Konfiguration des Agenten-Containers zu beschreiben. Diese Datei gibt an, welche Skills der Agent benötigt, welche Umgebungsvariablen einzufügen sind und wie der Test-Workflow ausgeführt werden soll.
version: "1.0"
agents:
skills-tester:
image: skills-tester:latest
provider: claude-code
instructions: AGENTS.md
skills:
- https://github.com/vm0-ai/vm0-skills/tree/main/github
- https://github.com/vm0-ai/vm0-skills/tree/main/slack
- https://github.com/vm0-ai/vm0-skills/tree/main/discord
environment:
CLAUDE_CODE_OAUTH_TOKEN: ${{ secrets.CLAUDE_CODE_OAUTH_TOKEN }}
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
SLACK_BOT_TOKEN: ${{ secrets.SLACK_BOT_TOKEN }}
DISCORD_BOT_TOKEN: ${{ secrets.DISCORD_BOT_TOKEN }}
# ... zusätzliche Umgebungsvariablen nach Bedarf
Für die vollständige Konfigurationsdatei siehe vm0-skills/.vm0/vm0.yaml. Einige Umgebungsvariablen sind in diesem Beispiel aus Gründen der Kürze weggelassen.
Diese Agentenkonfiguration umfasst drei wesentliche Skills:
- GitHub-Skill: Für Repository-Operationen, Issue-Erstellung und README-Updates
- Slack-Skill: Zum Posten von Testergebnissen in Team-Kanälen
- Discord-Skill: Für Community-Benachrichtigungen über Testabschluss
Erstellen des Docker-Images
Sie müssen auch ein Docker-Image konfigurieren, das die erforderlichen Abhängigkeiten installiert, insbesondere die GitHub CLI (gh), die der Agent für Repository-Operationen verwendet.
Erstellen Sie ein Dockerfile:
FROM node:20-slim
RUN apt-get update && apt-get install -y \\
git \\
curl \\
python3 \\
python3-pip \\
python3-venv \\
jq \\
&& rm -rf /var/lib/apt/lists/*
RUN curl -fsSL <https://cli.github.com/packages/githubcli-archive-keyring.gpg> | dd of=/usr/share/keyrings/githubcli-archive-keyring.gpg \\
&& chmod go+r /usr/share/keyrings/githubcli-archive-keyring.gpg \\
&& echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/githubcli-archive-keyring.gpg] <https://cli.github.com/packages> stable main" | tee /etc/apt/sources.list.d/github-cli.list > /dev/null \\
&& apt-get update \\
&& apt-get install -y gh \\
&& rm -rf /var/lib/apt/lists/*
RUN npm install -g @anthropic-ai/claude-code
Dieses Dockerfile erstellt einen leichtgewichtigen Container mit:
- Node.js 20: Laufzeitumgebung für Claude Code
- Git: Versionskontrolloperationen
- GitHub CLI: Optimierte GitHub-API-Interaktionen
- Python 3: Zum Ausführen von Skill-Test-Skripten
- jq: JSON-Parsing in Shell-Befehlen
Zusammenstellung des KI-Skill-Test-Systems
Das ist alles, was Sie brauchen! Mit diesen drei Dateien: AGENTS.md, Dockerfile und vm0.yaml haben Sie ein vollständiges automatisiertes Test-System. Sie können die vollständige Implementierung unter vm0-skills/.vm0 einsehen.
Führen Sie die folgenden Befehle in Ihrem Projektverzeichnis aus, um den Agenten zu erstellen und bereitzustellen:
$ vm0 image build -f Dockerfile --name skills-tester
$ vm0 compose vm0.yaml
Der erste Befehl erstellt das Docker-Image mit allen erforderlichen Abhängigkeiten. Der zweite Befehl registriert die Agentenkonfiguration bei der VM0-Plattform.
Ausführen des Workflows
Jetzt können Sie den gesamten Test-Workflow mit einem einzigen Befehl ausführen:
$ vm0 run skills-tester "do the job"
Der Agent wird autonom:
- Das vm0-skills-Repository klonen
- Eine Test-Checkliste für alle Skills generieren
- Tests für jeden Skill systematisch ausführen
- Umfassende Ergebnisse zusammenstellen
- Die Repository-README aktualisieren
- GitHub-Issues für Fehler erstellen
- Benachrichtigungen an Slack und Discord senden
Schrittweises Debuggen
Wenn Sie den Workflow schrittweise debuggen oder zuerst einen einzelnen Skill testen möchten, können Sie gezielte Prompts verwenden:
$ vm0 run skills-tester "Only do the first step, using a single skill."
Nachdem der Agent den ersten Schritt abgeschlossen hat, können Sie die Sitzung basierend auf der in der Ausgabe angegebenen Sitzungs-ID fortsetzen:
$ vm0 run continue SESSION_ID "Do the next step."
Dieser interaktive Ansatz ermöglicht es Ihnen:
- Jeden Schritt vor dem Fortfahren zu überprüfen
- Zwischenergebnisse zu inspizieren
- Den Workflow bei Bedarf anzupassen
- Probleme effektiver zu debuggen
Ergebnisse und Benachrichtigungen
Nach Abschluss des Workflows erhalten Sie Benachrichtigungen über mehrere Kanäle, die die Testergebnisse bestätigen.
Discord-Community-Benachrichtigung mit Test-Abschluss-Zusammenfassung
Slack-Team-Benachrichtigung mit detaillierten Testergebnissen
Für alle Skills, die Tests nicht bestehen, erstellt der Agent automatisch ein GitHub-Issue mit umfassenden Fehlerdetails. Siehe Skill Test Failures - Issue #2 für ein Beispiel des generierten Issue-Formats.
Wichtige Erkenntnisse aus der Automatisierung des Testens von KI-Agenten-Skills
Die Implementierung automatisierter Skill-Tests mit VM0-Agenten bietet mehrere kritische Vorteile:
- Kontinuierliche Validierung: Breaking Changes von Drittanbieter-APIs sofort erfassen, bevor sie die Produktion beeinträchtigen
- Realistische Testumgebung: Agenten testen Skills im exakten Kontext, in dem sie verwendet werden, wodurch die Lücke zwischen Test und Produktion beseitigt wird
- Kein manueller Aufwand: Nach der Konfiguration läuft der Test-Workflow automatisch nach einem Zeitplan, ohne menschliches Eingreifen zu erfordern
- Umfassende Abdeckung: Jeder Skill wird systematisch getestet, um sicherzustellen, dass nichts durchrutscht
- Team-Bewusstsein: Multi-Kanal-Benachrichtigungen halten alle über Testergebnisse und Probleme informiert
Durch die Nutzung der Cloud-Infrastruktur von VM0 und der Agenten-Funktionen von Claude können Sie zuverlässige Integrationen mit externen Diensten aufrechterhalten und gleichzeitig die laufende Wartungsbelastung minimieren. Dieser Ansatz verwandelt Skill-Tests von einem manuellen, fehleranfälligen Prozess in ein vollständig automatisiertes Qualitätssicherungssystem.
Beginnen Sie noch heute mit VM0
Bereit, Ihre eigenen Workflows mit KI-Agenten zu automatisieren? VM0 macht es einfach, produktionsbereite Agenten in Minuten, nicht Wochen, bereitzustellen.
Was Sie mit VM0 bauen können
-
Automatisierte Test-Pipelines
Führen Sie geplante Test-Jobs wie diesen Skill-Tester aus, um Breaking Changes in Drittanbieter-APIs frühzeitig zu erkennen.
-
Content-Generierungs-Workflows
Verwandeln Sie Recherchen, Notizen oder Rohdaten in Blogbeiträge, Dokumentation oder Release Notes ohne manuelles Kopieren und Einfügen.
-
Datenverarbeitungs-Agenten
Ziehen Sie Daten aus mehreren Quellen, bereinigen Sie sie und verschieben Sie sie downstream, während Sie Fehler und Wiederholungen explizit handhaben.
-
Kundenservice-Automatisierung
Triage eingehende Anfragen, entwerfen Sie Antworten und übergeben Sie Sonderfälle bei Bedarf an Menschen.
-
Code-Review und -Analyse
Überprüfen Sie Pull Requests, markieren Sie potenzielle Probleme und setzen Sie grundlegende Regeln durch, bevor ein Mensch den Code ansieht.
Besuchen Sie vm0.ai, um Ihr kostenloses Konto zu erstellen und Ihren ersten Agenten noch heute bereitzustellen. Treten Sie unserer Discord-Community bei, um sich mit anderen Entwicklern zu vernetzen, Ihre Workflows zu teilen und Hilfe vom Team zu erhalten.
Beginnen Sie jetzt, die Zukunft automatisierter Workflows zu gestalten.

