AI एजेंट लागत को स्वचालित रूप से ऑप्टिमाइज़ करें

Zero आपके एजेंट runs का ऑडिट करता है, कार्यों को जटिलता के अनुसार वर्गीकृत करता है, और ऐसे मॉडल स्विच सुझाता है जो आउटपुट क्वालिटी से समझौता किए बिना खर्च कम करते हैं।

Zero जुड़ता है:

Zero क्या डिलीवर करता है

AI एजेंट लागत को स्वचालित रूप से ऑप्टिमाइज़ करें — sample output from Zero — screenshot 1

समस्या क्या है

महीने का अंत। AI इन्फ्रास्ट्रक्चर बिल आता है: इस महीने $17K, पिछले महीने के $12K से ज़्यादा। आप गहराई में जाते हैं और पाते हैं कि दैनिक tech debt scan - जो कुछ grep स्क्रिप्ट चलाता है और GitHub इश्यू फ़ाइल करता है - Claude Opus का उपयोग कर रहा है। merge queue monitor, जो जाँचता है कि CI हरा है और Slack पर पोस्ट करता है, वह भी Opus पर है। दोनों कार्यों में से किसी को भी Opus के करीब कुछ भी नहीं चाहिए। आप हर schedule को मैन्युअल रूप से ऑडिट कर सकते हैं, या आप Zero से कह सकते हैं कि हर कार्य को जटिलता के अनुसार वर्गीकृत करे और सुझाए कि किन्हें डाउनग्रेड करना है।

Zero इसे कैसे ठीक करता है

चरण 1: अपने tools कनेक्ट करें

Slack

ज़रूरी

vm0 - एजेंट run logs, schedule कॉन्फ़िगरेशन, और मॉडल बिलिंग डेटा तक एक्सेस प्रदान करता है। Zero इसका उपयोग यह विश्लेषण करने के लिए करता है कि हर कार्य क्या करता है और इसकी लागत कितनी है।

जोड़ें

चरण 2: Zero से पूछें

@Zero सभी एजेंट schedules और runs का ऑडिट करो। किए गए वास्तविक काम के आधार पर हर कार्य को low, medium, या high जटिलता के रूप में वर्गीकृत करो। सुझाओ कि कौन से कार्य बिना क्वालिटी खोए सुरक्षित रूप से सस्ते मॉडल पर स्विच कर सकते हैं। रिपोर्ट Slack पर पोस्ट करो।

इसे आज़माएं

Zero सभी एजेंट runs और token उपयोग का ऑडिट करता है

Zero आपके एजेंट run logs से क्वेरी करता है, जाँचता है कि हर कार्य वास्तव में क्या करता है - कितने turns, कौन से tools यह कॉल करता है, रीज़निंग कितनी जटिल है - और प्रति कार्य मौजूदा लागत की गणना करता है।

Zero कार्यों को जटिलता टियर के अनुसार वर्गीकृत करता है

Zero कार्यों को तीन बकेट में बाँटता है: कम जटिलता (read-and-summarize, grep-and-post), मध्यम जटिलता (मल्टी-सोर्स एग्रीगेशन, संरचित विश्लेषण), और उच्च जटिलता (कोड जनरेशन, ओपन-एंडेड रीज़निंग)। हर टियर को एक अनुशंसित मॉडल मिलता है।

Zero बचत अनुमानों के साथ कार्रवाई योग्य सुझाव पोस्ट करता है

लागत ऑडिट Slack पर एक स्पष्ट टेबल के साथ आता है: मौजूदा मॉडल, अनुशंसित मॉडल, और प्रति कार्य अनुमानित बचत। Zero फ़्लैग करता है कि कौन से स्विच तुरंत करना सुरक्षित हैं और किन्हें क्वालिटी सत्यापित करने के लिए ट्रायल अवधि की ज़रूरत है।

चरण 3: इसे और आगे ले जाएँ

किसी कम-जोखिम कार्य को सस्ते मॉडल पर स्विच करें

सबसे सुरक्षित सुझाव से शुरू करें और सत्यापित करें कि क्वालिटी बनी रहती है।

@Zero merge-queue-monitor schedule को Sonnet के बजाय GLM-5.2 का उपयोग करने के लिए स्विच करो

इसे आज़माएं

एक तुलना टेस्ट चलाएँ

प्रतिबद्ध होने से पहले दोनों मॉडल पर वही कार्य चलाएँ और आउटपुट की तुलना करें।

@Zero tech-debt-scan prompt को Opus और GLM-5.2 दोनों पर चलाओ, फिर परिणामों की साथ-साथ तुलना करो

इसे आज़माएं

इसे नियमित बनाएँ

साप्ताहिक लागत ऑडिट शेड्यूल करें ताकि खर्च कभी अनदेखे न बढ़े।

@Zero हर सोमवार सुबह 9 बजे, एजेंट लागत का ऑडिट करो और ऑप्टिमाइज़ेशन सुझाव #dev में पोस्ट करो

इसे आज़माएं

बेहतर परिणामों के लिए सुझाव

●कम-जोखिम वाले कार्यों से शुरू करें - मॉनिटरिंग, नोटिफिकेशन और दैनिक सारांश को पहले डाउनग्रेड करना सुरक्षित है। कोड जनरेशन और ओपन-एंडेड रीज़निंग आखिरी में होनी चाहिए।

●हर स्विच से पहले और बाद में क्वालिटी मेट्रिक्स ट्रैक करें। अगर मॉडल बदलने के बाद error-triage-daily इश्यू मिस करने लगे, तो तुरंत वापस लौटें।

●लागत रिपोर्ट साप्ताहिक रूप से रिव्यू करें, मासिक नहीं - छोटे लीक तेज़ी से जुड़ते हैं, और साप्ताहिक ताल बिल आने से पहले समस्याओं को पकड़ लेती है।