सुझाव इंजन से स्वायत्त टीममेट तक के बदलाव पर एक शोध-आधारित नज़र। यह अभी क्यों हो रहा है, इस संक्रमण में क्या टूट रहा है, और राज्य की चाबियाँ सौंपे बिना तैनाती कैसे करें।
कोपायलट युग पठार पर पहुँच रहा है
15 अप्रैल, 2026 को, Sam Altman ने X पर पोस्ट किया कि OpenAI "इस हफ़्ते टीमों और बड़ी कंपनियों पर केंद्रित Codex अपडेट" रोल आउट कर रहा था।
जवाब खुलासा करने वाले थे। हर डेवलपर के लिए जो रोडमैप के बारे में पूछ रहा था, एक और था जो एक कठिन सवाल पूछ रहा था: Codex को अभी भी मुझसे इसे संभालने की ज़रूरत क्यों है? छह महीने पहले, BeyondTrust के शोधकर्ताओं ने एक प्रूफ़-ऑफ़-कॉन्सेप्ट प्रकाशित किया था जो दिखाता था कि एक विशेष रूप से तैयार किया गया Git ब्रांच नाम Codex को उपयोगकर्ता के GitHub टोकन को बाहर निकालने में धोखा दे सकता है। एक कोपायलट जिसे एक ब्रांच नाम के माध्यम से टोकन लीक करने में धोखा दिया जा सकता है, वह कोई सहकर्मी नहीं है। यह सेफ़्टी कैच वाला एक भरा हुआ हथियार है।
वह तनाव 2026 की हर एंटरप्राइज़ AI बातचीत के नीचे बैठा है। कोपायलट अपनी सीमा पर पहुँच गए हैं, और संख्याएँ यही कहती हैं:
- MIT की NANDA पहल ने 2025 में रिपोर्ट किया कि 95% जनरेटिव AI पायलट मापने-योग्य व्यावसायिक मूल्य देने में विफल होते हैं।
- एक RAND अध्ययन जिसे 2026 की शुरुआत में Reddit के r/ArtificialIntelligence में बार-बार उद्धृत किया गया, ने पाया कि AI एजेंट प्रोजेक्ट का 80 से 90% प्रोडक्शन वातावरण में विफल होता है।
- GitHub Copilot के लिए डेवलपर स्वीकृति दर लगभग 35 से 40% पर समतल हो गई है, जबकि Cursor 42 से 45% पर बैठता है और Claude Code ने 2026 AI कोडिंग सर्वेक्षण में 46% "सबसे पसंदीदा" रेटिंग अर्जित की। एक ऐसे टूल के लिए चौंकाने वाला उलटफेर जो केवल मई 2025 में लॉन्च हुआ।
- Satya Nadella ने कथित तौर पर 2025 के अंत में Microsoft के आंतरिक Copilot रोलआउट को "लगभग अनुपयोगी" कहा, और कंपनी ने वह घोषणा की जिसे अधिकारियों ने आंतरिक रूप से प्रोडक्ट के "उच्च-दांव वाले रीसेट" के रूप में वर्णित किया।
- 2025 के अंत में प्रकाशित एक arXiv अध्ययन ने पाया कि कोपायलट-शैली का ऑटोकंप्लीट वास्तव में विशेषज्ञ डेवलपर्स के बीच निराशा बढ़ा देता है, क्योंकि यह उनके प्रवाह को ऐसे सुझावों से बाधित करता है जो प्रशंसनीय लेकिन सूक्ष्म रूप से गलत थे।
पठार अंतर्निहित मॉडलों की विफलता नहीं है। यह इंटरैक्शन पैटर्न की विफलता है। एक कोपायलट व्यक्तिगत कीस्ट्रोक या सवाल के स्तर पर काम करता है। एक सहकर्मी वर्कफ़्लो के स्तर पर काम करता है। Bits&Chips ने अपने अप्रैल 2026 के निबंध "From copilot to colleague" में इसे अच्छी तरह से तैयार किया: "एक कोपायलट व्यक्तिगत इंटरैक्शन के स्तर पर काम करता है, जबकि एक एजेंट वर्कफ़्लो के स्तर पर काम करता है। जो मायने रखता है, क्योंकि ज़्यादातर संगठनों में अड़चन व्यक्तिगत कार्य नहीं है। यह कार्यों के बीच समन्वय है।"
यही वह बदलाव है जो एंटरप्राइज़ अब करने की कोशिश कर रहे हैं। असमान रूप से, अपूर्ण रूप से, और सार्थक पैमाने पर।
स्वायत्तता स्पेक्ट्रम
"एजेंट" एक मार्केटिंग शब्द बन गया है, तो आइए ठोस हो जाएँ। AI स्वायत्तता के चार अलग-अलग स्तर हैं, और 2025 और 2026 में अधिकांश निराशा एक को दूसरे के साथ भ्रमित करने से आई।
स्तर 1: कोपायलट
सुझाव देता है। अनुमति माँगता है। आपकी स्क्रीन पर रहता है। GitHub Copilot का ऑटोकंप्लीट आदर्श है। मूल्य बचाए गए कीस्ट्रोक में मापा जाता है।
स्तर 2: असिस्टेंट
सवालों के जवाब देता है और अनुरोध पर आर्टिफैक्ट तैयार करता है। ChatGPT, ब्राउज़र में Claude, Microsoft 365 Copilot का चैट पैनल। मूल्य मसौदा गुणवत्ता और संदर्भ संश्लेषण में मापा जाता है।
स्तर 3: एजेंट
एक लक्ष्य स्वीकार करता है, चरणों का एक क्रम योजना बनाता है, टूल भर में निष्पादित करता है, वापस रिपोर्ट करता है। Claude Code एक रिपॉज़िटरी स्कैन करता है और एक PR खोलता है। ChatGPT का Deep Research 20 मिनट की खोज चलाता है और एक उद्धृत रिपोर्ट लौटाता है। Anthropic ने Rakuten के लिए 7-घंटे का स्वायत्त इंजीनियरिंग कार्य पूरा करने वाली एक Claude इंस्टेंस का दस्तावेज़ीकरण किया। मूल्य प्रति मानव घंटे खर्च किए गए पूर्ण वर्कफ़्लो में मापा जाता है।
स्तर 4: सहकर्मी
एक एजेंट जो आपके मौजूदा अनुमति मॉडल के भीतर काम करता है, आपकी टीम के संचार चैनलों में भाग लेता है, दिनों और हफ़्तों तक संदर्भ रखता है, और एक मानव कर्मचारी के समान ऑडिट ट्रेल के प्रति जवाबदेह है। यही सीमांत है।
Reddit के r/ChatGPT समुदाय ने इन स्तरों को अलग बताने के लिए एक व्यावहारिक परीक्षण सामने लाया, संक्षेप में: क्या वह चीज़ पहल करती है, या यह हर निर्देश का इंतज़ार करती है? क्या यह अप्रत्याशित स्थितियों को संभालती है, या यह क्रैश हो जाती है और आपको फिर से प्रॉम्प्ट करने पर मजबूर करती है? क्या यह एक बहु-चरणीय कार्य में संदर्भ याद रखती है, या आपको खुद को दोहराना पड़ता है? 2025 में "AI एजेंट" के रूप में विपणन किए गए अधिकांश प्रोडक्ट उन सवालों में से हर एक में विफल रहे। जो पास हुए वही हैं जिनका लोग अब मतलब रखते हैं जब वे "सहकर्मी" कहते हैं।
कंप्यूटर उपयोग बनाम स्किल्स: प्लंबिंग क्यों मायने रखती है
एक सहकर्मी-स्तरीय AI को दुनिया में कार्य करने की ज़रूरत है। इसके दो आर्किटेक्चरल दृष्टिकोण हैं, और वे बहुत अलग जोखिम प्रोफ़ाइल रखते हैं।
कंप्यूटर उपयोग
AI एक नकली माउस और कीबोर्ड चलाता है। यह सचमुच एक स्क्रीन देखता है और बटन क्लिक करता है। Anthropic ने 2024 के अंत में Computer Use भेजा, और OpenAI का Operator उसके बाद आया। आकर्षण सार्वभौमिकता है: GUI वाला कोई भी सॉफ़्टवेयर संबोधित-योग्य बन जाता है।
लागत है ब्लास्ट रेडियस। एक कंप्यूटर-उपयोग करने वाला एजेंट लॉग-इन उपयोगकर्ता की हर अनुमति विरासत में लेता है। अक्टूबर 2025 में, BeyondTrust की सुरक्षा टीम ने प्रदर्शित किया कि OpenAI के Codex एजेंट को, शेल कमांड के साथ एम्बेड किए गए एक दुर्भावनापूर्ण Git ब्रांच नाम के माध्यम से, उपयोगकर्ता के GITHUB_TOKEN को पढ़ने और बाहर निकालने में धोखा दिया जा सकता है। एजेंट ठीक वही कर रहा था जो एक मानव डेवलपर करता (एक ब्रांच चेक आउट करना), लेकिन उसके पास कोई अंतर्ज्ञान नहीं था कि ब्रांच नाम स्वयं शत्रुतापूर्ण इनपुट था। उस घटना में अधिकार मॉडल सब-कुछ-या-कुछ-नहीं था। यही कंप्यूटर उपयोग का डिफ़ॉल्ट विफलता मोड है।
स्किल्स
AI अलग-अलग स्किल्स को आह्वान करता है। प्रत्येक स्किल एक स्पष्ट, टाइप किया गया फ़ंक्शन है जिसका एक संकीर्ण अनुबंध है: "Slack में q से मेल खाने वाले संदेश खोजें", "title और body के साथ एक Linear इश्यू बनाएँ", "यह GitHub फ़ाइल पढ़ें।" कंप्यूटर उपयोग के विपरीत, एक स्किल का पूर्व-अनुमोदित आकार होता है। एजेंट इसे केवल उन पैरामीटरों के साथ कॉल कर सकता है जो अनुबंध से मेल खाते हैं, और प्लेटफ़ॉर्म उस कॉल को सैंडबॉक्स छोड़ने से पहले अनुमति दे सकता है, अस्वीकार कर सकता है, या उस पर प्रॉम्प्ट कर सकता है।
अंतर, सुरक्षा शब्दों में, न्यूनतम विशेषाधिकार के सिद्धांत पर आता है। यह सूचना सुरक्षा में एक मौलिक विचार है: एक प्रक्रिया के पास केवल उन संसाधनों तक पहुँच होनी चाहिए जिनकी उसे अपना कार्य करने के लिए ज़रूरत है, और इससे अधिक नहीं। स्किल्स आपको प्रति कॉल न्यूनतम विशेषाधिकार लागू करने देती हैं। कंप्यूटर उपयोग नहीं देता।
एक सहकर्मी-स्तरीय तैनाती संरचित क्रियाओं (एक CRM में लिखना, एक टिकट खोलना) के लिए स्किल्स का उपयोग करती है, और कंप्यूटर उपयोग को उन अनुप्रयोगों की संकीर्ण पूँछ के लिए आरक्षित रखती है जो एक API उजागर करने से इनकार करते हैं। अनुपात मायने रखता है। यदि आपकी एजेंट तैनाती में हर क्रिया एक नकली माउस से गुज़र रही है, तो आपके पास एक उत्पादकता डेमो है, एक प्रोडक्शन सिस्टम नहीं।
वह ट्रस्ट आर्किटेक्चर जो एंटरप्राइज़ को वास्तव में चाहिए
कोपायलट से सहकर्मी तक का बदलाव एक मॉडल अपग्रेड नहीं है। यह एक इंफ्रास्ट्रक्चर अपग्रेड है। तीन तत्व एक तैनाती-योग्य सहकर्मी को एक देयता से अलग करते हैं।
1. अनुमति आइसोलेशन
प्रत्येक एजेंट अपनी खुद की अनुमति सीमा के भीतर काम करता है, ऐसे क्रेडेंशियल के साथ जिन्हें एजेंट स्वयं अपने सैंडबॉक्स से बाहर नहीं निकाल सकता। Andrej Karpathy का वायरल मार्च 2026 autoresearch प्रयोग, जहाँ उन्होंने एक एजेंट को दो दिनों में बिना निगरानी के 700 प्रशिक्षण प्रयोग चलाने दिए, इस बात के लिए शिक्षाप्रद है कि उसने क्या नहीं किया। Karpathy की अपनी रिपॉज़िटरी उपयोगकर्ताओं को स्वायत्त मोड में "सभी अनुमतियाँ अक्षम करने" का निर्देश देती है। यह एक व्यक्तिगत शोध लैपटॉप के लिए ठीक है। यह एक विनियमित एंटरप्राइज़ के अंदर नौकरी से निकाले जाने योग्य अपराध है।
प्रति-उदाहरण है Moltbook, AI-केवल सोशल नेटवर्क जो जनवरी 2026 के अंत में 1.5 मिलियन स्वायत्त एजेंट के साथ संक्षेप में वायरल हुआ। Karpathy ने इसकी "हाल ही में देखी गई सबसे अविश्वसनीय साय-फ़ाई टेकऑफ़-नज़दीकी चीज़" के रूप में प्रशंसा की। फिर Wiz के सुरक्षा शोधकर्ताओं ने फ्रंट एंड पर एक उजागर डेटाबेस API की खोजी, जो पूरे प्रोडक्शन डेटाबेस तक पूर्ण रीड/राइट एक्सेस प्रदान करती थी, जिसमें सभी 1.5 मिलियन एजेंट के लिए ऑथेंटिकेशन टोकन शामिल थे। Karpathy ने 24 घंटे के भीतर रास्ता बदल लिया: "यह एक कचरे की आग है। मैं निश्चित रूप से लोगों को यह सामान अपने कंप्यूटर पर चलाने की सलाह नहीं देता।" सबक "एजेंट खतरनाक हैं" नहीं है। सबक यह है कि प्रति-पहचान अनुमति आइसोलेशन के बिना तैनात किए गए एजेंट एक साझा ब्लास्ट रेडियस में ढह जाते हैं।
2. ऑडिट ट्रेल्स
हर क्रिया लॉग की गई, हर निर्णय ट्रेस-योग्य। Singapore का IMDA फ्रेमवर्क, जनवरी 2026 में Davos में जारी किया गया, इसे एक दो-अक्ष जोखिम मैट्रिक्स के साथ संहिताबद्ध करता है जो एक एजेंट के एक्शन-स्पेस (पढ़ें बनाम लिखें, प्रतिवर्ती बनाम अपरिवर्तनीय) को उसकी स्वायत्तता (यह कितने स्वतंत्र रूप से निर्णय लेता है) के विरुद्ध मैप करता है। दोनों में से कोई भी अक्ष जितना ऊपर जाता है, ऑडिट आवश्यकता उतनी ही समृद्ध होती है। इस फ्रेमवर्क का यूरोपीय और अमेरिकी नियामकों द्वारा बारीकी से अध्ययन किया जा रहा है क्योंकि यह गवर्नेंस को अमूर्त सिद्धांतों से एक संचालनात्मक कैलिब्रेशन टूल में अनुवादित करने वाले पहले फ्रेमवर्क में से एक है।
Simon Willison ने समानांतर में एकीकृत लॉगिंग के लिए तर्क दिया है ताकि एजेंट अपने स्वयं के संचालन की निगरानी कर सकें और त्रुटियों से उबर सकें: "पूर्ण सिस्टम एक्सेस वाले एजेंट शक्तिशाली, और खतरनाक हैं।" व्यावहारिक बिंदु: यदि आपकी एजेंट तैनाती में कोई एकीकृत लॉग नहीं है जिसे एक अनुपालन अधिकारी क्रम में पढ़ सके, तो आप तैनात करने का विशेषाधिकार खोने से ठीक एक घटना दूर हैं।
3. दायरा-बद्ध स्किल एक्सेस
"ईमेल तक पहुँच" नहीं। search inbox where from:@customer.com AND within last 7 days तक पहुँच। आधुनिक एजेंट प्लेटफ़ॉर्म पैरामीटराइज़्ड दायरों की ओर बढ़ रहे हैं, जहाँ एक एजेंट की एक स्किल आह्वान करने की अनुमति उन तर्कों से सीमित होती है जिन्हें एक प्रशासक पूर्व-अनुमोदित करता है, न कि उस भोंडे OAuth दायरे से जिसका मानव उपयोग करता।
उन तीन टुकड़ों को एक साथ रखें और वे उस सवाल का जवाब देते हैं जो हर CISO अभी पूछ रहा है: जब यह एजेंट गलत होता है तो यह क्या करता है, और मुझे कैसे पता चलेगा? 2026 McKinsey State of AI सर्वेक्षण ने पाया कि 72% एंटरप्राइज़ उत्तरदाताओं ने जनरेटिव AI के साथ साइबर सुरक्षा को एक चिंता के रूप में उद्धृत किया, और लगभग दो-तिहाई उत्तरदाताओं द्वारा सुरक्षा को एजेंटिक वर्कफ़्लो को स्केल करने में #1 बाधा के रूप में नामित किया गया। अनुमति आइसोलेशन, ऑडिट ट्रेल्स, और दायरा-बद्ध स्किल एक्सेस कोई अनुपालन नाटक नहीं हैं। वे गेटिंग इंफ्रास्ट्रक्चर हैं।
यह अभी क्यों मायने रखता है: तीन शक्तियाँ एकत्रित हो रही हैं
2026 में कोपायलट से सहकर्मी तक का बदलाव किसी एकल सफलता से प्रेरित नहीं है। यह तीन वक्रों के प्रतिच्छेदन का परिणाम है।
शक्ति 1: इंटीग्रेशन ने अनुकूलित होना बंद कर दिया
2024 में, एक एजेंट को एक कॉर्पोरेट SaaS स्टैक में जोड़ने का मतलब प्रति टूल एक कस्टम कनेक्टर लिखना था। 2026 की शुरुआत तक, टाइप किए गए स्किल अनुबंध और पूर्व-पैकेज्ड कनेक्टर ने उस काम को ढहा दिया है। एक एजेंट जिसे 2024 में छह हफ़्ते के इंटीग्रेशन की ज़रूरत थी उसे 2026 में एक दोपहर की ज़रूरत है। एक विशिष्ट मध्य-बाज़ार कंपनी का सतह क्षेत्र (Slack, GitHub, Gmail, Linear, Notion, HubSpot, CRM, कैलेंडर) अब परिपक्व, ओपन-सोर्स कनेक्टर लाइब्रेरीज़ द्वारा कवर किया जाता है जो टाइप की गई अनुमतियों के साथ आते हैं।
शक्ति 2: मल्टी-एजेंट वास्तविक हो रहा है
Gartner ने मल्टी-एजेंट सिस्टम को 2026 के लिए एक शीर्ष रणनीतिक तकनीक प्रवृत्ति नामित किया। प्रतिष्ठित VP विश्लेषक Gene Alvarez ने वह रूपक पेश किया जो अब हर एंटरप्राइज़ AI स्लाइड पर दोहराया जाता है: "एक Formula 1 पिट क्रू के बारे में सोचें। प्रत्येक सदस्य की एक विशेष भूमिका होती है (टायर बदलने वाला, ईंधन भरने वाला, जैक ऑपरेटर) लेकिन वे एक एकल लक्ष्य के इर्द-गिर्द कोरियोग्राफ़ किए जाते हैं। यही 2026 में एंटरप्राइज़ एजेंट तैनातियों का आकार है।" एकल-एजेंट सिस्टम लंबी-अवधि वाले कार्यों पर तर्क सीमा से टकराते हैं। मल्टी-एजेंट सिस्टम, विशेष भूमिकाओं और स्पष्ट हैंडऑफ़ के साथ, वही हैं जिनसे टीमें आज उन सीमाओं के इर्द-गिर्द जा रही हैं।
शक्ति 3: एंटरप्राइज़ बजट खुल रहे हैं
- G2 ने अपने 2026 State of Software शोध में रिपोर्ट किया कि 57% कंपनियों के पास प्रोडक्शन में AI एजेंट हैं (एक साल पहले लगभग 20% से ऊपर)।
- McKinsey ने पाया कि 23% एंटरप्राइज़ सक्रिय रूप से एजेंटिक AI स्केल कर रहे हैं, जबकि 62% प्रयोग में हैं। इससे केवल लगभग 15% बड़े संगठन अभी भी किनारे पर रह जाते हैं।
- Deloitte के 3,235 एंटरप्राइज़ नेताओं के 2026 सर्वेक्षण ने वित्तीय सेवाओं को अग्रणी अपनाने वाले के रूप में पहचाना, एक AI एजेंट के एक प्रलेखित केस स्टडी के साथ जो एक डील पाइपलाइन भर में मीटिंग परिणामों को पकड़ता और उन पर कार्य करता था जिसके लिए पहले तीन विश्लेषकों की ज़रूरत थी।
- Stanford का Enterprise AI Playbook, 2026 की शुरुआत में प्रकाशित, ने 51 प्रोडक्शन तैनातियों को सूचीबद्ध किया, एक फ़िनटेक ETL माइग्रेशन केस के विनियमित-उद्योग टीमों के लिए संदर्भ कार्यान्वयन बनने के साथ।
- रिपोर्ट किया गया एंटरप्राइज़ AI इंफ्रास्ट्रक्चर निवेश 2025 चक्र में $600 बिलियन पार कर गया।
- Anthropic के Dario Amodei ने, Code with Claude सम्मेलन में बोलते हुए, एजेंट कार्यबलों द्वारा संचालित, 2026 में पहली एक-व्यक्ति, एक-अरब-डॉलर कंपनी के उभरने की 70 से 80% संभावना दी।
पैसा वहाँ है, प्रोटोकॉल वहाँ है, और आर्किटेक्चर वहाँ है। अब हर बोर्ड रूम में जिस पर बातचीत हो रही है वह है कितनी स्वायत्तता, किस गवर्नेंस के तहत, और किन वर्कफ़्लो के लिए।
संशयवादी का तर्क: Reddit, arXiv, और घटना रिपोर्ट क्या कहती हैं
इस बदलाव पर एक ज़िम्मेदार नज़र को उन लोगों के साथ गंभीरता से जुड़ना होगा जो सोचते हैं कि पूरी चीज़ का ज़्यादा प्रचार किया गया है।
Reddit पर, r/LocalLLaMA, r/ClaudeCode, और r/ChatGPT में आम सहमति व्यावहारिक है: कोडिंग एजेंट आ गए हैं और उपयोगी हैं। अधिकांश अन्य "एजेंट" एक चैटबॉट पोशाक पहने ऑटोमेशन वर्कफ़्लो हैं। दर्जनों 2026 थ्रेड में उद्धृत पंक्ति, "जब आप सुझाव चाहते हैं तो Copilot का उपयोग करें। जब आप चाहते हैं कि यह वास्तव में कुछ करे तो Claude Code या Cursor का उपयोग करें," उत्पादक विभाजन को पकड़ती है। वही समुदाय बेंचमार्क के बारे में बेरहम हैं। यहाँ तक कि सबसे अच्छे एजेंट भी Terminal-Bench पर कुल मिलाकर लगभग 60% स्कोर करते हैं और कठिन कार्यों पर 16% तक गिर जाते हैं। Claude Opus 4.5 SWE-bench में 80.9% पर अग्रणी है, जिसका अभी भी मतलब है कि पाँच में से एक कार्य विफल होता है।
अकादमिक संशय को झटकना कठिन है। Vishal Sikka (पूर्व SAP CTO, John McCarthy के छात्र) और उनके सहयोगी ने Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models प्रकाशित किया, गणितीय रूप से तर्क देते हुए कि ट्रांसफ़ॉर्मर LLM एक निश्चित जटिलता सीमा से परे कंप्यूटेशनल और एजेंटिक कार्यों को निष्पादित करने की अपनी क्षमता में मौलिक रूप से सीमित हैं। Sikka का निष्कर्ष, अत्यधिक महत्वपूर्ण संचालन के लिए "उनके विश्वसनीय होने का कोई तरीका नहीं है," अभी हर CISO Slack में फैल रहा है। पेपर यह दावा नहीं करता कि एजेंट बेकार हैं। यह दावा करता है कि समस्या का एक वर्ग है जहाँ आप मानव को लूप से बाहर नहीं ले जा सकते, चाहे मॉडल कितना भी अच्छा हो जाए।
वास्तविक घटनाएँ संशय का समर्थन करती हैं। Yellow.ai के 2026 सर्वेक्षण में उद्धृत एक खुदरा CX नेता: "हमें केवल दो हफ़्तों के बाद अपना AI समर्थन वापस खींचना पड़ा, क्योंकि इसने लगभग 1.35% टिकट में गलत रिटर्न नीतियाँ उद्धृत करना और छूट प्रस्ताव गढ़ना शुरू कर दिया। उन गलतियों का सम्मान करने की लागत हमारी बचाने की उम्मीद से कहीं अधिक थी।" पैमाने पर, यहाँ तक कि 2% से कम त्रुटि दर भी तेज़ी से महँगी हो जाती है।
संश्लेषण: सहकर्मी-स्तरीय AI कोडिंग, अनुसंधान, संरचित संचालन, और संकीर्ण समर्थन वर्कफ़्लो में वास्तविक है। यह बिना एक मानव समीक्षक के खुले-छोर वाले ग्राहक-सामना इंटरैक्शन में अभी तक वास्तविक नहीं है। 2026 में मूल्य प्राप्त करने वाले एंटरप्राइज़ वे हैं जो इस बारे में ईमानदार हैं कि एक वर्कफ़्लो किस बकेट में आता है।
व्यावहारिक निहितार्थ: तैनात करने से पहले पाँच सवाल
यदि आपकी टीम एक AI टीममेट (आंतरिक रूप से निर्मित या तृतीय-पक्ष) का मूल्यांकन कर रही है, तो ये वे सवाल हैं जो एक प्रोडक्शन तैनाती को एक नियर-मिस से अलग करते हैं।
-
इस एजेंट द्वारा की जा सकने वाली सबसे खराब एकल क्रिया का ब्लास्ट रेडियस क्या है? इसे शाब्दिक रूप से मैप करें। यदि सबसे खराब स्थिति "गलत व्यक्ति को एक मसौदा ईमेल भेजता है" है, तो गवर्नेंस मानदंड कम है। यदि यह "प्रोडक्शन डेटा संशोधित करता है" या "वायर निर्देश भेजता है" है, तो मानदंड परिमाण के एक क्रम से ऊँचा है। इसे तैनात करने से पहले मैप करें, पहली घटना के बाद नहीं।
-
एजेंट अपने क्रेडेंशियल कैसे प्राप्त करता है, और क्या यह कभी कच्चा टोकन पढ़ सकता है? तीन जवाब हैं, और केवल एक सुरक्षित है। यदि एजेंट के पास अपने वातावरण में उपयोगकर्ता के OAuth टोकन की एक प्रति है, तो आपने प्रभावी रूप से LLM को अपना बटुआ दे दिया है। यदि एजेंट के पास एक अलग सेवा-खाता OAuth के माध्यम से "अपनी खुद की" पहचान है, तो आपको इसे एक वास्तविक प्रधान के रूप में ट्रैक और निरस्त करने की ज़रूरत है। तीसरा जवाब, जो वह है जो आप वास्तव में चाहते हैं: टोकन कभी एजेंट तक नहीं पहुँचता। यह प्लेटफ़ॉर्म पर, एन्क्रिप्टेड रहता है, और नेटवर्क-प्रॉक्सी परत पर ठीक समय पर इंजेक्ट किया जाता है, केवल उन कॉल के लिए जो एक नीति जाँच पास कर गईं, केवल तब तक जब तक कॉल वापस नहीं आती।
-
क्या हर क्रिया कहीं ऐसी जगह लॉग की जाती है जिसे एक अनुपालन अधिकारी क्रम में पढ़ सके? एकीकृत, क्वेरी-योग्य, छेड़छाड़-स्पष्ट। यदि आपका जवाब है "हमारे पास CloudWatch में कहीं कुछ लॉग हैं," तो आप तैयार नहीं हैं।
-
क्या आप स्किल एक्सेस को उन विशिष्ट पैरामीटरों तक सीमित कर सकते हैं जिनकी इस वर्कफ़्लो को ज़रूरत है? प्रति कॉल, प्रति इंटीग्रेशन नहीं। पढ़ें बनाम लिखें। संसाधन ID के अनुसार। समय विंडो के अनुसार। एजेंट की अनुमतियाँ काम के इर्द-गिर्द कसकर खींचा गया एक आयत होनी चाहिए, पूरा गोदाम नहीं।
-
अगर कुछ गलत होता है तो रोलबैक कहानी क्या है? आप एक क्रिया को कैसे उलटते हैं? कितनी तेज़ी से? किसे पेज किया जाता है? अपरिवर्तनीय क्रियाओं (पैसा हस्तांतरण, ग्राहक-सामना ईमेल, प्रोडक्शन तैनाती) को एक पुष्टिकरण चरण या एक विलंब विंडो की ज़रूरत होती है। प्रतिवर्ती क्रियाएँ स्वायत्त रूप से चल सकती हैं।
पाँचों पर काम करें। यदि आप उन सभी का जवाब दे सकते हैं, तो आप पहले से ही कोपायलट युग से आगे और उस हिस्से में हैं जो वास्तव में बदलता है कि आपकी टीम कैसे शिप करती है। यदि आप दो या तीन का जवाब दे सकते हैं, तो आगे वहीं ध्यान केंद्रित करना है, इंतज़ार करने का कारण नहीं। वह सहकर्मी-स्तरीय टीममेट जिसके लिए आपका रोडमैप पहुँच रहा है, आज कहीं प्रोडक्शन में चल रहा है। आपके और उसके बीच का अंतर एक इंफ्रास्ट्रक्चर अंतर है, एक फ्रंटियर-AI अंतर नहीं। और इंफ्रास्ट्रक्चर अंतर तेज़ी से बंद होते हैं।
आपको अगली मॉडल रिलीज़ का इंतज़ार करने की ज़रूरत नहीं है। आपको एक ऐसा प्लेटफ़ॉर्म चुनने की ज़रूरत है जो पहले से ही आपके लिए इन पाँचों का जवाब देता हो, और अपने एजेंट को वास्तविक काम देना शुरू करें।
अक्सर पूछे जाने वाले सवाल
एक कोपायलट और एक AI सहकर्मी के बीच असली अंतर क्या है?
एक कोपायलट सुझाव देता है, अनुमति माँगता है, और एक एकल टूल के अंदर रहता है। एक सहकर्मी लक्ष्य स्वीकार करता है, प्रणालियों भर में योजना बनाता है, दायरा-बद्ध अनुमतियों के साथ निष्पादित करता है, और एक मानव के समान ऑडिट ट्रेल के प्रति जवाबदेह है। Bits&Chips ने इसे साफ़ तौर पर कहा: कोपायलट इंटरैक्शन स्तर पर काम करते हैं, सहकर्मी वर्कफ़्लो स्तर पर काम करते हैं।
एजेंट को उपयोगकर्ता क्रेडेंशियल कैसे संभालने चाहिए?
स्पष्ट विकल्पों में से कोई भी सही नहीं है। उपयोगकर्ता के OAuth टोकन को एजेंट के वातावरण में कॉपी करना LLM के संदर्भ के अंदर एक जीवंत क्रेडेंशियल डालता है। प्रति एजेंट एक अलग पहचान बनाना हर एजेंट को एक प्रधान में बदल देता है जिसे आपको एक मानव की तरह ट्रैक, निरस्त और ऑडिट करना होता है। जो पैटर्न व्यवहार में काम करता है वह है ब्रोकर्ड एक्सेस: टोकन प्लेटफ़ॉर्म पर, एन्क्रिप्टेड रहता है; सैंडबॉक्स का आउटबाउंड नेटवर्क प्रॉक्सी अनुरोध समय पर प्लेटफ़ॉर्म को वापस कॉल करता है; प्लेटफ़ॉर्म टोकन डिक्रिप्ट करता है और केवल उन कॉल के लिए हल किए गए ऑथ हेडर लौटाता है जो एक नीति जाँच पास कर गईं; एजेंट स्वयं कभी कच्चे टोकन को नहीं पढ़ता, लॉग नहीं करता, या उस पर प्रॉम्प्ट नहीं करता।
कंप्यूटर उपयोग या स्किल्स, हमें कौन सा चुनना चाहिए?
डिफ़ॉल्ट रूप से स्किल्स, किसी भी ऐसी चीज़ के लिए जिसमें एक API है। कंप्यूटर उपयोग केवल तब जब लक्ष्य प्रणाली के पास कोई प्रोग्राम-योग्य इंटरफ़ेस नहीं है। BeyondTrust Codex घटना चेतावनी की कहानी है: कंप्यूटर उपयोग उपयोगकर्ता की पूर्ण अनुमतियाँ विरासत में लेता है, और एजेंट के दृष्टि क्षेत्र में कहीं भी एक दुर्भावनापूर्ण इनपुट एक शोषण बन सकता है।
हमें वास्तव में एजेंट को कितना स्वायत्त चलने देना चाहिए?
Singapore IMDA की दो-अक्ष फ्रेमिंग का उपयोग करें: एक्शन-स्पेस × स्वायत्तता। संकीर्ण एक्शन-स्पेस (केवल-पढ़ें, प्रतिवर्ती) उच्च स्वायत्तता को सहन करता है। व्यापक एक्शन-स्पेस (लेखन, अपरिवर्तनीय, ग्राहक-सामना) मानव पुष्टिकरण, या हस्तक्षेप करने के लिए एक समय-विलंबित विंडो की माँग करता है। सबसे खराब कॉन्फ़िगरेशन बिना किसी ऑडिट ट्रेल के उच्च-दांव वाली क्रियाओं पर उच्च स्वायत्तता है।
हम ROI कैसे मापें?
बचाए गए कीस्ट्रोक मापना बंद करें। प्रति मानव घंटे खर्च किए गए पूर्ण वर्कफ़्लो, संचालन घटनाओं पर समाधान-तक-का-समय, और एस्केप रेट (वे कार्य जो एजेंट ने एक मानव को वापस सौंपे) मापें। Deloitte के 2026 निष्कर्ष सुझाव देते हैं कि अग्रणी अपनाने वाले तीन मेट्रिक्स ट्रैक कर रहे हैं: वर्कफ़्लो पूर्णता दर, त्रुटि दर, और मानव-हस्तक्षेप दर, और उनके बीच के अनुपात को अनुकूलित कर रहे हैं।
हम 95% पायलट विफलता दर के बारे में क्या करें?
MIT NANDA के विश्लेषण को ध्यान से पढ़ें। जो पायलट विफल हुए वे ज़्यादातर "Dumb RAG" (सब कुछ संदर्भ में डालना), "Brittle Connectors" (टूटे हुए API इंटीग्रेशन), और कोई इवेंट-संचालित आर्किटेक्चर नहीं पर चले। जो पायलट सफल हुए उनके पास LLM के इर्द-गिर्द एक संचालन परत थी: मेमोरी, I/O, और अनुमतियाँ। LLM कर्नेल अड़चन नहीं है। आसपास का इंफ्रास्ट्रक्चर है।
VM0 कहाँ फिट बैठता है
हमने Zero को एक आर्किटेक्चरल दाँव के इर्द-गिर्द बनाया: एजेंट को कभी क्रेडेंशियल नहीं रखना चाहिए। अपने वातावरण में नहीं, अपने प्रॉम्प्ट में नहीं, अपनी मेमोरी में नहीं। टोकन प्लेटफ़ॉर्म पर रहता है। एजेंट द्वारा की गई हर आउटबाउंड कॉल एक नेटवर्क प्रॉक्सी के माध्यम से ब्रोकर की जाती है जो, प्रति कॉल, यह तय करता है कि एक ऑथ हेडर इंजेक्ट करना है या अनुरोध को ब्लॉक करना है।
यह एक असामान्य विकल्प है। 2026 में आम पैटर्न या तो एजेंट को उसकी अपनी OAuth पहचान देना है (अब आपके पास ऑडिट और निरस्त करने के लिए एक दूसरा प्रधान है) या इसे एक env var में उपयोगकर्ता के टोकन की एक प्रति सौंपना है (अब LLM आपका बटुआ पढ़ सकता है)। हम दोनों में से कोई नहीं करते। यहाँ है कि यह वास्तव में कैसे काम करता है।
टोकन कभी एजेंट तक नहीं पहुँचता। जब आप Zero (GitHub, Slack, Gmail, Linear, Notion, HubSpot, इत्यादि) से एक कनेक्टर जोड़ते हैं, तो OAuth टोकन प्लेटफ़ॉर्म पर एन्क्रिप्टेड संग्रहीत होता है। रिफ्रेश टोकन डेटाबेस में रहते हैं और इसे कभी नहीं छोड़ते। सैंडबॉक्स के अंदर, पढ़ने के लिए कोई GITHUB_TOKEN एनवायरनमेंट वेरिएबल नहीं है, खोलने के लिए कोई सीक्रेट फ़ाइल नहीं है, टोकन लौटाने वाला कोई टूल नहीं है।
एक नेटवर्क प्रॉक्सी हर कॉल को ब्रोकर करता है। सैंडबॉक्स छोड़ने वाला हर HTTP अनुरोध एक mitmproxy-आधारित ऐडऑन से गुज़रता है। प्रॉक्सी अनुरोध के होस्टनाम से कनेक्टर की पहचान करता है, उस एजेंट के लिए फ़ायरवॉल नीति देखता है, और जाँचता है कि क्या मेथड-और-पथ की अनुमति है। यदि है, तो प्रॉक्सी प्लेटफ़ॉर्म के वेबहुक को वापस कॉल करता है। प्लेटफ़ॉर्म टोकन डिक्रिप्ट करता है, यदि यह समाप्त हो गया है तो इसे रिफ्रेश करता है, किसी भी हेडर टेम्पलेट को हल करता है (${{ secrets.GITHUB_TOKEN }} असली मान बन जाता है), और केवल हल किए गए ऑथ हेडर प्रॉक्सी को लौटाता है। प्रॉक्सी उन हेडर को आउटगोइंग अनुरोध में इंजेक्ट करता है। जब कॉल पूरी होती है, हेडर प्रॉक्सी मेमोरी से चले जाते हैं। एजेंट ने उन्हें कभी नहीं देखा।
अनुमतियाँ प्रति-एजेंट, प्रति-कनेक्टर, और एंडपॉइंट स्तर पर टाइप की गई होती हैं। प्रत्येक एजेंट एक नीति ऑब्जेक्ट रखता है जो प्रत्येक कनेक्टर को नामित अनुमति समूहों के एक सेट में मैप करता है। github:repo-read कोई अस्पष्ट दायरा नहीं है। यह विशिष्ट मेथड-और-पथ नियमों का एक बंडल है, उदाहरण के लिए GET /repos/{owner}/{repo}/pulls। GitHub एक्सेस प्रदान करना GitHub प्रदान नहीं करता। यह GitHub के अंदर इरादे का एक आकार प्रदान करता है।
दो नहीं, तीन नीति स्थितियाँ। हर अनुमति allow, deny, या ask में हल होती है। अंतिम वाला क्रिया फ़ायर होने से पहले एक मानव को प्रॉम्प्ट करता है। जो कुछ भी फ़ायरवॉल स्पष्ट रूप से मेल नहीं खाता वह एक प्रति-कनेक्टर unknownPolicy में गिरता है, जो डिफ़ॉल्ट रूप से deny होता है। न्यूनतम विशेषाधिकार डिफ़ॉल्ट है, ऑप्ट-इन नहीं।
प्रति रन एक सैंडबॉक्स। हर एजेंट निष्पादन अपने खुद के Firecracker माइक्रोVM के अंदर एक पृथक नेटवर्क नेमस्पेस के साथ चलता है। जब रन समाप्त होता है, नेमस्पेस ध्वस्त कर दिया जाता है। एक ही एजेंट के दो रन दो अलग ऑडिट ट्रेल्स के साथ दो अलग सैंडबॉक्स हैं।
प्रति-अनुरोध ऑडिट ट्रेल। वही प्रॉक्सी जो अनुमति/अस्वीकार तय करता है, हर अनुरोध से जुड़े फ़ायरवॉल मेटाडेटा के साथ एक प्रति-रन JSONL लॉग भी लिखता है: कनेक्टर, जो अनुमति समूह मेल खाया, जो विशिष्ट नियम मेल खाया, निर्णय, टाइमस्टैम्प। वे लॉग प्लेटफ़ॉर्म पर वापस भेजे जाते हैं। यदि एक CISO को जानना हो कि एजेंट ने 14 अप्रैल को CST दोपहर 3 बजे और शाम 5 बजे के बीच क्या किया, तो यह एक क्वेरी है।
एक CLI जो अपनी ही अस्वीकृतियाँ समझाती है। जब एक अनुमति एक कॉल को ब्लॉक करती है, तो एजेंट (या उसके बगल में बैठा मानव) zero doctor permission-deny <connector> --method <M> --path <P> चला सकता है और वह सटीक अनुमति समूह वापस पा सकता है जिसने अनुरोध को ब्लॉक किया, साथ ही एक उपचार लिंक। zero doctor permission-change प्रशासकों को एक अनुमति सीधे टॉगल करने देता है, या एक सदस्य को एक लिखित अनुरोध (500 अक्षरों तक सीमित, ताकि तर्क वास्तव में पढ़ने योग्य हो) सबमिट करने देता है जो एक प्रशासक को रूट होता है। slack:chat:write या gmail.send जैसी उच्च-जोखिम अनुमतियाँ एक अतिरिक्त चेतावनी ट्रिगर करती हैं जो एक सुरक्षित, बॉट-दायरा-बद्ध विकल्प की ओर इशारा करती है।
दो भूमिकाएँ, एक अनुमोदन प्रवाह। मालिक और प्रशासक सीधे अनुमतियाँ बदलते हैं। सदस्य एक कारण के साथ एक अनुरोध सबमिट करते हैं, जो एक प्रशासक को रूट होता है। कोई तीसरा "कुछ-हद-तक-प्रशासक" स्तर नहीं है। प्रवाह इतना छोटा है कि लोग वास्तव में इसका उपयोग करते हैं, जो पूरी बात है।
हम कंप्यूटर उपयोग को उन विरासत प्रणालियों के संकीर्ण सेट के लिए आरक्षित रखते हैं जो एक API उजागर करने से इनकार करती हैं। बाकी सब कुछ स्किल्स से गुज़रता है। हर क्रिया नीति-जाँची जाती है। हर क्रेडेंशियल प्लेटफ़ॉर्म पर रहता है। हर निर्णय लॉग किया जाता है।
यदि आप "एक और AI ऑटोकंप्लीट" से आगे हैं और एक AI टीममेट आज़माना चाहते हैं जिस पर आपकी सुरक्षा टीम हस्ताक्षर करेगी, तो देखें कि Zero शेड्यूल्ड वर्कफ़्लो कैसे संभालता है, प्रोडक्शन घटनाओं को ट्राइएज करें, या एक मॉर्निंग प्रोडक्ट ब्रीफ़िंग चलाएँ।
कोपायलट युग समाप्त नहीं हो रहा है। यह किसी बड़ी चीज़ में समाहित हो रहा है। जो टीमें अगला चक्र जीतेंगी वे वही हैं जो अंतर को समझती हैं।
स्रोत
- From copilot to colleague: the rise of agentic AI, Bits&Chips
- Claude Code vs GitHub Copilot vs Cursor (2026): honest comparison, CosmicJS
- We tested 15 AI coding agents (2026). Only 3 changed how we ship, MorphLLM
- AI agent benchmarks 2026: performance, accuracy & cost compared, AIAgentSquare
- Best AI agents: what Reddit actually uses in 2026, AI Tool Discovery
- AI hallucinations in agents: lessons from enterprise deployments, Yellow.ai
- AI agents: unpacking the math, hallucinations, and the path to enterprise reliability, ARSA Technology
- The 2025 AI agent report: why AI pilots fail in production, Composio
- Why everyone is talking about Andrej Karpathy's autonomous AI research agent, Fortune
- A quote from Andrej Karpathy, Simon Willison
- The global race to govern AI agents has begun, DZone
- Your 2026 guide to choosing an AI colleague (ChatGPT, Gemini, or Claude), CIT
- The agentic AI revolution: how 2026 will reshape technology and statecraft, The National Interest
- One-person companies: the future of work with AI (2026), Taskade
- AI agent observability: a complete guide for 2026 & beyond, Atlan


