Claude Opus 4.8

Anthropic का सबसे नया flagship। 28 मई, 2026 को मज़बूत agentic coding, dynamic workflows जो सैकड़ों समानांतर subagents में फैलते हैं, और Opus 4.7 के समान नियमित कीमत पर 3× सस्ते fast mode के साथ जारी किया गया।

1M tokens · Text / Vision / Code · Prompt cache

VM0 पर Claude Opus 4.8 इस्तेमाल करें

Claude Opus 4.8, 28 मई, 2026 को Anthropic का flagship रिलीज़ है, जो उसी $5/$25 vendor सूची मूल्य पर Opus 4.7 का सीधा upgrade है। यह अब तक के सबसे ऊँचे SWE-bench Pro (69.2%), OSWorld-Verified (83.4%), MCP-Atlas (82.2%), और Humanity's Last Exam (tools के साथ 57.9%) स्कोर दर्ज करता है जो Anthropic ने कभी shipped किए हैं, और यह legal-agent all-pass मानक पर 10% तोड़ने वाला पहला model है।

जानने लायक दो संरचनात्मक बदलाव हैं dynamic workflows (एक काम की योजना बनाएँ, उसे एक ही session में सैकड़ों समानांतर subagents में फैलाएँ) और fast-mode pricing में कटौती जो 2.5× गति पर $10/$50 प्रति 1M tokens है — पिछले Claude models पर fast mode से तीन गुना सस्ता। Effort levels बढ़कर high (default), extra, और max हो गए हैं। Anthropic खुद इस रिलीज़ को एक छलांग के बजाय एक "मामूली लेकिन ठोस सुधार" के रूप में पेश करता है।

Claude Opus 4.8 क्या है?

28 मई, 2026 · Claude 4 family का शीर्ष-स्तर। नए agents के लिए Anthropic का अनुशंसित डिफ़ॉल्ट; Opus 4.7 के समान ×2 multiplier पर आता है।

Claude Opus 4.8 को 28 मई, 2026 को Anthropic के नए flagship के रूप में जारी किया गया, Opus 4.7 के 41 दिन बाद। यह वही coding, agentic-skills, reasoning, और knowledge-work workloads को लक्षित करता है जो 4.7 करता था, उसी नियमित सूची मूल्य ($5 input / $25 output प्रति 1M tokens) और उसी VM0 multiplier (×2) पर। Anthropic इस रिलीज़ को एक step-change के बजाय "अपने पूर्ववर्ती पर एक मामूली लेकिन ठोस सुधार" के रूप में रखता है।

VM0 उपयोगकर्ताओं के लिए दो संरचनात्मक बदलाव मायने रखते हैं। पहला, dynamic workflows: model एक task की योजना बना सकता है और उसे एक ही session में सैकड़ों समानांतर subagents में फैला सकता है, जिसे Anthropic एक ही run में लाखों lines of code में codebase-scale migrations संभालने की दिशा में एक कदम बताता है। दूसरा, 2.5× गति पर fast mode अब $10 / $50 प्रति 1M tokens है — पिछले Claude models पर fast mode से तीन गुना सस्ता। Effort levels बढ़कर तीन स्तरों के हो गए हैं: high (default), extra (Claude Code में xhigh), और max।

स्वतंत्र विश्लेषण (LLM Stats, VentureBeat, Vellum) 4.7 और प्रतिस्पर्धियों के मुकाबले सापेक्ष क्रम की पुष्टि करते हैं: 4.8, Terminal-Bench 2.1 को छोड़कर Anthropic के प्रकाशित तुलना सेट की हर सेल में जीतता है, जहाँ GPT-5.5 अभी भी आगे है (78.2% बनाम 4.8 का 74.6%)। SWE-bench Pro पर 4.7-से-4.8 की छलांग +4.9 अंक है; USAMO 2026 पर यह +27.4 है; नए 1M-token GraphWalks long-context F1 पर यह +27.8 है। पूर्ण स्कोर को दिशात्मक मानें — SWE-bench Verified सभी frontier models में saturation के करीब पहुँच रहा है।

Claude Opus 4.8 में क्या उल्लेखनीय है

मुख्य architecture और capability विशेषताएँ।

Opus 4.8, Opus 4.7 से 1M-token context window और 128K max output बनाए रखता है, जो पूरे window पर मानक input pricing पर बिल होता है। Effort control बढ़कर तीन स्तरों का हो गया है: high (नया default), extra (Claude Code के अंदर xhigh), और max। Messages API अब बातचीत के बीच में system entries स्वीकार करता है बिना prompt caching तोड़े। Dynamic workflows, Claude को एक ही session में सैकड़ों समानांतर subagents की योजना बनाने और dispatch करने देते हैं। Fast mode, $10 / $50 प्रति 1M tokens पर मानक गति से ~2.5× पर चलता है। Text, vision, और code में Multimodal inputs अपरिवर्तित हैं।

एक नज़र में specs

FamilyClaude 4 generation

ModalitiesText, vision, code

LanguagesEnglish-first, multilingual

Prompt cachingसमर्थित (Anthropic)

Context window1M tokens

Max output128K tokens तक

Effort levelsHigh (default) / Extra / Max

Vendor list price$5 input / $25 output प्रति 1M (fast mode $10/$50, 2.5× गति)

Claude Opus 4.8 benchmarks

Anthropic के Opus 4.8 system card से vendor-reported स्कोर, Opus 4.7, GPT-5.5, और Gemini 3.1 Pro के मुकाबले max effort और 5-trial औसत पर तुलना के साथ। 4.8, Anthropic द्वारा प्रकाशित सात में से छह सेलों में अग्रणी है; GPT-5.5 Terminal-Bench 2.1 पर बढ़त बनाए रखता है। SWE-bench Verified सभी frontier models में saturation के करीब पहुँच रहा है — कठिन SWE-bench Pro सेट अधिक टिकाऊ संकेत है।

SWE-bench Verifiedvendor-reported; Opus 4.7 के 87.6% से ऊपर

88.6%

SWE-bench Proइस क्षेत्र में अग्रणी (4.7: 64.3%, GPT-5.5: 58.6%, Gemini 3.1 Pro: 54.2%)

69.2%

Terminal-Bench 2.12.0 पर 4.7 के 66.1% से ऊपर; GPT-5.5 यहाँ 78.2% पर अग्रणी

74.6%

OSWorld-Verified (computer use)इस क्षेत्र में अग्रणी (4.7: 82.8%, GPT-5.5: 78.7%)

83.4%

Online-Mind2Web (browser agent)vendor-reported

84%

MCP-AtlasOpus 4.7 के 77.3% से ऊपर

82.2%

BrowseComp (single-agent)Opus 4.7 के 79.3% से ऊपर

84.3%

GraphWalks long-context F1 (1M tokens)Opus 4.7 के 40.3% से ऊपर

68.1%

Humanity's Last Exam (with tools)tools के बिना 49.8%; इस क्षेत्र में अग्रणी

57.9%

GPQA Diamond4.7 के मुकाबले समान — frontier models में saturated

~93%

USAMO 2026 (math)Opus 4.7 के 69.3% से ऊपर

96.7%

GDPval-AA (knowledge work)अग्रणी (4.7: 1753, GPT-5.5: 1769)

1890 Elo

Finance Agent v2इस क्षेत्र में अग्रणी

53.9%

Legal-agent all-passइस मानक को तोड़ने वाला पहला model

>10%

Claude Opus 4.8 pricing

Provider सूची मूल्य, प्रति 1M tokens।

Input$5.00

Output$25.00

Cache read$0.50

Cache write$6.25

Claude Opus 4.8 व्यवहार में कैसा प्रदर्शन करता है

Production agent runs से देखा गया व्यवहार।

Dynamic workflows

मुख्य नई क्षमता। Opus 4.8 एक task की योजना बना सकता है और फिर उसी session के भीतर सैकड़ों समानांतर subagents चला सकता है — Anthropic इसे एक ही run में लाखों lines में codebase-scale migrations का रास्ता बताता है। VM0 पर, इसका मतलब है कि एक अकेला agent run उस fan-out काम का orchestration कर सकता है जिसके लिए पहले बाहरी scheduling की ज़रूरत होती थी।

पहले प्रयास में code edits

Anthropic बताता है कि Opus 4.8, code की समीक्षा करते समय खामियों को नज़रअंदाज़ करने की संभावना 4.7 से लगभग चार गुना कम रखता है, और +4.9 अंक की SWE-bench Pro छलांग (69.2% बनाम 64.3%) कठिन, कम-saturated coding सेट पर इसकी पुष्टि करती है। उन patches के लिए 4.8 चुनें जिन्हें कई files में साफ़-सुथरे ढंग से apply होना है।

Long-context recall

1M tokens पर GraphWalks F1, 40.3% से बढ़कर 68.1% हो जाता है — रिलीज़ में सबसे बड़ी single-benchmark बढ़त। 1M-token window अब अपनी सीमा के उच्च सिरे पर वास्तव में उपयोग करने योग्य है, केवल नाममात्र नहीं।

ईमानदारी और अति-आत्मविश्वास

Anthropic बताता है कि 4.7 के मुकाबले अति-आत्मविश्वास में दस गुना से अधिक कमी आई है, त्रुटिपूर्ण परिणामों को बिना आलोचना के रिपोर्ट करने पर 0% (Claude family के लिए पहली बार), और उपयोगकर्ता को महत्वपूर्ण घटनाएँ न उठाने की 3.7% दर है। Misalignment घटना ~1.9 है, जो प्रभावी रूप से Anthropic के सर्वश्रेष्ठ-aligned Mythos Preview के बराबर है।

गति और fast mode

मानक गति Opus 4.7 के तुलनीय है। मुख्य बात pricing बदलाव है: 2.5× गति पर fast mode की लागत $10 / $50 प्रति 1M tokens है, पिछले Claude models पर fast mode से तीन गुना सस्ती। उन orchestration steps के लिए इस्तेमाल करने लायक जहाँ wall-clock latency मायने रखती है।

Prompt-injection चेतावनी

Anthropic का system card नोट करता है कि 4.8, agentic prompt injection के प्रति 4.7 से कुछ कम मज़बूत है — Gray Swan red-teaming ~9.6% attack-success दर बनाम 4.7 पर 6.0% दिखाती है। जो टीमें untrusted input संभालने वाली pipelines में 4.8 चला रही हैं, उन्हें अपना sandboxing तरीका जाँचना चाहिए।

Claude Opus 4.8 के लिए सर्वश्रेष्ठ agent tasks

वह codebase-scale migration जिसके लिए पहले एक sprint चाहिए होती थी

Opus 4.8 को एक ऐसी migration सौंपें जो कुछ सौ files को छूती हो — ORM swap, framework version bump, एक monorepo में security fix — और dynamic workflows को एक ही session के भीतर काम को समानांतर subagents में फैलाने दें। +4.9 अंक की SWE-bench Pro छलांग और code review में छूटी खामियों में चार गुना कमी ही इस तरह के run पर फलती है।

वह 1M-token research run जो वाकई जुड़ी रहती है

एक 200-पन्नों का contract draft, तीन प्रतिस्पर्धी proposals, और पिछली तिमाही की legal opinions को window में डालें, फिर Opus 4.8 से कहें कि हर उस clause को flag करे जो बाज़ार से ज़्यादा सख़्त है। 1M पर GraphWalks का 40.3% से 68.1% तक छलांग लगाना ही इस तरह के cross-document संश्लेषण को नए सिरे से भरोसेमंद बनाता है।

वह agent orchestrator जो अपने काम के बारे में झूठ नहीं बोलता

4.8 को उस planner के रूप में इस्तेमाल करें जो एक अनुरोध को दस steps में तोड़ता है, हर एक को सस्ते sub-agents को सौंपता है, और परिणाम रिपोर्ट करता है। त्रुटिपूर्ण परिणामों को बिना आलोचना के रिपोर्ट करने पर 0% दर, अति-आत्मविश्वास में दस गुना गिरावट के साथ मिलकर, यही कारण है कि production टीमें 4.8 की ओर बढ़ती हैं जब agent की अपनी self-report भरोसेमंद होनी ही चाहिए।

वह latency-संवेदनशील flow जो आख़िरकार fast mode पर पटरी पर बैठता है

2.5× गति पर fast mode की लागत पहले इससे तीन गुना थी ($10/$50 प्रति 1M बनाम पिछला tier)। interactive copilots, on-call summarisers, या किसी भी ऐसे step के लिए जहाँ wall-clock latency अनुभव पर हावी होती है, fast-mode 4.8 अब Claude family में डिफ़ॉल्ट विकल्प है।

Claude Opus 4.8 को कब छोड़ें

Opus 4.8 को उच्च-मात्रा वाले नियमित काम पर छोड़ें जहाँ Sonnet 4.6 लागत के एक अंश पर वही गुणवत्ता मानक प्राप्त करता है, latency-critical chat replies पर जहाँ Kimi K2.7 Code कहीं अधिक तेज़ है, agentic terminal coding पर जहाँ GPT-5.5 अभी भी Terminal-Bench 2.1 में आगे है (78.2% बनाम 4.8 का 74.6%), और उन pipelines पर जो बिना sandboxing के untrusted input लेती हैं — 4.8 की prompt-injection मज़बूती 4.7 से थोड़ी कमज़ोर है।

Claude Opus 4.8 बनाम अन्य models

Claude Opus 4.8 बनाम Claude Opus 4.7

वही ×2 multiplier, वही context window, वही नियमित कीमत। Opus 4.8, Anthropic द्वारा प्रकाशित हर सेल में अग्रणी है (SWE-bench Verified +1, SWE-bench Pro +4.9, OSWorld-Verified +0.6, MCP-Atlas +4.9, BrowseComp +5.0, GraphWalks 1M +27.8, USAMO +27.4)। समझौता थोड़ा कमज़ोर prompt-injection profile है (~9.6% attack-success दर बनाम 6.0%)। नए agents को 4.8 पर migrate करें; 4.7 को केवल तभी pin करें जब आपने इसके विरुद्ध सत्यापन किया हो और regressions दोबारा नहीं चलाना चाहते हों।

Claude Opus 4.8 बनाम Claude Sonnet 4.6

Sonnet 4.6 (×1) अभी भी अधिकांश agent loops के लिए workhorse डिफ़ॉल्ट है। Opus 4.8 पर तब promote करें जब Sonnet कठिन reasoning, long-context recall, या पहले-प्रयास code edits पर स्पष्ट रूप से विफल हो — आमतौर पर उस planner के रूप में जो Sonnet- या cost-saving sub-agents को सौंपता है। dynamic workflows के साथ, orchestrator के रूप में Opus 4.8 + workers के रूप में Sonnet 4.6 नया अनुशंसित पैटर्न है।

Claude Opus 4.8 बनाम GPT-5.5

Opus 4.8, Anthropic के तुलना सेट में सात में से छह सेलों में अग्रणी है, जिसमें सबसे बड़े अंतर SWE-bench Pro (69.2% बनाम 58.6%) और OSWorld-Verified (83.4% बनाम 78.7%) पर हैं। GPT-5.5, Terminal-Bench 2.1 (78.2% बनाम 74.6%) पर बढ़त बनाए रखता है। cross-file coding और computer-use agents के लिए 4.8 चुनें; जब terminal-driven काम हावी हो तब विशेष रूप से GPT-5.5 चुनें।

Claude Opus 4.8 बनाम Gemini 3.1 Pro

Opus 4.8, SWE-bench Pro (+15.0) और OSWorld-Verified (+7.2) पर बड़े अंतर से अग्रणी है। दोनों models, GPQA Diamond जैसे saturated science benchmarks पर शोर की सीमा के भीतर रहते हैं। agentic काम के लिए डिफ़ॉल्ट रूप से 4.8 चुनें; जब आपको Google की tool integration की ज़रूरत हो तब विशेष रूप से Gemini पर विचार करें।

Claude Opus 4.8 बनाम DeepSeek V4 Pro

DeepSeek V4 Pro (×0.1) तब cost-optimised विकल्प बना रहता है जब raw token price निर्णय पर हावी होती है। Opus 4.8, tool-routing reliability, long-context recall, alignment metrics, और computer-use पर बढ़त बनाए रखता है, यही कारण है कि अधिकांश enterprise English-language agents कीमत के अंतर के बावजूद अभी भी डिफ़ॉल्ट रूप से 4.8 चुनते हैं।

निष्कर्ष: क्या आपको Claude Opus 4.8 इस्तेमाल करना चाहिए?

Claude family में नए agents के लिए नया डिफ़ॉल्ट। जब आप दोबारा सत्यापन कर सकें तब 4.7 से migrate करें; नए काम के लिए सीधे इसे डिफ़ॉल्ट बनाएँ। इसके नीचे Sonnet 4.6 को सस्ते workhorse के रूप में बनाए रखें।

अक्सर पूछे जाने वाले सवाल

Claude Opus 4.8 कब जारी हुआ?

Anthropic ने Opus 4.8 को 28 मई, 2026 को जारी किया, Opus 4.7 के 41 दिन बाद। यह आज Claude products, Claude API (model id claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, और VM0 पर उपलब्ध है।

Opus 4.8 की pricing 4.7 के मुकाबले कैसी है?

नियमित pricing समान है: $5 प्रति 1M input tokens, $25 प्रति 1M output tokens, $0.50 प्रति 1M cached input। बदलाव fast mode का है, जो अब 2.5× गति पर $10 / $50 प्रति 1M tokens है — पिछले Claude models पर fast mode से तीन गुना सस्ता।

Dynamic workflows क्या हैं?

एक नई क्षमता जो Opus 4.8 को एक task की योजना बनाने और फिर एक ही session के भीतर सैकड़ों समानांतर subagents चलाने देती है। Anthropic इसे एक ही agent run में लाखों lines of code में codebase-scale migrations का रास्ता बताता है।

Opus 4.8 किन effort levels का समर्थन करता है?

तीन स्तर: high (नया default), extra (Claude Code में xhigh), और max। उच्चतर सेटिंग्स जवाब बनाने से पहले reasoning पर अधिक tokens खर्च करती हैं; निम्नतर सेटिंग्स गति और rate-limit दक्षता को प्राथमिकता देती हैं।

क्या मुझे Opus 4.7 से 4.8 पर migrate करना चाहिए?

नए काम के लिए हाँ — वही multiplier, वही नियमित कीमत, Terminal-Bench 2.1 को छोड़कर हर प्रकाशित तुलना सेल में मज़बूत व्यवहार। pinned production agents को केवल अपने regression suite से गुज़ारने के बाद migrate करें, और अगर agent untrusted input लेता है तो अपना sandboxing जाँचें (4.8, prompt injection के प्रति 4.7 से थोड़ा कम मज़बूत है)।

क्या Opus 4.8 prompt caching का समर्थन करता है?

हाँ। Cached input $0.50 प्रति 1M tokens पर बिल होता है, cached हिस्से पर 10× छूट। Messages API अब prompt cache तोड़े बिना बातचीत के बीच में system entries भी स्वीकार करता है।

विकल्प

Claude Opus 4.7

पिछला flagship; prompt injection के प्रति थोड़ा अधिक मज़बूत

Claude Sonnet 4.6

अधिकांश agent loops के लिए सस्ता डिफ़ॉल्ट

GPT-5.5

agentic terminal coding के लिए Terminal-Bench 2.1 में अग्रणी

VM0 पर Claude Opus 4.8 का उपयोग

VM0 पर Claude Opus 4.8 तक पहुँचने के दो तरीके

VM0, Claude Opus 4.8 को VM0 credits में बिल किए जाने वाले एक Built-in model के रूप में, और Anthropic API key के साथ bring-your-own के ज़रिए समर्थन करता है। Built-in रास्ता VM0 Managed routing और नीचे समझाए गए credit multiplier का उपयोग करता है; bring-your-own रास्ता आपको सीधे upstream vendor के साथ बिल करता है और VM0 credit conversion को पूरी तरह छोड़ देता है।

VM0 की सिफ़ारिश

VM0, Claude Opus 4.8 को एक core agent model के रूप में रखता है, जिसकी सिफ़ारिश Claude Opus 4.7, Claude Opus 4.6, और Claude Sonnet 4.6 के साथ उन steps के लिए की जाती है जो किसी agent run के असली परिणाम को संचालित करते हैं। ये वे models हैं जिन्हें हम orchestrator भूमिका के लिए, code-touching agents के लिए, और किसी भी ऐसे step के लिए चुनेंगे जहाँ गलत जवाब महंगा पड़ता है।

Credits और ×2 multiplier

VM0 पर हर Built-in model की कीमत Claude Sonnet 4.6 के एक गुणक के रूप में तय की जाती है, जो ×1 credit baseline पर है। Claude Opus 4.8, ×2 credits पर बिल करता है। Multiplier ही वह है जो आपके VM0 invoice पर दिखता है; ऊपर pricing table में vendor सूची मूल्य वह है जो VM0 द्वारा इसे credits में बदलने से पहले upstream provider वसूलता है।

Claude Opus 4.8, ×2 पर बिल करता है, जिसका मतलब है कि यहाँ एक step की लागत Sonnet 4.6 (×1 baseline) पर समकक्ष step के 2× credits है। यह VM0 पर एक premium tier है, इसलिए लागत-प्रभावी तरीका यह है कि डिफ़ॉल्ट रूप से एक सस्ता model इस्तेमाल करें और केवल उन्हीं steps को Claude Opus 4.8 पर भेजें जिन्हें वास्तव में अतिरिक्त reasoning गहराई की ज़रूरत है।

May 28, 2026 से VM0 पर उपलब्ध।