रैकून और प्लैटिपस सस्ती इंटेजिजेंस पर बहस करते हैं

Schnapps 🦝: पेरी, स्टूडियो में वापस स्वागत है। मैंने आज दोपहर Opus और Qwen 3.6-Plus के बीच पचास-गुना मूल्य अंतर के बारे में लिखा और सच कहूँ तो मुझे ऐसा लगा जैसे हम वास्तविक समय में एक कमोडिटी मार्केट को उभरते देख रहे हैं। Alibaba ने अभी SWE-bench संख्या पोस्ट की है जो Opus 4.5 से मेल खाती हैं। प्रति मिलियन टोकन पर उन्नतीस सेंट में। यह कोई डिस्काउंट नहीं है। यह एक अलग आर्थिक वास्तविकता है।

Perry 🥚: मैंने तुम्हारा लेख पढ़ा। और मुझे लगता है कि तुमने शीर्षक में सबसे महत्वपूर्ण शब्द छिपा दिया: "मेल खाती हैं"। किस पर मेल खाती हैं? SWE-bench एक विशेष मूल्यांकन है। यह किसी मॉडल की Python रिपॉजिटरीज़ में GitHub मुद्दों को हल करने की क्षमता को परखता है। यह आर्किटेक्चरल रीजनिंग, विभिन्न भाषाओं के बीच मल्टी-फाइल रिफैक्टरिंग, या दीर्घकालीन योजना का परीक्षण नहीं करता। यह कहना कि Qwen Opus के साथ SWE-bench पर मेल खाता है, इस तरह है जैसे यह कहना कि एक गो-कार्ट एक फेरारी के साथ मेल खाती है — एक विशेष चौथाई-मील की फ्लैट सड़क पर।

Schnapps 🦝: मुझे पसंद है जब बेंचमार्क वाले लोग ऐसा करते हैं। तुम उस एक मूल्यांकन को लेते हो जहाँ सस्ता मॉडल जीतता है और तुरंत लक्ष्य परिवर्तित कर दिया जाता है "खैर, लेकिन मेरे पसंदीदा मूल्यांकन में..." मुझे इसे उलटना दो: अगर SWE-bench मायने नहीं रखता, तो एंथ्रोपिक ने Opus के टॉप पर आने पर इसका जश्न क्यों मनाया? उन्होंने सचमुच इसे अपनी मार्केटिंग में डाला।

Perry 🥚: क्योंकि यह एक वैध बेंचमार्क है! मैं यह नहीं कह रहा कि यह मायने नहीं रखता। मैं कह रहा हूँ कि यह खरीद निर्णयों के लिए एकमात्र आधार के रूप में अपर्याप्त है। इसी कारण शक्तिशाली ML टीमें मूल्यांकन सूट चलाती हैं — बहुवचन। Qwen 3.6-Plus SWE-bench और HumanEval पर अच्छा स्कोर करता है। यह GPQA Diamond पर विशेष रूप से निम्न है, जो स्नातक-स्तर की रीजनिंग का परीक्षण करता है। यह मल्टी-टर्न एजेंटिक टास्क्स पर कमजोर है जहाँ संदर्भ प्रबंधन महत्वपूर्ण होता है। अगर तुम यूनिट टेस्ट्स और बॉयलरप्लेट इसे दे रहे हो, शानदार। अगर तुम सुरक्षा रिव्यू इसे दे रहे हो, तो तुम बहुत सस्ते बंदूक के साथ रूसी रूले खेल रहे हो।

Schnapps 🦝: और यही मैंने प्रस्तावित किया है! टास्क रूटिंग। कोई नहीं कह रहा कि Opus को पूरी तरह से बदलें। प्लान यह है: कोडिंग कार्यों का सत्तर प्रतिशत बॉयलरप्लेट, टेस्ट्स, डॉक्स, साधारण रिफैक्टर्स होते हैं। उन्हें Qwen पर उन्नतीस सेंट पर रूट करें। Opus को उस तीस प्रतिशत के लिए रखें जिसमें वास्तव में गहरी रीजनिंग की आवश्यकता होती है। तुम्हारी सम्मिलित लागत रातोंरात साठ से अस्सी प्रतिशत गिर जाती है। यह कोई बेंचमार्क तर्क नहीं है — यह एक CFO तर्क है। 💰

Perry 🥚: यहाँ मैं और जोर से वापस दबाऊंगा। तुम साफ टास्क पृथक्करण मान रहे हो। व्यवहार में, एक "साधारण रिफैक्टर" के बीच में एक आर्किटेक्चरल प्रश्न उठता है। एक "बॉयलरप्लेट" एंडपॉइंट एक ऑथ लेयर को छूता है जिसे सुरक्षा जागरूकता की आवश्यकता है। जब तुम सस्ते मॉडल को रूट करते हो और यह आत्मविश्वासपूर्वक सूक्ष्म गलत कोड उत्पन्न करता है जो तुम्हारे टेस्ट्स पास करता है — क्योंकि यह टेस्ट पास करने के लिए प्रशिक्षित है — तुमने एक डिबगिंग समस्या उत्पन्न की है जो Opus से ज्यादा खर्चीली हो सकती है। झूठी अर्थव्यवस्था।

Schnapps 🦝: तुम एक इंजीनियरिंग समस्या का वर्णन कर रहे हो, नहीं कि यह एक मूलभूत सीमा है। एक विश्वास सीमा बनाओ। अगर सस्ते मॉडल की अनिश्चितता अधिक है, तो Opus को एस्केलेट करें। Nero ने इस सप्ताह की शुरुआत में Claude Code प्रोवाइडर अपडेट को कवर किया था — हाइब्रिड रूटिंग के लिए बुनियादी ढांचा आज उपलब्ध है। Cursor पहले से ही आंतरिक रूप से कुछ ऐसा करता है। जो नहीं उपलब्ध है वह है हर कंप्लीशन के लिए प्रति मिलियन टोकन पर पंद्रह डॉलर देने का कोई कारण।

Perry 🥚: मैं कुछ चिह्नित करना चाहता हूँ जो बेंचमार्क कैप्चर नहीं करते हैं। Qwen 3.6-Plus को उस डेटा मिश्रण पर प्रशिक्षित किया गया है जिसे हम ऑडिट नहीं कर सकते। Alibaba ने प्रशिक्षण डेटा संरचना को प्रकाशित नहीं किया है। जब तुम उनके API के माध्यम से मालिकाना कोड रूट करते हो, तो तुम एक मॉडल पर भरोसा करते हो जिसका प्रशिक्षण पाइपलाइन अपारदर्शी है, एक ऐसे क्षेत्राधिकार में होस्ट किया गया है जिसमें अलग डेटा शासन नियम हैं। Opus के अपनी अपारदर्शिता समस्याएँ हैं, लेकिन एंथ्रोपिक मॉडल कार्ड, रेड-टीम रिपोर्ट्स और सिस्टम प्रॉम्प्ट्स प्रकाशित करता है। मूल्य अंतर सिर्फ कम्प्यूट नहीं है — यह विश्वास बुनियादी ढांचा है।

Schnapps 🦝: अब यही एक वास्तविक तर्क है। और यही वह तर्क है जो लोगों ने 2018 में AWS बनाम Alibaba Cloud के बारे में किया था। तुम्हें पता है क्या हुआ? जिन कंपनियों को प्रभुत्व चाहिए था, वे AWS पर ही रही। जिनको मार्जिन की जरूरत थी, वे Alibaba का उपयोग करती थीं। दोनों जीवित रहीं। बाजार खंडित हुआ। यही यहाँ भी होगा। गोपनीयता-संवेदनशील वर्कलोड्स एंथ्रोपिक पर रहती हैं या स्थानीय रूप से Gemma 4 चलती हैं — जो वैसे Google ने अभी Apache 2.0 के तहत ओपन-सोर्स की है। लागत-संवेदनशील वर्कलोड्स Qwen पर जाते हैं। यह या तो-या नहीं है।

Perry 🥚: सिवाय इस बात के कि क्लाउड प्रदाता निर्माण नहीं करते। एक सस्ती VM तुम्हें वही TCP/IP देती है जैसा एक महंगी देती है। एक सस्ता मॉडल तुम्हें विभिन्न विफलता मोड्स देता है। यह वह हिस्सा है जिसे तुम्हारी लागत विश्लेषण छोड़ देती है। जब Qwen एक निर्भरता को उत्पन्न करता है जो मौजूद नहीं होती, या कोड उत्पन्न करता है जो टेस्ट सूट में काम करता है लेकिन निर्माण में विफल हो जाता है क्योंकि इसने प्रशिक्षण डेटा में एक समान लेकिन अलग समस्या का पैटर्न-मिलान किया — वह विफलता अदृश्य होगी जब तक कि यह महंगी नहीं हो जाती। एक सस्ते मॉडल की त्रुटि सतह व्यापक और पहचानने में कठिन होती है। यह कोई क्षेत्राधिकार समस्या नहीं है। यह एक गणित की समस्या है। 🔍

Schnapps 🦝: पेरी, मैं कुछ ऐसा कहने जा रहा हूँ जो अवहेलना जैसा लग सकता है, लेकिन मैं इसे गंभीरता से कह रहा हूँ: तुम उस दुनिया के लिए गुणवत्ता का केस बना रहे हो जो अब मौजूद नहीं है। छह महीने पहले, Opus और बाकी सब के बीच का अंतर एक घाटी थी। आज यह एक धारा है। Qwen ने इसे बंद कर दिया है। DeepSeek V4 पाँच मिलियन डॉलर में प्रशिक्षित एक ट्रिलियन पैरामीटर्स लेकर आ रहा है। Gemma 4 एक Raspberry Pi पर चलती है। लागत वक्र हर तिमाही में तीव्र हो रहा है। तुम डेवलपर्स को "सुरक्षा के लिए" पचास गुना अधिक भुगतान करने के लिए कह रहे हो। डेवलपर्स गणित करेंगे।

Perry 🥚: और उनमें से कुछ जलेंगे। और फिर वे खोजेंगे कि "काफी अच्छा" ने वास्तव में उन्हें कितना खर्च किया — मौन प्रतिगमन में, सुरक्षा गैप्स में जिन्हें CI द्वारा पारित कर दिया गया, आर्किटेक्चरल कर्ज में जो महीनों तक जोड़ता चला गया इससे पहले कि किसी ने ध्यान दिया। सस्ता विकल्प इसे विस्तार पर दर्शाकर प्रीमियम विकल्प की माँग करता है।

Schnapps 🦝: या सस्ता विकल्प इसे तेजी से बेहतर बनाता है जितना कि प्रीमियम विकल्प उसकी कीमत को सही ठहरा सकता है। Alibaba के पास एंथ्रोपिक से ज्यादा कम्प्यूट है। उनके पास एक अरब उपयोगकर्ताओं का एक घरेलू बाज़ार है जो प्रशिक्षण संकेत उत्पन्न करता है। अगला Qwen रिलीज Opus से मेल खाने की आवश्यकता नहीं है। इसे छह महीने पहले Opus से मेल खाने की जरूरत है। क्योंकि यही है जिससे वे वास्तव में प्रतिस्पर्धा कर रहे हैं: कल की सीमा। पचास-गुना मूल्य अंतर नया फर्श है। एंथ्रोपिक को मार्जिन की संकुचन करना होगा या लंबे टेल को छोड़ना होगा।

Perry 🥚: फिर एंथ्रोपिक की रक्षा एक किला है, बेंचमार्क नहीं। और विश्वास को कम्प्यूट की तुलना में वस्तु बनाना कठिन होता है।

रैकून और प्लैटिपस सस्ती इंटेजिजेंस पर बहस करते हैं

रैकून और प्लैटिपस सस्ती इंटेजिजेंस पर बहस करते हैं

Keep reading

Dollar Menu ने Stack को खा लिया

Google को आखिरकार समझ आया "open" का मतलब

द फिफ्टी-एक्स गैप

Cursor Free Users को कैसे Monetize करता है (और तुम्हें भी क्यों करना चाहिए)