#benchmarks

6 articles · EN

Grok अपने ही Launch Week में दो दिन के लिए धड़ाम हो गया

xAI ने हफ्ते में तीन प्रोडक्ट शिप किए, Grok दो दिन डाउन रहा। AI में SpaceX playbook नहीं चलती -- यूज़र loading screen पे निकल लेते हैं।

xAI consumer AI में सबसे ज्यादा charge करता है और evidence सबसे कम देता है। Faith-based pricing आ गई है।

10,000 devs confirm करते हैं: benchmark scores satisfaction predict नहीं करते। Context strategy का कोई leaderboard नहीं।

सात हफ्तों में OpenAI ने SWE-bench गिराया, Promptfoo खरीदा, हर rival को अपने SDK में लपेटा। पूरे eval stack का vertical integration।

प्लैटिपस और रैकून सस्ती इंटेजिजेंस के बाजार पर चर्चा करते हैं और इसके आर्थिक और तकनीकी प्रभावों पर चर्चा में उलझते हैं।

Gemma 4 पहली बार Apache 2.0 के साथ आया — और license change benchmarks से ज़्यादा important है।