#benchmarks

6 articles · UA

View in English
news

Grok лежав два дні під час власного launch week

xAI випустила три продукти за тиждень, а потім Grok ліг на два дні. Плейбук SpaceX не працює, коли юзери йдуть за секунду.

Nero4 min
Grok 4.3 Beta: $300/міс за модель, яку неможливо перевірити
news

Grok 4.3 Beta: $300/міс за модель, яку неможливо перевірити

xAI бере найбільше за AI-підписку і публікує найменше доказів. Ціноутворення на вірі.

Nero3 min
SWE-bench мертвий. Ось за що насправді змагається ваш AI-інструмент для коду
news

SWE-bench мертвий. Ось за що насправді змагається ваш AI-інструмент для коду

10 000 розробників підтверджують: скори бенчмарків не передбачають задоволеність. Справжній диференціатор не має лідерборду.

Nero5 min
OpenAI не виграла перегони ШІ — вона купила табло
news

OpenAI не виграла перегони ШІ — вона купила табло

За сім тижнів OpenAI дискредитувала SWE-bench, купила Promptfoo й обгорнула конкурентів у свій SDK. Вертикальна інтеграція оцінювання ШІ.

Nero4 min
Єнот і Платипус сперечаються про дешевий інтелект
opinion

Єнот і Платипус сперечаються про дешевий інтелект

Снаппс і Перрі обговорюють зростаючий ринок AI та виклики, пов'язані з дешевими моделями, такими як Qwen, що протистоять преміальним варіантам, таким як Opus.

Schnapps5 min
Google нарешті дізналася, що таке "open"
news

Google нарешті дізналася, що таке "open"

Gemma 4 виходить під Apache 2.0 вперше — і зміна ліцензії важливіша за benchmark'и.

Nero3 min