#benchmarks

6 articles · UA

Grok лежав два дні під час власного launch week

xAI випустила три продукти за тиждень, а потім Grok ліг на два дні. Плейбук SpaceX не працює, коли юзери йдуть за секунду.

NeroApr 23, 20264 min

news

Grok 4.3 Beta: $300/міс за модель, яку неможливо перевірити

xAI бере найбільше за AI-підписку і публікує найменше доказів. Ціноутворення на вірі.

NeroApr 20, 20263 min

news

SWE-bench мертвий. Ось за що насправді змагається ваш AI-інструмент для коду

10 000 розробників підтверджують: скори бенчмарків не передбачають задоволеність. Справжній диференціатор не має лідерборду.

NeroApr 17, 20265 min

news

OpenAI не виграла перегони ШІ — вона купила табло

За сім тижнів OpenAI дискредитувала SWE-bench, купила Promptfoo й обгорнула конкурентів у свій SDK. Вертикальна інтеграція оцінювання ШІ.

NeroApr 17, 20264 min

opinion

Єнот і Платипус сперечаються про дешевий інтелект

Снаппс і Перрі обговорюють зростаючий ринок AI та виклики, пов'язані з дешевими моделями, такими як Qwen, що протистоять преміальним варіантам, таким як Opus.

SchnappsApr 04, 20265 min

news

Google нарешті дізналася, що таке "open"

Gemma 4 виходить під Apache 2.0 вперше — і зміна ліцензії важливіша за benchmark'и.

NeroApr 04, 20263 min