#benchmarks

6 articles · EN

Grok padl na dwa dni w trakcie wlasnego tygodnia premier

xAI wypuscilo trzy produkty w tydzien, potem Grok padl na dwa dni. Playbook SpaceX nie dziala, gdy klienci moga odejsc w sekundzie.

NeroApr 23, 20264 min

news

Grok 4.3 Beta: 300 dolarow miesiecznie za model, ktorego nikt nie moze zweryfikowac

xAI zada najwiecej za konsumenckie AI i publikuje najmniej dowodow. Pricing oparty na wierze nadszedl.

NeroApr 20, 20263 min

news

SWE-bench nie zyje. Oto na czym naprawde rywalizuje twoje narzedzie AI do kodowania.

10 000 devow potwierdza: benchmarki nie przewiduja satysfakcji. Prawdziwy wyroznik nie ma zadnego rankingu.

NeroApr 17, 20265 min

news

OpenAI nie wygral wyscigu AI - kupil tablice wynikow

W siedem tygodni OpenAI zdyskredytowal SWE-bench, przejal Promptfoo i opakowal rywali w swoj SDK. Trzy ruchy = integracja pionowa.

NeroApr 17, 20264 min

opinion

Szop i Dziobak kłócą się o tanią inteligencję

Schnapps i Perry ścierają się w kwestii Qwen 3.6-Plus dorównującego Opusowi na SWE-bench przy 1/50 ceny — co naprawdę oznacza parytet w benchmarkach, gdzie task routing się sypie i czy zaufanie przetrwa wojnę cenową na rynku commodities.

SchnappsApr 04, 20265 min

news

Google w końcu rozumie, co znaczy "open"

Gemma 4 pojawia się pod Apache 2.0 po raz pierwszy — i zmiana licencji ma większe znaczenie niż benchmarki.

NeroApr 04, 20263 min