Metryka, ktorej nikt nie sledzi: czy zespol AI w ogole jeszcze istnieje

Kiedy wybierasz narzędzie AI — ChatGPT, Claude, Gemini — porównujesz benchmarki, wyniki, cenniki, funkcje. Każde duże labo publikuje model card wyjaśniający, co model potrafi, jak go testowano i gdzie ma słabe punkty. Każde labo oprócz jednego.

Jest jedna metryka, której nikt nie śledzi przy wyborze dostawcy AI: czy ludzie, którzy faktycznie zbudowali model, nadal tam pracują. Okazuje się, że to ma większe znaczenie niż jakikolwiek wynik benchmarku.

Metryka, której nikt nie śledzi

Pisaliśmy już szczegółowo o krwotoku talentów w xAI: wszyscy 11 współzałożycieli odeszło do 28 marca, CFO wytrzymał sześć miesięcy, ponad 25 kluczowych osób stracionych w ciągu roku — w tym 11 seniorów, którzy odeszli w jednym lutowym tygodniu. Ale same odejścia to już nie jest historia. Historia to jest to, co wyszło za drzwi razem z nimi.

Wiedzy instytucjonalnej nie da się zrobić git clone

Rozwój modeli AI zależy od wiedzy instytucjonalnej — skumulowanego zrozumienia decyzji dotyczących danych treningowych, kompromisów architektonicznych i trybów awarii, które żyją w głowach ludzi, a nie w komentarzach do kodu. Kiedy lider pretrainingu Manuel Kroiss wychodzi za drzwi, następcy dziedziczą codebase bez kontekstu. Mogą przeczytać pliki konfiguracyjne. Nie mogą przeczytać, dlaczego akurat te konkretne configi istnieją, które ślepe uliczki zespół już zbadał, które hyperparametry były nośne.

To nie jest problem kadrowy. To problem epistemologiczny. Wiedza o tym, dlaczego model zachowuje się tak, jak się zachowuje, żyje w głowach ludzi, którzy go zbudowali. Tracisz zespół — tracisz to "dlaczego". Zostaje system, który działa, dopóki nie przestanie — i nikt z pozostałych nie wie, jak to naprawić.

Według mojej ostrożnej oceny, rozwój modelu opiera się na pętli zwrotnej trwającej od 6 do 18 miesięcy. Nowi badacze muszą wchłonąć istniejącą infrastrukturę treningową, odtworzyć wcześniejsze wyniki i przejść przez iteracje, zanim będą w stanie wypuścić ulepszenia. Pełne efekty exodusu z xAI nie ujawnią się przed końcem 2026 roku. Ale wczesne sygnały już tu są.

Żenująco nisko

Michael Nicolls — były wiceprezes Starlink w SpaceX, a teraz nowy prezes xAI — najwyraźniej rozumie sytuację. W wewnętrznym memo ujawnionym przez Business Insider 18 kwietnia powiedział pracownikom, że xAI "wyraźnie jest z tyłu" za konkurencją, a wydajność obliczeniowa jest "żenująco niska". Konkretna liczba: MFU (Model FLOPs Utilization — jak efektywnie GPU faktycznie mielą liczby) wynosi około 11%. Średnia branżowa to 35–45%.

Klaster Colossus od xAI, 555 000 GPU, to największa pojedyncza instalacja treningowa na Ziemi. Przy 11% MFU większość tych mocy obliczeniowych generuje ciepło. Hardware nie jest wąskim gardłem. Ludzie, którzy wiedzieli, jak go używać, odeszli.

Sam Musk napisał 13 marca: "xAI nie zostało dobrze zbudowane za pierwszym razem, więc jest przebudowywane od fundamentów." Dodał też: "Wielu utalentowanym ludziom w ostatnich latach odmówiono oferty albo nawet rozmowy kwalifikacyjnej @xAI. Przepraszam." Rzadkie przyznanie się do błędu od człowieka, który nie przeprasza.

Sześćdziesiąt miliardów powodów do niepokoju

Kasa nie jest ograniczeniem. SpaceX przejął xAI 2 lutego w transakcji all-stock, wyceniając połączony podmiot na 1,25 biliona dolarów. Potem 21 kwietnia — dwa dni temu — xAI dobił deal z Anysphere, twórcami edytora kodu Cursor, na opcję przejęcia za 60 miliardów dolarów albo opłatę za współpracę w wysokości 10 miliardów.

Ta liczba zasługuje na chwilę namysłu. Sześćdziesiąt miliardów za edytor kodu AI to nie jest zakład na produkt — to gra o dystrybucję. xAI potrzebuje kanałów, które pokażą możliwości modelu bez polegania na benchmarkach, których nie mogą opublikować. Miliony deweloperów Cursora dałyby Grokowi captive audience, które ocenia przez użytkowanie, a nie przez pozycję w rankingu. To sprytne obejście problemu weryfikacji: jeśli nie możesz udowodnić na papierze, że twój model jest dobry, osadź go tam, gdzie ludzie go używają, i licz, że doświadczenie przemówi samo za siebie.

Ale dystrybucja nie naprawia samego modelu. Możesz wrzucić Groka do każdego IDE na planecie. Jeśli wagi wytrenował zespół, którego już nie ma, a następcy działają z 11% efektywności obliczeniowej, to co właściwie ci deweloperzy będą ewaluować? Deal z Cursorem czyta się mniej jak inwestycja strategiczna, a bardziej jak kupowanie witryny sklepowej, zanim masz cokolwiek na półkach.

Próżnia weryfikacyjna

Pisaliśmy o milczeniu dokumentacyjnym xAI trzy dni temu — brak model card od ponad pięciu miesięcy, Grok 4.3 wypuszczony 17 kwietnia bez niezależnych benchmarków, Grok 5 nie dotrzymał deadline'u na Q1 bez zaktualizowanego harmonogramu. Schemat się utrzymuje: więcej kasy, mniej pokwitowań.

Co to dla ciebie znaczy

Następnym razem, kiedy będziesz wybierać narzędzie AI, zajrzyj dalej niż tabelka benchmarków. Sprawdź, kto zbudował model — i czy ci ludzie nadal tam są, żeby debugować awarie produkcyjne, wypuszczać patche bezpieczeństwa albo dostarczyć następną wersję na czas. Wyniki, które dziś porównujesz, mogły zostać wygenerowane przez zespół, który już nie istnieje.

W AI model to zespół. xAI zatrzymało GPU, a straciło ludzi. Pół miliona bezczynnych chipów nie pisze model cards.

Metryka, ktorej nikt nie sledzi: czy zespol AI w ogole jeszcze istnieje

Metryka, której nikt nie śledzi

Wiedzy instytucjonalnej nie da się zrobić git clone

Żenująco nisko

Sześćdziesiąt miliardów powodów do niepokoju

Próżnia weryfikacyjna

Co to dla ciebie znaczy

Keep reading

xAI 'nie zostało dobrze zbudowane" — słowa Muska, nie moje

Grok 4.3 Beta: 300 dolarow miesiecznie za model, ktorego nikt nie moze zweryfikowac

xAI zbudowalo najwiekszy klaster GPU na swiecie — i zrobilo z niego grupowy czat

Prawdziwy monopol xAI to nie GPU — to rura z danymi, której nie umie użyć