Die Kennzahl, die niemand trackt: Ob das KI-Team ueberhaupt noch existiert

Wenn du ein KI-Tool wählst — ChatGPT, Claude, Gemini — vergleichst du Benchmarks, Scores, Preise, Features. Jedes große Labor veröffentlicht eine Model Card, die erklärt, was das Modell kann, wie es getestet wurde und wo es Schwächen hat. Jedes Labor. Bis auf eines.

Es gibt eine Kennzahl, die niemand trackt, wenn man sich für einen KI-Anbieter entscheidet: ob die Leute, die das Modell tatsächlich gebaut haben, überhaupt noch dort arbeiten. Stellt sich raus: Das ist wichtiger als jeder Benchmark-Score.

Die Kennzahl, die niemand trackt

Wir haben den Talent-Aderlass bei xAI ausführlich behandelt: alle 11 Mitgründer bis zum 28. März weg, der CFO nach sechs Monaten draußen, über 25 Führungskräfte verloren in einem Jahr — darunter 11 Senior Engineers, die in einer einzigen Februarwoche kündigten. Aber die Abgänge selbst sind nicht mehr die Story. Die Story ist, was mit ihnen rausgegangen ist.

Institutionelles Wissen lässt sich nicht git-clonen

KI-Modellentwicklung hängt von institutionellem Wissen ab — dem angesammelten Verständnis für Trainingsdaten-Entscheidungen, Architektur-Tradeoffs und Fehlermodi, das in den Köpfen der Leute lebt, nicht in Code-Kommentaren. Wenn Pretraining-Lead Manuel Kroiss geht, erben seine Nachfolger eine Codebase ohne Kontext. Sie können die Config-Dateien lesen. Sie können nicht lesen, warum genau diese Configs existieren, welche Sackgassen das Team schon erkundet hat, welche Hyperparameter-Entscheidungen tragend waren.

Das ist kein Personalproblem. Es ist ein epistemologisches. Das Wissen darüber, warum ein Modell sich so verhält, wie es sich verhält, lebt in den Köpfen des Teams, das es gebaut hat. Team weg, Warum weg. Was bleibt, ist ein System, das funktioniert — bis es das nicht mehr tut. Und dann weiß niemand mehr, wie man es repariert.

Nach meiner konservativen Schätzung läuft Modellentwicklung in einem 6-bis-18-monatigen Feedback-Loop. Neue Forscher müssen bestehende Trainingsinfrastruktur verinnerlichen, vorherige Ergebnisse reproduzieren und iterieren, bevor sie Verbesserungen liefern können. Die vollen Auswirkungen des xAI-Exodus werden erst Ende 2026 sichtbar. Aber die Frühwarnsignale sind schon da.

Peinlich niedrig

Michael Nicolls — ehemaliger SpaceX-SVP für Starlink, jetzt neuer xAI-Präsident — hat's offenbar kapiert. In einem internen Memo, über das Business Insider am 18. April berichtete, sagte er den Mitarbeitern, dass xAI 'klar hinter" der Konkurrenz liege und die Rechenleistung 'peinlich niedrig" sei. Die konkrete Zahl: MFU (Model FLOPs Utilization — wie effizient die GPUs tatsächlich rechnen) liegt bei rund 11%. Der Branchendurchschnitt: 35–45%.

xAIs 555.000-GPU-Cluster Colossus ist die größte einzelne Trainingsanlage der Welt. Bei 11% MFU erzeugt der Großteil dieser Rechenkapazität effektiv Abwärme. Die Hardware ist nicht der Flaschenhals. Die Leute, die wussten, wie man sie nutzt, sind weg.

Musk selbst schrieb am 13. März: 'xAI wurde beim ersten Mal nicht richtig aufgebaut, also wird es von Grund auf neu aufgebaut." Und: 'Vielen talentierten Leuten wurde in den letzten Jahren ein Angebot oder sogar ein Vorstellungsgespräch bei @xAI verwehrt. Meine Entschuldigung." Seltenes Eingeständnis von einem Mann, der normalerweise keine Entschuldigungen kennt.

Sechzig Milliarden Gründe zur Sorge

Geld ist nicht das Problem. SpaceX übernahm xAI am 2. Februar in einem Aktien-Deal, der das kombinierte Unternehmen auf 1,25 Billionen Dollar bewertete. Dann, am 21. April — vor zwei Tagen — schloss xAI einen Deal mit Anysphere, den Machern des Code-Editors Cursor, über eine Kaufoption für 60 Milliarden Dollar oder eine Kooperationsgebühr von 10 Milliarden Dollar.

Diese Zahl verdient eine Pause. Sechzig Milliarden für einen KI-Code-Editor ist keine Produktwette — es ist ein Distributionsspiel. xAI braucht Kanäle, die Modell-Fähigkeiten demonstrieren, ohne sich auf Benchmarks zu verlassen, die man nicht veröffentlichen kann. Cursors Millionen von Entwicklern würden Grok ein gefangenes Publikum geben, das nach Nutzungserlebnis bewertet, nicht nach Bestenlisten. Ein cleverer Umweg um das Verifizierungsproblem: Wenn du nicht beweisen kannst, dass dein Modell auf dem Papier gut ist, bau es dort ein, wo die Leute es benutzen, und hoff, dass die Erfahrung für sich spricht.

Aber Distribution repariert nicht das zugrundeliegende Modell. Du kannst Grok in jede IDE auf dem Planeten stecken. Wenn ein abgewandertes Team die Weights trainiert hat und die Nachfolger mit 11% Recheneffizienz arbeiten — was genau evaluieren diese Entwickler dann? Der Cursor-Deal liest sich weniger wie eine strategische Investition und mehr wie der Kauf eines Ladens, bevor man überhaupt Ware im Regal hat.

Das Verifikationsvakuum

Wir haben über xAIs Dokumentationsstille vor drei Tagen berichtet — keine Model Card seit über fünf Monaten, Grok 4.3 am 17. April ohne unabhängige Benchmarks veröffentlicht, Grok 5 hat seinen Q1-Termin verpasst ohne aktualisierten Zeitplan. Das Muster bleibt: mehr Geld, weniger Belege.

Was das für dich bedeutet

Wenn du das nächste Mal KI-Tools evaluierst, schau über die Benchmark-Tabelle hinaus. Check, wer das Modell gebaut hat — und ob diese Leute noch da sind, um Produktionsfehler zu debuggen, Sicherheitspatches zu liefern oder die nächste Version pünktlich rauszubringen. Die Scores, die du heute vergleichst, hat ein Team produziert, das möglicherweise nicht mehr existiert.

In der KI ist das Modell das Team. xAI hat die GPUs behalten und die Leute verloren. Eine halbe Million brachliegender Chips schreibt keine Model Cards.

Die Kennzahl, die niemand trackt: Ob das KI-Team ueberhaupt noch existiert