Du wählst dein KI-Coding-Tool nach dem Leaderboard aus. SWE-bench hat dir gesagt, welches Modell die meisten Bugs gefixt hat. Promptfoo ließ dich Modelle im Direktvergleich testen. Das Agents SDK gab dir ein Framework zum Bauen. Drei Säulen der Vergleichsinfrastruktur. Drei unabhängige Prüfinstanzen dafür, wer tatsächlich der Beste ist.
Ich habe diese Woche jede dieser Geschichten einzeln behandelt — den Zusammenbruch von SWE-bench, die Promptfoo-Übernahme, das Agents-SDK-Update. Einzeln betrachtet ergab jede Sinn. Zusammen offenbaren sie etwas, das keiner der einzelnen Beiträge eingefangen hat.
Die gängige Lesart
OpenAI hat drei unzusammenhängende Schritte gemacht. Sie veröffentlichten eine berechtigte Kritik an einem fehlerhaften Benchmark. Sie kauften ein Open-Source-Eval-Tool und ließen es unter MIT-Lizenz (jeder kann kopieren, ändern, weiterverbreiten). Sie machten ihr SDK modellagnostisch. Jeder Schritt ist isoliert vertretbar. Jeder Schritt hilft Entwicklern.
Was wirklich passiert ist
Das ist vertikale Integration des gesamten Evaluierungs-Stacks. Und es gibt einen Präzedenzfall.
2007 übernahm Google DoubleClick — die dominante Ad-Serving-Plattform, die Werbeleistung über alle Anbieter hinweg maß, einschließlich Googles eigener Produkte. Die EU ermittelte jahrelang. Google versprach Neutralität. Ein Jahrzehnt später argumentierte das US-Justizministerium, Google habe über genau diese Infrastruktur systematisch die eigenen Werbeprodukte bevorzugt. Das Unternehmen, das die Anzeigen verkaufte, betrieb auch das Tool, das bewertete, ob die Anzeigen funktionierten.
OpenAI hat gerade dasselbe Playbook auf KI-Modell-Evaluierung angewendet — in sieben Wochen statt sieben Jahren.
Drei Züge, ein Muster
Zug eins (23. Februar): OpenAIs Audit markierte 59,4 % der SWE-bench Verified-Testfälle als fehlerhaft und fand Trainingsdaten-Kontamination bei jedem Frontier-Modell. Sie stellten die Berichterstattung ihrer Scores ein. Die Kritik war berechtigt — SWE-bench Pros schwierigere Aufgaben zeigen eine 22-Punkte-Lücke zu den aufgeblähten Verified-Werten. Aber OpenAIs Modelle hatten bei ~80 % auf Verified ein Plateau erreicht, während die Konkurrenz aufholte. Praktisches Timing.
Zug zwei (9. März): OpenAI übernahm Promptfoo — über 350.000 Entwickler, mehr als 25 % der Fortune-500-Unternehmen — das Eval-Framework, das die meisten Teams zum Vergleich von LLMs nutzen. Das beliebteste Lineal gehört jetzt einem der Teilnehmer.
Zug drei (15. April): Das Agents-SDK-Update fügte native Unterstützung für über 100 konkurrierende LLMs via LiteLLM-Integration hinzu. Jedes Konkurrenzmodell wird zum einzeiligen Config-Swap in OpenAIs Framework. Das Modell wird zur Commodity; das SDK wird zum Burggraben.
Was sich für Entwickler wirklich ändert
Drei Dinge.
Die Reibung verschiebt sich. Wenn der Modellwechsel nur eine Zeile in einer OpenAI-Config-Datei erfordert, "wählst" du nicht Claude — du wählst OpenAIs Plattform und routest gelegentlich zu Claude. Stell dir vor, Apple baut den einzigen App Store und lässt Samsung großzügig dort verkaufen.
Eval-Defaults schlagen Eval-Optionen. Promptfoo kann weiterhin jedes Modell testen. Aber die Standard-Templates, die empfohlenen Configs, der "Getting Started"-Flow — die bestimmen, was 90 % der Entwickler tatsächlich testen. Wie Simon Willison anmerkte: "OpenAI don't yet have much of a track record with respect to acquiring and maintaining open source projects." Die MIT-Lizenz bedeutet, du kannst forken und gehen. Die meisten werden es nicht tun. Defaults sind mächtig.
Benchmark-Autorität fragmentiert. SWE-bench Pro nutzt schwerere, weniger kontaminierte Aufgaben in mehreren Sprachen. LiveCodeBench rotiert Aufgaben, um Auswendiglernen zu verhindern. Keines hat die Verbreitung, die Verified hatte. Vertrauen in einen neuen Benchmark aufzubauen dauert Jahre. OpenAI braucht keine Jahre — ein paar Monate Unklarheit reichen.
Die Lücke in der Gegenstrategie
Anthropic liefert Claude Code — ein Direktprodukt für Entwickler, das SDK-Wrapper komplett umgeht. Google bündelt Gemini in Android, Chrome und Workspace und schafft Distributionskanäle, die OpenAI nicht abfangen kann. Beide verteidigen sich über Distribution statt über Messung.
Keiner hat einen alternativen Evaluierungsstandard aufgebaut. Das ist die eigentliche Lücke. Die Branche hat konkurrierende Modelle, konkurrierende SDKs, konkurrierende Distributionskanäle — aber keine unabhängige, vertrauenswürdige, breit akzeptierte Evaluierungsinfrastruktur mehr. Die alte Anzeigetafel hatte echte Kontaminationsprobleme. Ein Ersatz existiert noch nicht.
Die unbequeme Frage
Die Frage ist nicht, ob OpenAIs einzelne Schritte einer Prüfung standhalten. Das tun sie. Die Frage ist, ob ein einziges Unternehmen gleichzeitig das Produkt verkaufen, das Testframework besitzen und das SDK kontrollieren sollte, das jeden Konkurrenten einwickelt.
Wenn deine Antwort das Wort "Vertrauen" enthält — Glückwunsch, du hast das Problem erkannt.
Wenn du das nächste Mal ein KI-Modell evaluierst, schau dir an, wer das Lineal gebaut hat, wem das Testlabor gehört und wessen Tooling den Test ausführt. Wenn es dreimal dasselbe Unternehmen ist, evaluierst du nicht — du wirst ongeboardet.
Das KI-Modellrennen endete nicht, weil jemand gewonnen hat. Es endete, weil der Spitzenreiter die Anzeigetafel kaufte und in einen Laden verwandelte.





