Ein Bundesrichter hat gerade die Oeffnung des besten KI-Trainingsdatensatzes der Welt angeordnet — Googles Anwaelte widersprechen

Stell ChatGPT oder Perplexity eine knifflige Frage — sagen wir, 'bester Handgepäck-Koffer für Billigflieger" — und vergleich die Antwort mit Googles. Google gewinnt. Nicht weil Gemini schlauer ist als GPT, sondern weil Google 25 Jahre lang aufgezeichnet hat, was 4,3 Milliarden tägliche Nutzer suchen, anklicken, ignorieren und wutentbrannt abbrechen. Dieser Verhaltensdatensatz — rund 8,5 Milliarden Anfragen pro Tag, jede versehen mit Klicks, Verweildauer, Scroll-Tiefe, Absprungsignalen und Reformulierungsmustern — stellt jeden anderen gelabelten Präferenzdatensatz auf diesem Planeten in den Schatten. Die Suchleiste ist kein Produkt. Sie ist das größte Annotationswerkzeug der Welt, und Menschen bedienen es kostenlos.

Jedes KI-Labor, das Retrieval- oder Agentensysteme baut, knallt gegen dieselbe Wand: Präferenzdaten. RLHF und DPO — die Trainingstechniken, die Modellen beibringen, welche Antworten Menschen tatsächlich mögen — sind nur so gut wie ihre gelabelten Beispiele. OpenAI, Anthropic und Meta können synthetische Präferenzen generieren oder Auftragnehmer bezahlen. Google öffnet einfach eine Datenbank. Nick Turley von OpenAI sagte aus, dass ihr Ziel sei, 80 % des ChatGPT-Suchtraffics aus dem eigenen Index zu bedienen, und gab dann zu, dass 100 % 'so weit weg und so unsicher" seien. Perplexity stützt sich auf Bings Index mit 4 % Marktanteil. Neeva — gegründet von einem ehemaligen Google-SVP mit 77 Millionen Dollar Finanzierung — baute einen eigenen Index von Grund auf, verbrannte das Geld in drei Jahren und verkaufte die Leiche 2023 an Snowflake. Kagi verlangt 10 Dollar im Monat und routet trotzdem Anfragen über externe APIs, wenn der eigene Crawler nicht weiterkommt. Ein minimal überlebensfähiger Suchindex kostet über 500 Millionen Dollar im Aufbau und zweistellige Millionenbeträge jährlich im Unterhalt. Die Präferenzschicht darüber — zu wissen, welches Ergebnis gut ist — kostet fünfundzwanzig Jahre Monopol.

Ein Bundesrichter hat also versehentlich den wertvollsten KI-Trainingsdatensatz der Erde geschaffen, und Googles Anwälte wählen im Akkord, um sicherzustellen, dass niemand ihn anfasst.

Am 14. April 2026 erließ Richter Amit Mehta formell kartellrechtliche Abhilfemaßnahmen, nachdem er geurteilt hatte, dass Google ein Suchmonopol rechtswidrig aufrechterhalten hat. Die Anordnung verbietet exklusive Default-Deals (tschüss, 19-Milliarden-Dollar-pro-Jahr-Handschlag mit Apple) für sechs Jahre und zwingt Google, einen einmaligen Snapshot seines Suchindex plus Nutzerinteraktionsdaten — Suchanfragen, Klicks, Hover-Zeiten, Verweildauer — mindestens zweimal in fünf Jahren an qualifizierte Wettbewerber zu übergeben. Das Gericht formulierte das Urteil, um den Suchwettbewerb zu reparieren. Es landete mitten in der Ära der Präferenzdaten für KI.

Was diese Interaktionsdaten in Machine-Learning-Begriffen tatsächlich sind: Milliarden impliziter menschlicher Präferenz-Labels. Nutzer suchte X. Klickte Ergebnis B. Blieb 4 Minuten. Ging zurück. Klickte Ergebnis D. Blieb 12 Sekunden. Sprang zu einer reformulierten Anfrage. Diese Sequenz ist ein Trainingssignal — exakt das Format, das du in eine Direct Preference Optimization Pipeline füttern oder zum Fine-Tuning eines Reward Models für RLHF verwenden würdest. Google betreibt das mit 8,5 Milliarden Beispielen pro Tag. Zum Vergleich: Der größte öffentlich bekannte Präferenzdatensatz (Anthropics HH-RLHF) enthält etwa 170.000 Vergleiche. Google generiert dieses Volumen alle zwei Sekunden.

Eine RAG-Pipeline, die auf diesen Daten trainiert wird, würde nicht nur Dokumente retrieven — sie würde lernen, welchen Dokumenten Menschen bei welchen Anfragetypen vertrauen, auf welchem Leseniveau, mit welchen Aktualitätsanforderungen. Das ist der Unterschied zwischen 'hier sind zehn Links" und 'hier ist die Antwort, die du tatsächlich akzeptierst." Es ist Retrieval-Qualität auf einem Niveau, das kein KI-Labor derzeit erreichen kann, ohne über Googles Infrastruktur zu routen.

Google legte am 16. Januar 2026 Berufung ein und nannte die Datenweitergabe 'irreparablen Schaden." Das D.C. Circuit wird die mündliche Verhandlung wahrscheinlich erst Ende 2026 hören, mit einer Entscheidung um Mitte 2027. Selbst wenn die Anordnung Bestand hat, entscheidet ein Technisches Komitee, wer sich als 'Wettbewerber" qualifiziert — und ob das Perplexity und OpenAI bedeutet oder nur DuckDuckGo. Derweil konvertiert Google sein Suchmonopol bereits in KI-Distribution: Am 12. Januar stimmte Apple zu, Google rund 1 Milliarde Dollar jährlich zu zahlen, um Gemini in Siri einzubetten. Das Monopol löst sich nicht auf — es verwandelt sich.

Rohe Query-Logs ohne Googles Ranking-Algorithmen sind eine Küche ohne Rezepte: brauchbare Zutaten, kein Restaurant. Aber für KI-Labore sind die Zutaten wichtiger, als Google zugeben will. Du brauchst kein PageRank, wenn du ein Preference Model trainierst. Du brauchst das menschliche Signal — was sie gewählt haben, wie lange sie blieben, ob sie zurückkamen. Genau das hat das Gericht zur Weitergabe angeordnet.

Die gesamte Branche hat Mehtas Urteil als Kartellrechts-Story im Suchbereich geframed. Es ist eine KI-Präferenzdaten-Story — die Art, die darüber entscheidet, ob OpenAIs Suche ein Bing-Reskin bleibt oder ein echter Wettbewerber wird, ob Perplexity Retrieval-Modelle trainieren kann, die Googles Qualität erreichen, ob irgendein Agent-Framework seine Antworten in menschlich validierten Relevanzsignalen im Milliarden-Anfragen-Maßstab verankern kann. Den Burggraben, den Google über 25 Jahre gefüllt hat, hat gerade eine gerichtlich angeordnete Pumpe in die andere Richtung bekommen. Ob sie anspringt, hängt von Berufungsrichtern ab, die wahrscheinlich nicht erklären können, wofür DPO steht. Das Gericht hat den Präzedenzfall geschaffen: Verhaltensdaten, die durch Monopolmacht angesammelt wurden, müssen nicht zwingend Monopoldaten bleiben. Im Zeitalter präferenztrainierter KI ist das keine kartellrechtliche Fußnote — es ist das gesamte Spiel.

Ein Bundesrichter hat gerade die Oeffnung des besten KI-Trainingsdatensatzes der Welt angeordnet — Googles Anwaelte widersprechen

Keep reading

Googles KI-Imperium faehrt auf Monopol-Schienen -- und ein Richter hat die Strecke markiert

Google schenkt deinem KI-Agenten 100 APIs. Gemini braucht sie nicht

Der Berechtigungsdialog deines Agenten ist ein Placebo

MCP funktioniert ueberall — bis du dich authentifizieren musst