Es ist April 2026, und die Wahl eines KI-Abos sieht mittlerweile verdächtig nach Mobilfunktarif-Vergleich aus. Du öffnest eine Tabelle, vergleichst Claude, ChatGPT, Gemini — jeder Anbieter veröffentlicht Benchmarks (standardisierte Tests, die messen, wie gut ein KI-Modell performt), Sicherheitsberichte und Kundenreferenzen. Du liest die Zahlen, vergleichst die Preise, wählst. Rationaler Prozess. Erwachsenenverhalten.
Und dann gibt's xAI.
300 $ für Vibes
Am 17. April hat xAI klammheimlich Grok 4.3 Beta in den Model-Selector auf grok.com geschoben. Kein Blogpost. Keine Model Card — das technische Datenblatt, das jedes andere KI-Labor veröffentlicht, um zu erklären, was ein Modell kann und was nicht. Keine unabhängigen Benchmarks. Keine Pressetour. Nur ein Elon-Musk-Tweet und ein Preisschild: 300 $ pro Monat für die 'SuperGrok Heavy"-Stufe.
Das sind 100 $ mehr als ChatGPT Pro. 50 $ mehr als Google AI Ultra. 100 $ mehr als Claude Max. Das teuerste Consumer-KI-Abo der Branche — und das einzige ohne jeden unabhängigen Beleg, dass es das wert ist.
Der Beweis-Krater
Die Lücke ist keine Lücke. Es ist ein Krater.
Anthropic veröffentlicht System Cards für jedes Claude-Release. OpenAI liefert Benchmark-Offenlegungen mit jedem GPT-Update. Google pflegt öffentliche Evaluierungs-Dashboards. xAI? Deren letzte Model Card war für Grok 4, veröffentlicht am 20. August 2025. Seitdem — Grok 4.1, 4.20 und jetzt 4.3 — nichts. Keine Drittanbieter-Evaluierungen von LMSYS oder HuggingFace. Keine Red-Team-Berichte (unabhängige Sicherheitsaudits, bei denen Forscher gezielt versuchen, das Modell zu brechen). Wie TechSifted am 17. April bemerkte, kam der Launch 'ohne offiziellen xAI-Blogpost, ohne veröffentlichte Model Card, ohne Drittanbieter-Benchmarks und ohne Berichterstattung durch Tier-1-Medien."
Was es mitbrachte: native PDF-Generierung, Folienerstellung und Tabellenausgabe — Features, die Claude, Gemini und ChatGPT über ein Jahr vorher ausgeliefert hatten. Und immer noch kein persistenter Speicher zwischen Sessions. Wie BuildFastWithAI's Review am 19. April feststellte: 'Bei 300 $/Monat ist dessen Fehlen ehrlich gesagt schwer zu verteidigen."
Wofür zahlst du also?
Skalierung. Reine, unverifizierte Skalierung.
xAIs Colossus-Rechenzentrum läuft mit 555.000 NVIDIA-GPUs, mit über 700.000 aktiven über alle Trainingsläufe hinweg. Am 8. April berichtete EONMSK, dass gleichzeitig sieben Modelle trainiert werden, darunter zwei mit einer Billion Parametern — wobei ein Parameter einer der verstellbaren Regler in einem neuronalen Netzwerk ist, der beeinflusst, wie es antwortet. Mehr Parameter können mehr Fähigkeit bedeuten. Oder mehr Stromrechnungen. Ohne Benchmarks kannst du schlicht nicht sagen, was davon zutrifft.
Das Timing macht es schlimmer. Drei Tage vor dem Grok-4.3-Launch, am 14. April, enthüllte NBC News, dass Apple bereits im Januar privat gedroht hatte, Grok aus dem App Store zu entfernen — wegen nicht-einvernehmlicher Deepfakes, die das Modell generiert hatte. Das Vertrauensdefizit ist nicht theoretisch — es ist dokumentiert, abgestempelt und beim Kongress eingereicht.
Die Verteidigung (weil Fairness zählt)
Die Gegenargumente verdienen Gehör. Die Rechenleistung ist real und beispiellos. Beta-Pricing selektiert naturgemäß Enthusiasten, die Risiko akzeptieren. Und Groks tiefe Integration mit X (ehemals Twitter) bietet Echtzeit-Zugang zu sozialen Daten, den kein Konkurrent hat — wenn du analysieren musst, was gerade jetzt trendet, hat Grok einen echten Vorteil.
Das sind legitime Vorteile. Aber 'vertrau uns, wir haben viele GPUs" ist keine Beschaffungsbegründung. Es ist ein Vibe.
Was das für dich bedeutet
Für jeden, der heute KI-Tools evaluiert — ob Solo-Entwickler, Teamleiter oder jemand, der das über die Firma abrechnen will — die Lektion ist simpel: Preis signalisiert keine Qualität, wenn die Beweisschicht fehlt. Ein Modell, das du nicht benchmarken kannst, ist ein Modell, das du nicht budgetieren kannst. Kein Controller genehmigt 'fühlt sich echt schnell an" als Posten.
Zwei Preisreligionen
Der KI-Markt läuft jetzt auf zwei Preisphilosophien. Evidenzbasiert: hier sind die Scores, hier die Nutzer, hier was kaputt ging. Und skalierungsbasiert: guck mal, wie groß das ist.
Nur eine davon überlebt einen Controller, der fragt 'warum brauchen wir das?"
xAI hat die andere gewählt.



