Sechs KI-Coding-Tools, sechs Abrechnungsmodelle, null Vergleichbarkeit

Du bist Teamlead und starrst auf vier Rechnungen für KI-Coding-Tools — Software, die neben deinen Entwicklern Code schreibt, wie ein sehr schneller, aber sehr teurer Junior-Kollege. Auf einer steht 'Seats". Auf der nächsten 'Tokens". Die dritte sagt 'Session-Hours". Die vierte 'Credits". Dein Spreadsheet hat keine gemeinsame Spalte. Deine Finanzabteilung stellt Fragen, die du nicht beantworten kannst.

Das sollte nicht schwer sein. Du willst nur wissen, welches Tool pro Entwickler und Monat weniger kostet. Aber kein Anbieter auf diesem Planeten wird dir diese Zahl nennen — weil die Verwirrung das Produkt ist.

Allein in den letzten vier Tagen hat das Preischaos die kritische Masse erreicht. Am 18. April schloss Cursors Muttergesellschaft Anysphere eine 2-Milliarden-Dollar-Finanzierungsrunde bei einer Bewertung von 50 Milliarden Dollar ab — die Art Kriegskasse, mit der man Pricing-Experimente bis in alle Ewigkeit finanzieren kann. Das Unternehmen verkauft Dollar-äquivalente Nutzungscredits für 20–200 Dollar im Monat. Am 20. April hat GitHub die Neuanmeldungen für Copilot schlicht pausiert — beim Flatrate-Seat-Modell, wohlgemerkt — mit Verweis auf 'Nachhaltigkeit". Ein Wort, das Unternehmen benutzen, wenn die Stückkosten verbluten. Dem gingen Wochen von Abrechnungsmodell-Reise-nach-Jerusalem voraus: Am 4. April verschob OpenAI Codex auf tokenbasierte Credits, Anthropic launchte Managed Agents am 8. April für 0,08 Dollar pro Session-Hour plus Per-Token-Preise plus 10 Dollar pro tausend Websuchen, und Windsurf hatte bereits am 12. März tägliche Kontingente eingeführt. Sechs Anbieter, sechs Abrechnungsmodelle, null Überschneidung.

Jetzt der Teil, wo dein Geldbeutel Feuer fängt und niemand eine Benachrichtigung schickt. Jede Abrechnungseinheit versteckt eine andere Kostenfalle — und die fieseste steckt in den Reasoning-Modellen. OpenAIs o-Serie und Anthropics Extended-Thinking-Modi erzeugen versteckte Reasoning-Tokens: interne Chain-of-Thought, die das Modell produziert, bevor es antwortet. Du siehst sie nicht. Du zahlst dafür. Eine am 25. März veröffentlichte Studie von Stanford und UC Berkeley ergab, dass die Reasoning-Token-Erzeugung bei identischen Prompts um bis zu 9,7× zwischen den Durchläufen variiert — und dass sich die Kostenrankings zwischen Modellen um den Faktor 28 umkehren können, je nachdem welchen Durchlauf man misst. (Ich habe die Studie ausführlich in meiner Analyse vom 20. April behandelt — die Kurzfassung: Dein Budgetvoranschlag ist nicht falsch, er ist ein Zufallsgenerator.) Separat davon erzeugt Anthropics Opus-4.7-Tokenizer mehr Tokens für identischen Text als sein Vorgänger — gleicher Preis pro Token, mehr Tokens pro Request, wie die gestrige Modellwechsel-Analyse gezeigt hat. Cursors Credit-System drosselt Power-User mitten in der Session, sobald sie ihre Fast Requests aufgebraucht haben. Und Copilots Flatrate? Die subventioniert den Entwickler, der das Tool zweimal am Tag nutzt — auf Kosten desjenigen, der darin lebt.

Wenn du versuchst, alles auf Kosten pro tatsächlichem Output zu normalisieren — sagen wir, Kosten pro gemergtem Pull Request (eine abgeschlossene Codeänderung, die das Review bestanden hat) — verschiebt sich das Bild dramatisch. GetDX' Benchmarks für Q1 2026, veröffentlicht am 15. April, über 64.680 Entwickler zeigen Cursor-Nutzer bei 4,1 PRs pro Tag gegenüber Copilots 3,61. Der 10-fache Unterschied auf dem Preisschild komprimiert sich auf ungefähr das 2- bis 4-Fache pro Ergebnis. Aber der günstigste Anbieter wechselt, je nachdem ob dein Team 50 Zeilen am Tag schreibt oder 500.

Jedes Preismodell formt auch um, wie Entwickler tatsächlich arbeiten. Flatrate-Seats ermutigen zum Experimentieren — probier alles aus, ist ja schon bezahlt. Per-Token-Abrechnung bestraft Exploration — jeder Tastendruck hat ein Preisschild. Session-Hours belohnen schnelle Agents und bestrafen Debugging. Tägliche Kontingente erzeugen harte Klippen, an denen dein Tool nachmittags einfach aufhört.

Was machst du also konkret? Dein Einkaufsteam braucht eine Kennzahl: geschätzte monatliche Kosten pro Entwickler bei eurem Nutzungsmuster. Keine Preisseite wird dir das liefern. Der einzig ehrliche Weg ist ein zweiwöchiger Paralleltest mit eurer tatsächlichen Codebase und euren tatsächlichen Menschen.

Der KI-Coding-Markt hat die Rechenarbeit an den Käufer ausgelagert. Der erste Anbieter, der einen transparenten Kosten-pro-Ergebnis-Rechner veröffentlicht, gewinnt die nächste Welle der Enterprise-Deals. Der Rest wettet darauf, dass du die Hausaufgaben nicht machst. Die meisten von euch werden es nicht tun.

Sechs KI-Coding-Tools, sechs Abrechnungsmodelle, null Vergleichbarkeit

Keep reading

Du drueckst 200 Mal am Tag Tab. Deinen KI-Anbieter interessiert das nicht mehr.

Vier KI-Coding-Tools shippen parallele Agenten. Keines loest git merge.

Deine KI-Coding-Regeln stecken im Vendor Lock-In. Hier ist der 20-Zeilen-Ausbruch

Die KI in deinem Code-Editor hat ein Lieferketten-Problem