SWE-bench ist tot. Worauf dein AI-Coding-Tool wirklich konkurriert.

Du wählst dein AI-Coding-Tool nach dem Leaderboard aus. SWE-bench Verified — ein standardisierter Test, bei dem KI-Modelle Bugs in Open-Source-Python-Projekten fixen — liefert ein hübsches Scoreboard, und jeder Anbieter drückt dir seine Zahl ins Gesicht. Höherer Score, besseres Tool. Simpel, oder?

Nur fühlen sich Tools, die auf nahezu identischen Modellen laufen, auf deiner echten Codebase komplett anders an. Eins nagelt ein Drei-Dateien-Refactoring, das andere halluziniert einen Import, den es nicht gibt. Der Score sagt: Zwillinge. Dein Montagmorgen sagt was anderes.

10.000 Entwickler bestätigen: Das Leaderboard lügt

JetBrains' AI Pulse-Umfrage ist diesen Monat erschienen — 10.000+ professionelle Entwickler, acht Sprachen, echte Arbeitsplatzdaten — und hat bestätigt, was dein Bauchgefühl längst wusste: Die Zufriedenheit der Entwickler weicht massiv voneinander ab, obwohl die zugrunde liegenden Modelle auf SWE-bench innerhalb eines Rundungsfehlers liegen. Der Benchmark zeigt ein Dreier-Unentschieden. Die Entwickler sind sich alles andere als einig.

Das ist keine neue Erkenntnis. Bereits im Februar hat OpenAI SWE-bench Verified für tot erklärt. Der Obduktionsbefund: GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash konnten Gold-Patch-Lösungen wortgetreu aus dem Gedächtnis reproduzieren — nur anhand der Task-ID. Die Modelle haben keine Probleme gelöst. Sie haben auswendig gelernte Antworten aufgesagt. OpenAI hat außerdem 27,6 % der fehlgeschlagenen Tasks geprüft und festgestellt, dass 59,4 % fehlerhafte Testfälle hatten, die funktional korrekten Code als falsch markierten. Der Benchmark hat nicht nur Auswendiglernen getestet — er hat auch richtige Lösungen als falsch bewertet.

Das Live-Leaderboard vom 13. April 2026 bestätigt die Absurdität: Claude Opus 4.5 bei 80,9 %, Opus 4.6 bei 80,8 %, Gemini 3.1 Pro bei 80,6 %. Drei Frontier-Modelle innerhalb von 0,3 Prozentpunkten. Ein statistisches Unentschieden, aufgemotzt als Pferderennen.

Die Variable, die niemand benchmarkt

Wenn der Score die Zufriedenheitslücke nicht erklärt, was dann? Context Strategy — wie viel von deinem Projekt das Tool tatsächlich versteht, bevor es auch nur eine einzige Zeile schreibt.

SWE-bench testet isolierte Bug-Fixes in gut dokumentierten Open-Source-Repos. Du verbringst deine Tage mit Multi-File-Feature-Arbeit in proprietären Codebases voller Stammwissen und dieser einen Config-Datei, die Kevin 2019 geschrieben hat und die keiner anzufassen wagt. So geht jedes große Tool das Problem an — und wo jedes einzelne versagt:

Claude Code liest deinen Verzeichnisbaum und CLAUDE.md-Instruktionsdateien — Klartext-Dokumente, in denen du der KI die Konventionen deines Projekts, verbotene Patterns und Architekturentscheidungen beibringst. Es schickt vollständigen Dateiinhalt ins Context Window: echten Code, keine Zusammenfassungen. Das Limit: Context Windows sind endlich. Bei einem Monorepo mit 50.000 Dateien kann es nicht alles gleichzeitig halten und verlässt sich auf deine Instruktionsdateien, um es auf das Wesentliche zu lenken. Faule CLAUDE.md, faule Ergebnisse. Das Tool ist nur so schlau wie die Karte, die du ihm zeichnest.

Cursor geht den entgegengesetzten Weg. Die @Codebase-Funktion erstellt einen proprietären Vector Index — eine Embedding-Datenbank der semantischen Bedeutung deines Codes. Bei Anfragen werden die relevantesten Chunks per Similarity Search abgerufen und große Codebases navigiert, ohne alles in den Kontext zu laden. Der Fehlerfall: Embeddings verlieren strukturelle Zusammenhänge. Eine Funktion, die drei Hilfsfunktionen über zwei Dateien aufruft, matcht vielleicht semantisch, aber der Index übersieht die Abhängigkeitskette. Der Index hinkt bei großen Projekten auch Bearbeitungen hinterher — du änderst eine Datei, und für die nächsten paar Minuten beantwortet die KI Fragen über die alte Version.

GitHub Copilot nutzt Knowledge Bases im Enterprise-Tier (39 $/Nutzer/Monat) — indexierte Repositories plus Dokumentation, die Copilot bei Completions heranzieht. Es kann mehrere Repos querverweisen, was zu Microservice-Architekturen passt. Der Haken, den niemand erwähnt: Die kostenlosen und Pro-Tiers bekommen davon nichts. Die meisten individuellen Entwickler nutzen Copilot mit null Projekt-Kontext — nur die offene Datei und vielleicht ein Nachbar-Tab. Der Unterschied zwischen Enterprise Copilot und normalem Copilot ist größer als der Unterschied zwischen irgendwelchen zwei Tools auf dem Leaderboard.

Zed parst Code strukturell via Tree-sitter — es sieht abstrakte Syntaxbäume, keine flachen Strings. Es versteht Scopes, Funktionsgrenzen und Verschachtelung nativ. Schnell und schlank. Der Kompromiss: Syntax ohne Semantik. Tree-sitter weiß, dass eine Funktion existiert und wie sie heißt, nicht was sie tut oder warum sie wichtig ist. Für Boilerplate und Single-File-Edits: präzise. Für "Wie beeinflusst die Auth-Middleware diesen API-Endpoint drei Packages weiter?": überfordert.

Gleiches Modell-Tier. Radikal unterschiedliches Projektverständnis. Die Zufriedenheitsdaten fangen an, Sinn zu ergeben.

Simon Willison argumentierte bereits im Oktober 2025, dass die beste Context Strategy keine ausgefallenen Instruktionsdateien sind — sondern langweiliges Grundhandwerk: automatisierte Tests (er lässt 1.500 in einem Projekt laufen), interaktive Dev-Server, sauber strukturierte GitHub Issues. Übersetzt: Schreibt Tests, ihr Barbaren. Die ausgefeilteste Context-Konfiguration der Welt rettet keinen Code, der keine Test-Suite hat, um sich selbst zu prüfen. Er hat ärgerlich recht — aber es ist kein Entweder-oder. Gute Context Strategy plus eine solide Test-Suite ist das, was sich wirklich potenziert.

Der Preis, der nicht auf dem Etikett steht

Hier ist die Falle, die niemand in den Vergleich einpreist: Jede der oben genannten Context Strategies ist proprietär und nicht portierbar. Deine CLAUDE.md-Dateien bedeuten Cursor nichts. Dein Cursor-Index lässt sich nicht zu Copilot übertragen. Tool-Wechsel bedeutet, dein gesamtes Projekt von Grund auf neu beizubringen — Stunden an Setup, Wochen an Feintuning von Prompts und Dokumentation.

Das 20-Dollar-Abo pro Monat ist der billige Teil. Der teure Teil ist das institutionelle Wissen, das du in das spezifische Format eines Tools gießt.

Und die Pointe: Kein Standard-Benchmark misst Codebase-Verständnis. OpenAI empfahl im Februar SWE-bench Pro als Ersatz für Verified, aber zwei Monate später ist die Adoption dünn und Pro testet immer noch isolierte Aufgaben. Modelle, die auf Verified ~80 % erreichen, fallen auf Pro auf circa 23 %. Niemand hat den Benchmark gebaut, der testet, worauf es wirklich ankommt.

Was das für dich bedeutet

Hör auf, Leaderboards zu lesen. Die Zahl, die du vergleichst, ist ein Auswendiglernen-Score auf einer kaputten Prüfung.

Nimm zwei oder drei Tools, lass jedes eine Woche auf deinem Repo laufen und track die Completion-Genauigkeit bei Aufgaben, die dateiübergreifendes Verständnis erfordern — die Art Arbeit, die du tatsächlich machst. Achte auf die Setup-Zeit, denn das sind deine Wechselkosten für immer.

Das Modell-Rennen hat bei ~81 % eine Decke erreicht. Das Context-Rennen hat gerade erst begonnen, und niemand führt Buch. Das ist entweder beängstigend oder die größte Chance im Developer-Tools-Bereich gerade — je nachdem, ob du ein Anbieter bist oder ein Entwickler mit einer Woche Zeit für eine ehrliche Evaluation.

SWE-bench ist tot. Worauf dein AI-Coding-Tool wirklich konkurriert.

10.000 Entwickler bestätigen: Das Leaderboard lügt

Die Variable, die niemand benchmarkt

Der Preis, der nicht auf dem Etikett steht

Was das für dich bedeutet

Keep reading

Vier KI-Coding-Tools shippen parallele Agenten. Keines loest git merge.

OpenAI hat das KI-Rennen nicht gewonnen -- es hat die Anzeigetafel gekauft

Du kannst deinen KI-Agent nicht testen. Keines der SDKs interessiert das.

Grok crashte zwei Tage lang — mitten in der eigenen Launch-Woche