Windsurf SWE-1.5: Die IDE, die sich ein eigenes Gehirn trainiert hat

Jedes KI-Coding-Tool, das du gerade nutzt — Cursor, Copilot, Windsurf — läuft auf dem Gehirn von jemand anderem. Du tippst Code, der Editor schickt ihn über eine API (eine Leitung, die deinen Editor mit einer Remote-KI verbindet) an Claude oder GPT, und ein Modell, das gebaut wurde, um Gedichte zu schreiben, Urlaube zu planen und nebenbei auch zu coden, schickt einen Vorschlag zurück. Funktioniert. Aber es ist langsam, generisch, und du mietest Intelligenz von Firmen, die dir morgen die Butter vom Brot nehmen könnten.

Windsurf — die KI-native IDE, die als Codeium gestartet und dann 2025 von Cognition übernommen wurde — hat entschieden, dass Mieten was für Anfänger ist.

Am 29. Oktober 2025 veröffentlichte Cognition SWE-1.5, die neueste Version ihrer eigenen Modellfamilie, die speziell für Software Engineering gebaut wurde. Kein Fine-Tune (ein bestehendes Modell mit zusätzlichen Trainingsdaten nachjustieren). Kein Wrapper. Ein Frontier-Modell mit Hunderten Milliarden Parametern (die internen Stellschrauben, mit denen eine KI Entscheidungen trifft). Cognition hat es end-to-end mit Reinforcement Learning trainiert (eine KI-Lernmethode, bei der das Modell durch Versuch und Irrtum lernt) — an echten Coding-Aufgaben.

Auf SWE-Bench Pro — dem Industrie-Standard-Benchmark mit 731 anspruchsvollen Coding-Aufgaben aus 41 Code-Repositories — erreichte SWE-1.5 40,08%. Claude Sonnet 4.5 kam auf 43,60%. Nah genug, um Augenbrauen hochzuziehen, besonders wenn man hört, was als Nächstes kommt.

Windsurf hat sich mit Cerebras zusammengetan, einem Chip-Unternehmen, das spezialisierte KI-Hardware baut, um SWE-1.5 mit bis zu 950 Tokens pro Sekunde auszuliefern. Ein Token entspricht ungefähr drei Vierteln eines englischen Worts — also bedeuten 950 Tokens/Sek., dass das Modell Text etwa 13x schneller generiert als Sonnet 4.5 und 6x schneller als Haiku 4.5. Cognition hat außerdem ihre internen Lint-Checks (automatische Code-Fehlererkennung) und Command-Execution-Pipelines umgeschrieben, was bis zu 2 Sekunden Overhead pro Schritt in Agent-Sessions einspart — diese iterativen Schleifen, in denen die KI Code liest, Tests ausführt, Fehler liest und Dinge fixt.

Das praktische Ergebnis: Agent-Workflows, die auf Sonnet Minuten dauern, laufen auf SWE-1.5 in Sekunden durch. Für Entwickler, die den ganzen Tag Fix-Test-Fix-Test-Zyklen fahren, summiert sich dieser Geschwindigkeitsunterschied auf Stunden pro Woche. Die Feedback-Schleife zwischen 'fix das" und 'ist gefixt" schrumpft von Kaffeepause zu Wimpernschlag. Für eine Katze, die Nickerchen und Effizienz schätzt, zutiefst ansprechend. 😸

Am 24. Dezember 2025 lieferte Wave 13 SWE-1.5 als Standardmodell aus — drei Monate lang kostenlos für alle Nutzer. Die Gratis-Phase endete am 27. März 2026, als Windsurf ein neues Quota-Billing-System einführte. Klassische Dealer-Strategie: Die erste Dosis ist gratis, dann bist du auf die Geschwindigkeit angefixt und 30 Dollar im Monat fühlen sich plötzlich vernünftig an. Clever. Hinterhältig. 😹

Aber hier ist der Teil, über den keiner reden will. Cognition hat SWE-1.5 gezielt auf agentische Coding-Aufgaben trainiert — und es dann auf einem Benchmark getestet, der agentische Coding-Aufgaben misst. Gut abschneiden in der Prüfung, auf die du gebüffelt hast, ist erwartbar, nicht beeindruckend. Die eigentliche Frage ist, ob SWE-1.5 auch bei chaotischen, realen Codebases besteht, die rein gar nichts mit den Trainingsdaten zu tun haben.

Und da gibt es eine größere Sorge. Wenn jede IDE-Firma ihr eigenes proprietäres Modell trainiert, landen wir bei ummauerten Gärten. Deine IDE-Wahl bestimmt dein KI-Modell. Dein Modell bestimmt deine IDE. Vendor Lock-in mit extra Schritten. Wenigstens konnte man, als noch alle GPT-4 nutzten, den Editor wechseln, ohne seine Instinkte auf die Macken eines völlig anderen Modells umtrainieren zu müssen. 😾

Trotzdem — ein eigenes Frontier-Modell trainieren, statt Sam Altman Miete zu zahlen? Das ist der richtige strategische Zug. Jede IDE-Firma, die API-Calls an OpenAI geschickt hat, finanzierte ihren zukünftigen Konkurrenten. Cognition sagte 'nein danke" und baute sich ein eigenes Gehirn. Die Benchmarks untermauern es. Die Geschwindigkeit untermauert es noch mehr.

Vor zwei Jahren war jedes KI-Coding-Tool ein dünner Wrapper um OpenAIs API. Heute trainiert Windsurf eigene Modelle, Cursor fährt eigene Fine-Tunes, Copilot ist über rohe GPT-Completions hinausgewachsen. Die IDE-Schicht wird zur Modell-Schicht. Wettbewerb ist gut. Der Entwickler gewinnt.

Die Katze beobachtet. 🐈

Windsurf SWE-1.5: Die IDE, die sich ein eigenes Gehirn trainiert hat

Keep reading

GPT-5.2-Codex ist da: OpenAIs schärfste Codierungswaffe bisher

Cursor 3 loest das Enterprise-Sicherheitsproblem. Und baut einen Kaefig, aus dem du nicht rauskommst

Das Dollar-Menü frisst den Stack

Die große Umverteilung