#swe-bench

2 articles · EN

SWE-bench ist tot. Worauf dein AI-Coding-Tool wirklich konkurriert.

10.000 Entwickler bestaetigen: Benchmark-Scores sagen Zufriedenheit nicht voraus. Der echte Unterschied hat kein Leaderboard.

In sieben Wochen hat OpenAI den gesamten KI-Evaluierungs-Stack vertikal integriert. Drei vertretbare Schritte, ein Muster.