Gate News, le 25 mars, le mainteneur du benchmark SWE-rebench, Ibragim, a publié la mise à jour du classement le 23 mars. SWE-rebench est un benchmark en temps réel qui extrait chaque mois de nouvelles tâches d’ingénierie logicielle depuis GitHub, et le modèle ne peut pas être optimisé à l’avance pour ces tâches. Cette mise à jour a supprimé les démonstrations d’exemples précédentes ainsi que la limite de 80 étapes d’opération, et a ajouté de nouvelles tâches d’évaluation assistée.
Le top dix actuel : 1. Claude Opus 4.6 (65,3 %) ; 2. GPT-5.2 medium (64,4 %) ; 3. GLM-5 (62,8 %) ; 4. GPT-5.4 medium (62,8 %) ; 5. Gemini 3.1 Pro Preview (62,3 %) ; 6. DeepSeek-V3.2 (60,9 %) ; 7. Claude Sonnet 4.6 (60,7 %) ; 8. Claude Sonnet 4.5 (60,0 %) ; 9. Qwen3.5-397B-A17B (59,9 %) ; 10. Step-3.5-Flash (59,6 %).
Parmi les modèles open source de Zhipu AI, le modèle GLM-5 (licence MIT) se classe troisième avec 62,8 %, ce qui en fait le modèle open source le mieux classé. Quatre modèles chinois figurent dans le top dix, en plus de GLM-5 : DeepSeek-V3.2 (sixième), Qwen3.5-397B-A17B (neuvième), et Step-3.5-Flash (dixième). Li Zixuan, responsable mondial de Z.ai, a déclaré qu’à la dernière mise à jour de SWE-rebench, tous les modèles chinois étaient hors du top dix.