Selon la surveillance de 1M AI News, SWE-rebench est un benchmark en temps réel qui extrait chaque mois de nouveaux problèmes (issues + PR) de projets logiciels sur GitHub, et le modèle ne peut pas être optimisé à l’avance pour ces sujets. Le mainteneur Ibragim a publié une mise à jour du classement le 23 mars, supprimant la démonstration d’exemples et la limite de 80 étapes, et ajoutant de nouvelles tâches d’évaluation auxiliaires.
Classement des dix premiers :
- Claude Opus 4.6 : 65,3 %
- GPT-5.2 medium : 64,4 %
- GLM-5 : 62,8 %
- GPT-5.4 medium : 62,8 %
- Gemini 3.1 Pro Preview : 62,3 %
- DeepSeek-V3.2 : 60,9 %
- Claude Sonnet 4.6 : 60,7 %
- Claude Sonnet 4.5 : 60,0 %
- Qwen3.5-397B-A17B : 59,9 %
- Step-3.5-Flash : 59,6 %
Le modèle open source de Zhipu AI, GLM-5 (licence MIT), se classe troisième avec 62,8 %, étant le modèle open source le mieux classé. Quatre modèles chinois figurent dans le top dix, en plus de GLM-5 : DeepSeek-V3.2 (sixième), Qwen3.5-397B-A17B d’Alibaba (neuvième), et Step-3.5-Flash (dixième). Li Zixuan, responsable mondial de Z.ai, a commenté que lors de la dernière mise à jour de SWE-rebench, tous les modèles chinois étaient hors du top dix, ce qui a été critiqué comme du « benchmaxing » (score excessif).
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.