Según la monitorización de 1M AI News, SWE-rebench es una prueba de referencia en tiempo real que extrae mensualmente nuevas tareas de ingeniería de software (issues + PR) de GitHub, y los modelos no pueden optimizarse previamente para los temas. El mantenedor Ibragim publicó la actualización de la lista el 23 de marzo, eliminando las demostraciones de ejemplo y la restricción de 80 pasos, además de agregar tareas de evaluación auxiliar.
Última clasificación de los diez primeros:
- Claude Opus 4.6: 65.3%
- GPT-5.2 medium: 64.4%
- GLM-5: 62.8%
- GPT-5.4 medium: 62.8%
- Gemini 3.1 Pro Preview: 62.3%
- DeepSeek-V3.2: 60.9%
- Claude Sonnet 4.6: 60.7%
- Claude Sonnet 4.5: 60.0%
- Qwen3.5-397B-A17B: 59.9%
- Step-3.5-Flash: 59.6%
El modelo de código abierto de Z.ai, GLM-5 (licencia MIT), ocupa el tercer lugar con un 62.8%, siendo el modelo de código abierto mejor clasificado en la lista. Cuatro modelos chinos están en el top diez: además de GLM-5, también DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B de Alibaba (noveno) y Step-3.5-Flash (décimo). Li Zixuan, responsable global de Z.ai, comentó que en la última actualización de SWE-rebench, todos los modelos chinos quedaron fuera del top diez, siendo criticados por “benchmaxing” (hacer trampa en la puntuación).
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.