SWE-rebench последний рейтинг: китайские модели ИИ занимают четырнадцать первых мест, GLM-5 занимает третье место

Новости Gate News, 25 марта. Обновление рейтинга SWE-rebench было опубликовано 23 марта его создателем Ибрагимом. SWE-rebench — это ежемесячный реальный бенчмарк, который извлекает новые задачи из GitHub, и модели не могут заранее оптимизировать ответы под конкретные задания. В этом обновлении отменены предыдущие демонстрационные примеры и ограничение в 80 шагов, добавлены вспомогательные оценочные задачи.

Последняя топ-10 рейтинга: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).

Открытая модель GLM-5 от Zhipu AI (лицензия MIT) занимает третье место с результатом 62,8%, являясь самой высокой среди открытых моделей. В топ-10 вошли четыре модели из Китая: кроме GLM-5, также DeepSeek-V3.2 (шестое место), Qwen3.5-397B-A17B от Alibaba (девятое) и Step-3.5-Flash (десятое). Руководитель глобального направления Z.ai Ли Цзсянсюань отметил, что при предыдущем обновлении SWE-rebench все китайские модели оказались за пределами топ-10.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев