Китайские модели в прошлый раз заняли менее десяти позиций в SWE-rebench и были высмеяны за «накрутку баллов», на этот раз они заняли четыре места.

BlockBeatNews

Согласно мониторингу 1M AI News, SWE-rebench — это реальный бенчмарк, который ежемесячно извлекает новые задачи по программной инженерии (issues + PR) с GitHub и тестирует модели в режиме реального времени, при этом модели не могут заранее оптимизировать ответы под конкретные задачи. 23 марта Ибрагим опубликовал обновление рейтинга, отменив ранее демонстрационные примеры и ограничение в 80 шагов, а также добавил вспомогательные оценочные задания.

Последний топ-10 рейтинга:

  1. Claude Opus 4.6: 65,3%
  2. GPT-5.2 medium: 64,4%
  3. GLM-5: 62,8%
  4. GPT-5.4 medium: 62,8%
  5. Gemini 3.1 Pro Preview: 62,3%
  6. DeepSeek-V3.2: 60,9%
  7. Claude Sonnet 4.6: 60,7%
  8. Claude Sonnet 4.5: 60,0%
  9. Qwen3.5-397B-A17B: 59,9%
  10. Step-3.5-Flash: 59,6%

Открытая модель Ипсур AI GLM-5 (под лицензией MIT) с результатом 62,8% занимает третье место и является самой высокой среди открытых моделей в списке. В топ-10 представлены четыре китайские модели: кроме GLM-5, это DeepSeek-V3.2 (шестое место), Qwen3.5-397B-A17B от Alibaba (девятое) и Step-3.5-Flash (десятое). Руководитель глобального направления Z.ai Ицзюсянь Ли отметил, что при последнем обновлении SWE-rebench все китайские модели оказались за пределами топ-10, что вызвало критику за «benchmaxing» (засчетное увеличение баллов).

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев