Згідно з моніторингом 1M AI News, SWE-rebench — це щомісячний реальний бенчмарк, який витягує нові завдання з GitHub (issue + PR). Модель не може попередньо оптимізуватися під завдання. Відповідальний Ібрагім опублікував оновлення рейтингу 23 березня, скасувавши попередні демонстраційні приклади та обмеження у 80 кроків, додавши допоміжні оцінювальні завдання.
Останні топ-10 рейтингів:
- Claude Opus 4.6: 65.3%
- GPT-5.2 medium: 64.4%
- GLM-5: 62.8%
- GPT-5.4 medium: 62.8%
- Gemini 3.1 Pro Preview: 62.3%
- DeepSeek-V3.2: 60.9%
- Claude Sonnet 4.6: 60.7%
- Claude Sonnet 4.5: 60.0%
- Qwen3.5-397B-A17B: 59.9%
- Step-3.5-Flash: 59.6%
Відкритий модельний проект GLM-5 (ліцензія MIT) від Z.ai посідає третє місце з показником 62.8%, що є найвищим серед відкритих моделей у рейтингу. Чотири китайські моделі входять до топ-10: окрім GLM-5, це DeepSeek-V3.2 (шосте місце), Qwen3.5-397B-A17B (дев’яте) та Step-3.5-Flash (десяте). Керівник глобального напрямку Z.ai Лі Цзюсянь прокоментував, що під час останнього оновлення SWE-rebench всі китайські моделі опинилися поза топ-10, і їх звинуватили у «benchmaxing» (збільшенні балів).
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.