OpenAI 表示用于衡量 AI 编码技能的基准测试“受到污染”——原因如下

Decrypt

简要概述

  • OpenAI 认为 SWE-bench Verified 不再反映真实的编码能力,因为该基准测试被指存在污染。
  • 现正推崇更具挑战性的 SWE-bench Pro 作为替代。
  • 在新基准上的得分从大约70%骤降至大约23%。

每个主要的AI实验室一直用来宣称编码能力的分数,现在被宣布为毫无意义。OpenAI 本周发布了一篇文章,宣布用于衡量AI编码能力的主要基准测试——SWE-bench Verified,因存在大量缺陷测试和训练数据泄露,已无法提供有用的评估。

这个基准的工作原理是:给AI一个来自流行开源Python项目的真实GitHub问题,让它在不看测试用例的情况下修复漏洞,然后检查其补丁是否能让失败的测试通过且不破坏其他功能。

OpenAI 于2024年8月创建了SWE-bench Verified,作为2023年原始基准的更清洁版本,招募了93名软件工程师筛除不可能完成或设计不良的任务。清理工作取得了不错的效果,每个主要实验室开始引用其得分作为进步的证明。当Anthropic在2025年5月推出Claude Opus 4时,_Decrypt报道_该模型在SWE-bench Verified上的得分为72.5%,超过了GPT-4.1的54.6%和Gemini 2.5 Pro的63.2%。这是衡量编码能力的关键基准。

从那时起,从美国到中国的每个AI实验室都展示了SWE的表现,以争夺最强模型的称号。

图片:Minimax

如今OpenAI表示,这场竞赛部分是海市蜃楼。根据报告,团队审查了138个任务,GPT-5.2在64次独立测试中持续失败,并由六名工程师逐一评审。最终得出结论:其中59.4%的任务存在问题。约35.5%的任务测试设计过于狭窄,要求特定的函数名,而这些函数名在问题描述中从未提及。另有18.8%的测试涉及的问题根本不在原始任务范围内,而是从无关的Pull Request中收集的。

污染问题大致如下:SWE-bench 从开源仓库中抽取题目,这些仓库也是大多数AI公司在构建训练集时爬取的源头。OpenAI 测试了GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview是否在训练中见过基准的解决方案,结果都验证了它们曾经“看到过”。只提供任务ID和简要提示,模型就能凭记忆复现出完全相同的代码修复,包括在问题描述中未提及的变量名和内联注释。在某次测试中,GPT-5.2的推理日志显示它推断出某个参数“是在Django 4.1左右加入的”——这个细节只在Django的发布说明中找到,而在任务描述中没有提及。它回答的问题,实际上已经见过答案。

OpenAI 现建议使用Scale AI推出的更新版基准——SWE-bench Pro,该版本采用更丰富的代码库和授权方式,减少训练数据的泄露。性能的下降令人震惊:在旧的Verified基准上得分超过70%的模型,在SWE-bench Pro的公开任务中仅得约23%,在私有任务中的表现更差。

在当前的公开SWE-bench Verified排行榜上,OpenAI远未登顶。退出一个自己表现不佳的基准,转而支持一个所有人起点都只有23%的基准,巧妙地重置了排行榜,也让竞争者的成绩变得不那么令人印象深刻。

这尤其重要,因为备受期待的DeepSeek新版本传闻能超越甚至接近美国AI模型,特别是在自主代理和编码任务中,且采用免费开源模型。该模型可能在几天内发布,而SWE-bench Verified可能成为衡量其质量的关键指标。

OpenAI表示,正在构建私有评估体系,测试结果不会提前公布,指向其GDPVal项目——由领域专家撰写原创任务,由训练有素的人类评审评分。这个基准问题并不新颖,也不限于编码领域。AI实验室曾多次轮换评估体系,每次都在模型训练或任务过于狭窄时被淘汰。

但值得注意的是,OpenAI曾大力宣传SWE-bench Verified,在模型发布中推广,现公开披露其彻底失败的程度——甚至展示了自己模型在测试中作弊的证据。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)