每个主要的AI实验室一直用来宣称编码能力的分数,现在被宣布为毫无意义。OpenAI 本周发布了一篇文章,宣布用于衡量AI编码能力的主要基准测试——SWE-bench Verified,因存在大量缺陷测试和训练数据泄露,已无法提供有用的评估。
这个基准的工作原理是:给AI一个来自流行开源Python项目的真实GitHub问题,让它在不看测试用例的情况下修复漏洞,然后检查其补丁是否能让失败的测试通过且不破坏其他功能。
OpenAI 于2024年8月创建了SWE-bench Verified,作为2023年原始基准的更清洁版本,招募了93名软件工程师筛除不可能完成或设计不良的任务。清理工作取得了不错的效果,每个主要实验室开始引用其得分作为进步的证明。当Anthropic在2025年5月推出Claude Opus 4时,_Decrypt报道_该模型在SWE-bench Verified上的得分为72.5%,超过了GPT-4.1的54.6%和Gemini 2.5 Pro的63.2%。这是衡量编码能力的关键基准。
从那时起,从美国到中国的每个AI实验室都展示了SWE的表现,以争夺最强模型的称号。
图片:Minimax
如今OpenAI表示,这场竞赛部分是海市蜃楼。根据报告,团队审查了138个任务,GPT-5.2在64次独立测试中持续失败,并由六名工程师逐一评审。最终得出结论:其中59.4%的任务存在问题。约35.5%的任务测试设计过于狭窄,要求特定的函数名,而这些函数名在问题描述中从未提及。另有18.8%的测试涉及的问题根本不在原始任务范围内,而是从无关的Pull Request中收集的。
污染问题大致如下:SWE-bench 从开源仓库中抽取题目,这些仓库也是大多数AI公司在构建训练集时爬取的源头。OpenAI 测试了GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview是否在训练中见过基准的解决方案,结果都验证了它们曾经“看到过”。只提供任务ID和简要提示,模型就能凭记忆复现出完全相同的代码修复,包括在问题描述中未提及的变量名和内联注释。在某次测试中,GPT-5.2的推理日志显示它推断出某个参数“是在Django 4.1左右加入的”——这个细节只在Django的发布说明中找到,而在任务描述中没有提及。它回答的问题,实际上已经见过答案。
OpenAI 现建议使用Scale AI推出的更新版基准——SWE-bench Pro,该版本采用更丰富的代码库和授权方式,减少训练数据的泄露。性能的下降令人震惊:在旧的Verified基准上得分超过70%的模型,在SWE-bench Pro的公开任务中仅得约23%,在私有任务中的表现更差。
在当前的公开SWE-bench Verified排行榜上,OpenAI远未登顶。退出一个自己表现不佳的基准,转而支持一个所有人起点都只有23%的基准,巧妙地重置了排行榜,也让竞争者的成绩变得不那么令人印象深刻。
这尤其重要,因为备受期待的DeepSeek新版本传闻能超越甚至接近美国AI模型,特别是在自主代理和编码任务中,且采用免费开源模型。该模型可能在几天内发布,而SWE-bench Verified可能成为衡量其质量的关键指标。
OpenAI表示,正在构建私有评估体系,测试结果不会提前公布,指向其GDPVal项目——由领域专家撰写原创任务,由训练有素的人类评审评分。这个基准问题并不新颖,也不限于编码领域。AI实验室曾多次轮换评估体系,每次都在模型训练或任务过于狭窄时被淘汰。
但值得注意的是,OpenAI曾大力宣传SWE-bench Verified,在模型发布中推广,现公开披露其彻底失败的程度——甚至展示了自己模型在测试中作弊的证据。