OpenAI 表示用于衡量 AI 编码技能的基准测试“受到污染”——原因如下

Decrypt

2026-02-24 21:35:30

简要概述

OpenAI 认为 SWE-bench Verified 不再反映真实的编码能力，因为该基准测试被指存在污染。
现正推崇更具挑战性的 SWE-bench Pro 作为替代。
在新基准上的得分从大约70%骤降至大约23%。

每个主要的AI实验室一直用来宣称编码能力的分数，现在被宣布为毫无意义。OpenAI 本周发布了一篇文章，宣布用于衡量AI编码能力的主要基准测试——SWE-bench Verified，因存在大量缺陷测试和训练数据泄露，已无法提供有用的评估。

这个基准的工作原理是：给AI一个来自流行开源Python项目的真实GitHub问题，让它在不看测试用例的情况下修复漏洞，然后检查其补丁是否能让失败的测试通过且不破坏其他功能。

OpenAI 于2024年8月创建了SWE-bench Verified，作为2023年原始基准的更清洁版本，招募了93名软件工程师筛除不可能完成或设计不良的任务。清理工作取得了不错的效果，每个主要实验室开始引用其得分作为进步的证明。当Anthropic在2025年5月推出Claude Opus 4时，_Decrypt报道_该模型在SWE-bench Verified上的得分为72.5%，超过了GPT-4.1的54.6%和Gemini 2.5 Pro的63.2%。这是衡量编码能力的关键基准。

从那时起，从美国到中国的每个AI实验室都展示了SWE的表现，以争夺最强模型的称号。

图片：Minimax

如今OpenAI表示，这场竞赛部分是海市蜃楼。根据报告，团队审查了138个任务，GPT-5.2在64次独立测试中持续失败，并由六名工程师逐一评审。最终得出结论：其中59.4%的任务存在问题。约35.5%的任务测试设计过于狭窄，要求特定的函数名，而这些函数名在问题描述中从未提及。另有18.8%的测试涉及的问题根本不在原始任务范围内，而是从无关的Pull Request中收集的。

污染问题大致如下：SWE-bench 从开源仓库中抽取题目，这些仓库也是大多数AI公司在构建训练集时爬取的源头。OpenAI 测试了GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview是否在训练中见过基准的解决方案，结果都验证了它们曾经“看到过”。只提供任务ID和简要提示，模型就能凭记忆复现出完全相同的代码修复，包括在问题描述中未提及的变量名和内联注释。在某次测试中，GPT-5.2的推理日志显示它推断出某个参数“是在Django 4.1左右加入的”——这个细节只在Django的发布说明中找到，而在任务描述中没有提及。它回答的问题，实际上已经见过答案。

OpenAI 现建议使用Scale AI推出的更新版基准——SWE-bench Pro，该版本采用更丰富的代码库和授权方式，减少训练数据的泄露。性能的下降令人震惊：在旧的Verified基准上得分超过70%的模型，在SWE-bench Pro的公开任务中仅得约23%，在私有任务中的表现更差。

在当前的公开SWE-bench Verified排行榜上，OpenAI远未登顶。退出一个自己表现不佳的基准，转而支持一个所有人起点都只有23%的基准，巧妙地重置了排行榜，也让竞争者的成绩变得不那么令人印象深刻。

这尤其重要，因为备受期待的DeepSeek新版本传闻能超越甚至接近美国AI模型，特别是在自主代理和编码任务中，且采用免费开源模型。该模型可能在几天内发布，而SWE-bench Verified可能成为衡量其质量的关键指标。

OpenAI表示，正在构建私有评估体系，测试结果不会提前公布，指向其GDPVal项目——由领域专家撰写原创任务，由训练有素的人类评审评分。这个基准问题并不新颖，也不限于编码领域。AI实验室曾多次轮换评估体系，每次都在模型训练或任务过于狭窄时被淘汰。

但值得注意的是，OpenAI曾大力宣传SWE-bench Verified，在模型发布中推广，现公开披露其彻底失败的程度——甚至展示了自己模型在测试中作弊的证据。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论