-
OpenAI 与 Paradigm 基于120个真实审计漏洞构建了 EVMbench。
-
基准测试在沙箱 EVM 环境中以检测、修补和利用模式评估 AI。
-
GPT-5.3-Codex 在利用模式下得分为72.2%,优于早期的 GPT-5 结果。
OpenAI 与 Paradigm 合作,推出了一项新的基准测试,用于评估 AI 在以太坊智能合约安全方面的表现。此次发布于本周宣布,推出了 EVMbench,旨在衡量 AI 代理检测、修补和利用合约缺陷的能力。该项目应对日益增长的风险,因为智能合约在 EVM 网络中保护着超过1000亿美元的加密资产。
基准测试源自真实审计失败案例
据 OpenAI 介绍,EVMbench 来源于40份专业智能合约审计中发现的120个高严重性漏洞。值得注意的是,许多这些问题源自公开审计竞赛,包括 Code4rena。该基准测试专注于真实漏洞,而非合成示例。
此外,OpenAI 表示,数据集还包括与 Tempo 链安全工作相关的场景。Tempo 作为一个专注于支付的 Layer-1 网络,旨在实现稳定币转账。因此,这些案例引入了支付逻辑风险到基准环境中。
为了支持真实测试,工程师在有可用的情况下重复利用了漏洞证明脚本。然而,当文档不完整时,他们手动构建了缺失的组件。OpenAI 表示,确保了漏洞的可利用性,同时保证修补方案可以正确编译。
三种测试模式考验 AI 代理
EVMbench 在检测、修补和利用模式下评估代理。在检测模式中,代理扫描仓库,根据确认的漏洞召回率获得分数。在修补模式中,代理必须修复缺陷,同时保持原始合约行为。
利用模式则模拟在沙箱区块链中进行的全资金转移攻击。OpenAI 表示,评分员通过交易重放和链上状态检查确认结果。为了确保一致性,团队构建了一个基于 Rust 的确定性部署工具。
利用测试在本地 Anvil 环境中运行,而非在真实网络上。OpenAI 提到,所有漏洞均为历史公开披露的漏洞。此外,该工具限制了不安全的 RPC 调用,以减少误用。
结果与团队扩展
在公布的结果中,GPT-5.3-Codex 在利用模式下得分为72.2%。相比之下,早前推出的 GPT-5 仅为31.9%,尽管其发布时间早了数月。然而,OpenAI 表示检测和修补的覆盖范围仍不完整。
除了 EVMbench,OpenAI 还确认了一位关键新员工。OpenClaw 创始人 Peter Steinberger 加入公司,负责代理开发。Sam Altman 在 X 上确认了此消息,指出 Steinberger 将领导下一代个人代理项目。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
ETH 15分钟下跌0.62%:衍生品杠杆高企与持仓集中引爆短线调整
2026-04-01 12:45 至 2026-04-01 13:00(UTC)期间,ETH现货报价在2127.4至2146.81 USDT区间内快速下跌,15分钟收益率为-0.62%,振幅达0.91%。该时间窗口内市场关注度上升,波动显著加剧,反映短线交易压力瞬时释放。
本次异动的主要驱动力是衍生品市场杠杆水平持续攀升,未平仓合约(OI)突破304.51亿美元,高杠杆环境中持仓高度集中,使市
GateNews26 分钟前
以太坊 L1 核心开发者薪资比市场低 50%,Protocol Guild 呼吁项目方捐赠 1% 代币
在EthCC大会上,Protocol Guild贡献者cheeky-gorilla指出以太坊L1核心开发者薪资低于市场,且高性能项目通过高薪挖角,这可能导致关键路线图停摆。为保护以太坊生态,呼吁项目方以"1% Pledge"回馈Protocol Guild,强调维护L1开发的必要性。
GateNews1小时前
以太坊基金会研究员提出验证者收入再分配方案,支持公共物品与安全资金可持续发展
以太坊基金会研究员Devansh Mehta在EthCC大会提出验证者收入再分配方案(VRR),允许验证者自主重定向部分质押收益至指定智能合约,如公共融资平台或审计机构。这一方案旨在赋能验证者参与生态治理与安全建设,同时减少对中心化捐赠的依赖。
GateNews1小时前
“5 大量子攻击路径”曝光!Google 示警:以太坊上 1,000 亿美元资产受威胁
谷歌量子AI团队的报告指出,以太坊面临五大量子计算机攻击风险,可能影响超过1000亿美元资产。其中包括暴露的巨鲸钱包、脆弱的管理员密钥和质押系统等。尽管研究已启动防御措施,许多智能合约仍存在未来的风险。
区块客1小时前
某鲸鱼再度从某 CEX 买入 21,000 枚 ETH,价值约 4,474 万美元
Gate News 消息,4 月 1 日,据链上数据分析平台 Onchain Lens 监测,某鲸鱼地址再次从某 CEX 买入 21,000 枚 ETH,价值约 4,474 万美元。至此,该地址 ETH 持仓总量增至 25,000 枚,当前市值约 5,328 万美元。
GateNews2小时前