2026-04-10 01:21:31

🔥研究員：主流AI基準測試存在系統性漏洞，排行榜數據或嚴重失真

4月10日，AI研究員Hao Wang發布研究披露，包括SWE-bench Verified和Terminal-Bench在內的多個業內權威AI基準測試，均存在可被系統性利用的漏洞——其團隊構建的Agent在未解決任何實際任務的情況下，在兩項基準上均取得了滿分100%。
典型案例如下：SWE-bench Verified中，在代碼倉庫植入10行的pytest hook，測試運行前自動將所有結果篡改為“通過”，評分系統對此毫無察覺，500道題全部滿分；Terminal-Bench雖對測試…

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人按讚了這條動態

打賞
1
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate上線Pre-IPOs
95.33萬熱度
#
Gate現貨衍生品雙雙衝進全球前三
963.95萬熱度
#
原油小幅上漲
121.97萬熱度
#
加密市場回升
6.23萬熱度
#
Gate廣場四月發帖挑戰
142.57萬熱度

熱門 Gate Fun
查看更多

1
ZF
ZeroFox
市值:$2419.8持有人數:2
1.60%
2
WLGD
我嘞个豆
市值:$2324.13持有人數:1
0.00%
3
PL
启明
市值:$2362.06持有人數:1
0.00%
4
🎲
Dice
市值:$2365.51持有人數:0
0.00%
5
cuki
cukimai
市值:$0.1持有人數:0
0.00%

🔥研究員：主流AI基準測試存在系統性漏洞，排行榜數據或嚴重失真

熱門話題

Gate上線Pre-IPOs

Gate現貨衍生品雙雙衝進全球前三

原油小幅上漲

加密市場回升

Gate廣場四月發帖挑戰

熱門 Gate Fun

ZF

ZeroFox

WLGD

我嘞个豆

PL

启明

🎲

Dice

cuki

cukimai

置頂