🔥研究員:主流AI基準測試存在系統性漏洞,排行榜數據或嚴重失真


4月10日,AI研究員Hao Wang發布研究披露,包括SWE-bench Verified和Terminal-Bench在內的多個業內權威AI基準測試,均存在可被系統性利用的漏洞——其團隊構建的Agent在未解決任何實際任務的情況下,在兩項基準上均取得了滿分100%。
典型案例如下:SWE-bench Verified中,在代碼倉庫植入10行的pytest hook,測試運行前自動將所有結果篡改為“通過”,評分系統對此毫無察覺,500道題全部滿分;Terminal-Bench雖對測試…
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言