✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
🔥研究員:主流AI基準測試存在系統性漏洞,排行榜數據或嚴重失真
4月10日,AI研究員Hao Wang發布研究披露,包括SWE-bench Verified和Terminal-Bench在內的多個業內權威AI基準測試,均存在可被系統性利用的漏洞——其團隊構建的Agent在未解決任何實際任務的情況下,在兩項基準上均取得了滿分100%。
典型案例如下:SWE-bench Verified中,在代碼倉庫植入10行的pytest hook,測試運行前自動將所有結果篡改為“通過”,評分系統對此毫無察覺,500道題全部滿分;Terminal-Bench雖對測試…