親愛的廣場用戶們,廣場使用界面全新升級啦!新版本界面更清新簡潔、操作更流暢絲滑,還有多項貼心新功能上線,快來更新體驗吧!你對新版界面有什麼感受?你最喜歡的新功能是哪一個?你發現了哪些驚喜或變化呢?發帖分享新版廣場使用體驗,瓜分 $10 分享獎勵!
🎁 我們將精選 10 位幸運用戶,每人獎勵 $10 合約體驗券!
參與方式:
1⃣️ 關注 Gate廣場_Official;
2⃣️ 帶上 #我的广场升级体验 標籤發帖,分享你的使用感受,比如界面風格體驗、細節功能變化、你最喜歡的新功能,或優化建議等;
3⃣️ 帖子內容需至少 30 字,並且只帶本活動標籤;
廣場界面煥新介紹文章:https://gate.com/post?post_id=14774358&tim=ARAbClhcBQNwWRIVGAoGBB5QX1sO0O0O&ref=BFlBUFwL&ref_type=105
活動截止時間:2025/10/26 18:00(UTC+8)
你的體驗是我們持續優化的動力!趕快參與和大家分享吧!
在算法競賽的世界裏,規則明確、限制嚴格、評測毫不留情。
@SentientAGI 發布的 LiveCodeBench Pro,把這種真實的編程環境完整搬進了模型評測體系,並正式被 @NeurIPSConf 接收。
這套系統重新定義了“模型會寫代碼”這件事。
評測過程覆蓋完整的算法推理路徑:閱讀題目、設計方案、生成代碼、編譯執行、通過隱藏測試。
每個環節都在統一的 Docker 環境下運行,時間和內存限制嚴格遵循原始競賽標準。
傳統評測往往使用寬松的條件和重復的題庫,模型分數看似亮眼,卻難以復現。
LiveCodeBench Pro 直接從真實競賽中提取最新題目,鎖定當時的限制,添加 Codeforces 風格的 hack 階段和內部 fuzz 測試。
評測結果經過充分對抗與檢驗,能夠反映模型的真實算法能力與代碼執行表現。
整個流程從比賽結束開始:系統自動抓取題面、輸入生成器和評測邏輯,然後凍結原始約束條件。
模型需在限定資源內完成完整解題,生成可編譯的 C++ 程序,並在統一環境中接受隱藏測試。
每次運行都會輸出完整日志、時間消耗、內存佔用、編譯信息和評測結果,爲後續分析提供完整依據。
任務來源覆蓋多個權威競賽平台:
- Codeforces 持續輸出多樣化的最新題目;
- ICPC 體現團隊合作下的快速算法設計與實現;
- IOI 帶來面向結構與復雜度控制的奧賽級挑戰。
題目難度採用類似 Elo 的動態評級系統:
≤2000 爲 Easy,2000–3000 爲 Medium,>3000 爲 Hard。
難度等級會隨着人類與模型的解題記錄實時更新,確保評測結果在不同時間點都具備可比性與可信度。
LiveCodeBench Pro 支持本地復現與公開對比。
只需複製倉庫,安裝 Python 3.12 與 Docker,並配置模型適配器,即可在本地完整運行評測。
本地結果與公共榜單使用相同的判題環境和數據集,保證分數之間可直接對照。
每次運行都會生成結構化 JSON 文件,記錄每道題的判定、運行時間、內存使用與失敗標籤,便於研究團隊深入定位問題來源。
這些數據揭示模型在長程邏輯、搜索策略、復雜度控制或數據結構設計上的具體短板,爲改進提供明確方向。
在生成式模型頻繁追求高分與提示技巧的階段,LiveCodeBench Pro 提供了一種幹淨的參照。
它把算法能力重新拉回真實語境,讓模型面對與人類程序員相同的規則和壓力。
這是一場關於邏輯與執行的考驗,也是一面清晰的鏡子,呈現出模型在編程理解上的真實邊界。
LiveCodeBench Pro 讓代碼回到規則的世界,讓評測回到可驗證的現實。
#KAITO #cookiedotfun #SentientAGI #Sentient