亲爱的广场用户们,广场使用界面全新升级啦!新版本界面更清新简洁、操作更流畅丝滑,还有多项贴心新功能上线,快来更新体验吧!你对新版界面有什么感受?你最喜欢的新功能是哪一个?你发现了哪些惊喜或变化呢?发帖分享新版广场使用体验,瓜分 $10 分享奖励!
🎁 我们将精选 10 位幸运用户,每人奖励 $10 合约体验券!
参与方式:
1⃣️ 关注 Gate广场_Official;
2⃣️ 带上 #我的广场升级体验 标签发帖,分享你的使用感受,比如界面风格体验、细节功能变化、你最喜欢的新功能,或优化建议等;
3⃣️ 帖子内容需至少 30 字,并且只带本活动标签;
广场界面焕新介绍文章:https://gate.com/post?post_id=14774358&tim=ARAbClhcBQNwWRIVGAoGBB5QX1sO0O0O&ref=BFlBUFwL&ref_type=105
活动截止时间:2025/10/26 18:00(UTC+8)
你的体验是我们持续优化的动力!赶快参与和大家分享吧!
在算法竞赛的世界里,规则明确、限制严格、评测毫不留情。
@SentientAGI 发布的 LiveCodeBench Pro,把这种真实的编程环境完整搬进了模型评测体系,并正式被 @NeurIPSConf 接收。
这套系统重新定义了“模型会写代码”这件事。
评测过程覆盖完整的算法推理路径:阅读题目、设计方案、生成代码、编译执行、通过隐藏测试。
每个环节都在统一的 Docker 环境下运行,时间和内存限制严格遵循原始竞赛标准。
传统评测往往使用宽松的条件和重复的题库,模型分数看似亮眼,却难以复现。
LiveCodeBench Pro 直接从真实竞赛中提取最新题目,锁定当时的限制,添加 Codeforces 风格的 hack 阶段和内部 fuzz 测试。
评测结果经过充分对抗与检验,能够反映模型的真实算法能力与代码执行表现。
整个流程从比赛结束开始:系统自动抓取题面、输入生成器和评测逻辑,然后冻结原始约束条件。
模型需在限定资源内完成完整解题,生成可编译的 C++ 程序,并在统一环境中接受隐藏测试。
每次运行都会输出完整日志、时间消耗、内存占用、编译信息和评测结果,为后续分析提供完整依据。
任务来源覆盖多个权威竞赛平台:
- Codeforces 持续输出多样化的最新题目;
- ICPC 体现团队合作下的快速算法设计与实现;
- IOI 带来面向结构与复杂度控制的奥赛级挑战。
题目难度采用类似 Elo 的动态评级系统:
≤2000 为 Easy,2000–3000 为 Medium,>3000 为 Hard。
难度等级会随着人类与模型的解题记录实时更新,确保评测结果在不同时间点都具备可比性与可信度。
LiveCodeBench Pro 支持本地复现与公开对比。
只需克隆仓库,安装 Python 3.12 与 Docker,并配置模型适配器,即可在本地完整运行评测。
本地结果与公共榜单使用相同的判题环境和数据集,保证分数之间可直接对照。
每次运行都会生成结构化 JSON 文件,记录每道题的判定、运行时间、内存使用与失败标签,便于研究团队深入定位问题来源。
这些数据揭示模型在长程逻辑、搜索策略、复杂度控制或数据结构设计上的具体短板,为改进提供明确方向。
在生成式模型频繁追求高分与提示技巧的阶段,LiveCodeBench Pro 提供了一种干净的参照。
它把算法能力重新拉回真实语境,让模型面对与人类程序员相同的规则和压力。
这是一场关于逻辑与执行的考验,也是一面清晰的镜子,呈现出模型在编程理解上的真实边界。
LiveCodeBench Pro 让代码回到规则的世界,让评测回到可验证的现实。
#KAITO #cookiedotfun #SentientAGI #Sentient