在算法竞赛的世界里,规则明确、限制严格、评测毫不留情。



@SentientAGI 发布的 LiveCodeBench Pro,把这种真实的编程环境完整搬进了模型评测体系,并正式被 @NeurIPSConf 接收。

这套系统重新定义了“模型会写代码”这件事。
评测过程覆盖完整的算法推理路径:阅读题目、设计方案、生成代码、编译执行、通过隐藏测试。
每个环节都在统一的 Docker 环境下运行,时间和内存限制严格遵循原始竞赛标准。

传统评测往往使用宽松的条件和重复的题库,模型分数看似亮眼,却难以复现。
LiveCodeBench Pro 直接从真实竞赛中提取最新题目,锁定当时的限制,添加 Codeforces 风格的 hack 阶段和内部 fuzz 测试。
评测结果经过充分对抗与检验,能够反映模型的真实算法能力与代码执行表现。

整个流程从比赛结束开始:系统自动抓取题面、输入生成器和评测逻辑,然后冻结原始约束条件。
模型需在限定资源内完成完整解题,生成可编译的 C++ 程序,并在统一环境中接受隐藏测试。
每次运行都会输出完整日志、时间消耗、内存占用、编译信息和评测结果,为后续分析提供完整依据。

任务来源覆盖多个权威竞赛平台:

- Codeforces 持续输出多样化的最新题目;
- ICPC 体现团队合作下的快速算法设计与实现;
- IOI 带来面向结构与复杂度控制的奥赛级挑战。

题目难度采用类似 Elo 的动态评级系统:
≤2000 为 Easy,2000–3000 为 Medium,>3000 为 Hard。
难度等级会随着人类与模型的解题记录实时更新,确保评测结果在不同时间点都具备可比性与可信度。

LiveCodeBench Pro 支持本地复现与公开对比。
只需克隆仓库,安装 Python 3.12 与 Docker,并配置模型适配器,即可在本地完整运行评测。
本地结果与公共榜单使用相同的判题环境和数据集,保证分数之间可直接对照。

每次运行都会生成结构化 JSON 文件,记录每道题的判定、运行时间、内存使用与失败标签,便于研究团队深入定位问题来源。
这些数据揭示模型在长程逻辑、搜索策略、复杂度控制或数据结构设计上的具体短板,为改进提供明确方向。

在生成式模型频繁追求高分与提示技巧的阶段,LiveCodeBench Pro 提供了一种干净的参照。
它把算法能力重新拉回真实语境,让模型面对与人类程序员相同的规则和压力。
这是一场关于逻辑与执行的考验,也是一面清晰的镜子,呈现出模型在编程理解上的真实边界。

LiveCodeBench Pro 让代码回到规则的世界,让评测回到可验证的现实。

#KAITO #cookiedotfun #SentientAGI #Sentient
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)