2025-10-18 09:04:11

В мире алгоритмических соревнований правила четкие, ограничения строгие, а оценка беспощадна.

@SentientAGI выпустил LiveCodeBench Pro, который полностью перенес эту реальную среду программирования в систему оценки моделей и официально был принят @NeurIPSConf.

Эта система переопределяет то, что «модель может писать код».
Процесс тестирования охватывает полный путь алгоритмического вывода: чтение задания, проектирование решения, генерация кода, компиляция и выполнение, прохождение скрытого теста.
Каждый этап проходит в единой среде Docker, время и ограничения по памяти строго соответствуют оригинальным стандартам соревнований.

Традиционные тестирования часто используют мягкие условия и повторяющиеся вопросы, поэтому оценки модели выглядят впечатляюще, но их трудно воспроизвести.
LiveCodeBench Pro извлекает последние задачи непосредственно из реальных соревнований, фиксируя ограничения на тот момент, добавляя этап хаков в стиле Codeforces и внутреннее тестирование с использованием фуззинга.
Результаты тестирования были тщательно протестированы и проверены, что позволяет отразить истинные алгоритмические способности модели и выполнение кода.

Весь процесс начинается после окончания соревнования: система автоматически захватывает условия задачи, генератор ввода и логику оценки, а затем замораживает исходные ограничения.
Модель должна завершить полное решение задачи в рамках ограниченных ресурсов, сгенерировав компилируемую программу на C++, и пройти скрытое тестирование в единой среде.
Каждый раз при выполнении генерируется полный журнал, время затрачивается, занимаемая память, информация о компиляции и результаты оценки, что предоставляет полное основание для последующего анализа.

Источник задач охватывает несколько авторитетных конкурсных платформ:

- Codeforces продолжает выпускать разнообразные новые задачи;
- ICPC отражает быстрое проектирование и реализацию алгоритмов в условиях командной работы;
- IOI приносит олимпийские задачи, направленные на управление структурой и сложностью.

Уровень сложности заданий использует динамическую рейтинговую систему, аналогичную Elo:
≤2000 это Easy, 2000–3000 это Medium, >3000 это Hard.
Уровень сложности будет обновляться в реальном времени в зависимости от записей о решении задач людьми и моделями, что гарантирует сопоставимость и надежность результатов оценивания в разные моменты времени.

LiveCodeBench Pro поддерживает локальное воспроизведение и открытое сравнение.
Просто клонируйте репозиторий, установите Python 3.12 и Docker, а также настройте адаптер модели, чтобы полностью запустить оценку локально.
Локальные результаты и общие рейтинги используют одинаковую среду оценки и набор данных, что гарантирует прямое соответствие между баллами.

Каждый запуск генерирует структурированный JSON файл, в котором фиксируются решения каждой задачи, время выполнения, использование памяти и метки ошибок, что позволяет исследовательской команде более глубоко локализовать источники проблем.
Эти данные выявляют конкретные слабые места модели в области долгосрочной логики, стратегий поиска, контроля сложности или проектирования структур данных, предоставляя четкое направление для улучшения.

На этапе, когда генеративные модели часто стремятся к высоким баллам и техникам подсказок, LiveCodeBench Pro предлагает чистую ссылку.
Он возвращает алгоритмические способности в реальный контекст, позволяя модели сталкиваться с теми же правилами и давлением, что и у человеческих программистов.
Это испытание логики и исполнения, а также ясное зеркало, показывающее истинные границы модели в понимании программирования.

LiveCodeBench Pro возвращает код в мир правил, а оценку — в проверяемую реальность.

#KAITO #cookiedotfun #SentientAGI #Sentient

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

0/400

Нет комментариев

Популярные темыПодробнее
#GateSeptemberTransparencyReportComing
16K Популярность
#CryptoMarketPullback
128.6K Популярность
#OctoberRateCutForecast
13.2K Популярность
#RipplePlans$1BXRPReserve
3.7K Популярность
#ShowMyAlphaPoints
198.5K Популярность

Горячее на Gate FunПодробнее
1GDOGGdog
РК:$1.2MДержатели:2840
2GCATGCAT
РК:$1.1MДержатели:5143
3GatsbyGatsby
РК:$176.7KДержатели:175
4MIMAMiMa
РК:$109.7KДержатели:377
5GMGMEME
РК:$96.6KДержатели:1378

Закрепить

Карта сайта