У світі алгоритмічних змагань правила чіткі, обмеження суворі, а оцінка безжальна.
@SentientAGI випустив LiveCodeBench Pro, що повністю переніс таке справжнє середовище програмування в систему оцінки моделей і був офіційно прийнятий @NeurIPSConf.
Ця система переосмислює те, що "моделі можуть писати код". Оцінка процесу охоплює повний шлях алгоритмічного мислення: читання завдання, розробка плану, генерація коду, компіляція та виконання, проходження прихованих тестів. Кожен етап виконується в єдиному середовищі Docker, час і обмеження пам'яті строго дотримуються оригінальних стандартів змагань.
Традиційне оцінювання часто використовує м'які умови та повторювані питання, через що оцінки моделей здаються вражаючими, але їх важко відтворити. LiveCodeBench Pro безпосередньо витягує останні завдання з реальних змагань, фіксуючи тодішні обмеження, додаючи етапи хакінгу в стилі Codeforces та внутрішнє тестування на основі замаскованих даних. Результати тестування пройшли достатню опозицію та перевірку, що дозволяє відобразити реальні алгоритмічні можливості моделі та виконання коду.
Весь процес починається з закінчення змагання: система автоматично захоплює умову задачі, генератор введення та логіку оцінки, а потім заморожує первісні обмеження. Модель повинна завершити повне вирішення задачі в обмежених ресурсах, згенерувати компільовану програму на C++ та приймати приховане тестування в єдиному середовищі. Кожен запуск виводитиме повний журнал, витрати часу, використання пам'яті, інформацію про компіляцію та результати оцінювання, щоб забезпечити повну основу для подальшого аналізу.
Джерела завдань охоплюють кілька авторитетних конкурсних платформ:
- Codeforces постійно пропонує різноманітні нові завдання; - ICPC відображає швидкий алгоритм проектування та реалізації в умовах командної роботи; - IOI приносить олімпійські виклики, спрямовані на контроль структур і складності.
Рівень складності завдання використовує динамічну рейтингову систему, подібну до Elo: ≤2000 для Easy, 2000–3000 для Medium, >3000 для Hard. Рівень складності буде оновлюватися в реальному часі відповідно до рекордів вирішення задач людьми та моделями, забезпечуючи порівнянність і надійність оцінок у різні моменти часу.
LiveCodeBench Pro підтримує локальне відтворення та публічне порівняння. Просто скопіюйте репозиторій, встановіть Python 3.12 та Docker, а також налаштуйте адаптер моделі, і ви зможете повністю запустити оцінювання локально. Локальні результати використовують таке ж середовище та набір даних для оцінювання, як і публічні рейтинги, що гарантує пряме порівняння між балами.
Кожен запуск генерує структурований JSON файл, який фіксує оцінювання кожного завдання, час виконання, використання пам'яті та мітки збою, що полегшує дослідницькій команді глибше визначити джерело проблем. Ці дані виявляють конкретні слабкі місця моделі в довгостроковій логіці, стратегіях пошуку, контролі складності або проєктуванні структур даних, надаючи чіткий напрямок для покращення.
У етапі, коли генеративні моделі часто прагнуть до високих балів та технік підказок, LiveCodeBench Pro пропонує чистий еталон. Воно повертає алгоритмічні можливості назад до реального контексту, ставлячи модель перед тими ж правилами та тиском, що й людські програмісти. Це випробування логіки та виконання, а також ясне дзеркало, яке відображає справжні межі моделі у розумінні програмування.
LiveCodeBench Pro повертає код у світ правил, а оцінювання – у перевірену реальність.
#KAITO #cookiedotfun #SentientAGI #Sentient
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
У світі алгоритмічних змагань правила чіткі, обмеження суворі, а оцінка безжальна.
@SentientAGI випустив LiveCodeBench Pro, що повністю переніс таке справжнє середовище програмування в систему оцінки моделей і був офіційно прийнятий @NeurIPSConf.
Ця система переосмислює те, що "моделі можуть писати код".
Оцінка процесу охоплює повний шлях алгоритмічного мислення: читання завдання, розробка плану, генерація коду, компіляція та виконання, проходження прихованих тестів.
Кожен етап виконується в єдиному середовищі Docker, час і обмеження пам'яті строго дотримуються оригінальних стандартів змагань.
Традиційне оцінювання часто використовує м'які умови та повторювані питання, через що оцінки моделей здаються вражаючими, але їх важко відтворити.
LiveCodeBench Pro безпосередньо витягує останні завдання з реальних змагань, фіксуючи тодішні обмеження, додаючи етапи хакінгу в стилі Codeforces та внутрішнє тестування на основі замаскованих даних.
Результати тестування пройшли достатню опозицію та перевірку, що дозволяє відобразити реальні алгоритмічні можливості моделі та виконання коду.
Весь процес починається з закінчення змагання: система автоматично захоплює умову задачі, генератор введення та логіку оцінки, а потім заморожує первісні обмеження.
Модель повинна завершити повне вирішення задачі в обмежених ресурсах, згенерувати компільовану програму на C++ та приймати приховане тестування в єдиному середовищі.
Кожен запуск виводитиме повний журнал, витрати часу, використання пам'яті, інформацію про компіляцію та результати оцінювання, щоб забезпечити повну основу для подальшого аналізу.
Джерела завдань охоплюють кілька авторитетних конкурсних платформ:
- Codeforces постійно пропонує різноманітні нові завдання;
- ICPC відображає швидкий алгоритм проектування та реалізації в умовах командної роботи;
- IOI приносить олімпійські виклики, спрямовані на контроль структур і складності.
Рівень складності завдання використовує динамічну рейтингову систему, подібну до Elo:
≤2000 для Easy, 2000–3000 для Medium, >3000 для Hard.
Рівень складності буде оновлюватися в реальному часі відповідно до рекордів вирішення задач людьми та моделями, забезпечуючи порівнянність і надійність оцінок у різні моменти часу.
LiveCodeBench Pro підтримує локальне відтворення та публічне порівняння.
Просто скопіюйте репозиторій, встановіть Python 3.12 та Docker, а також налаштуйте адаптер моделі, і ви зможете повністю запустити оцінювання локально.
Локальні результати використовують таке ж середовище та набір даних для оцінювання, як і публічні рейтинги, що гарантує пряме порівняння між балами.
Кожен запуск генерує структурований JSON файл, який фіксує оцінювання кожного завдання, час виконання, використання пам'яті та мітки збою, що полегшує дослідницькій команді глибше визначити джерело проблем.
Ці дані виявляють конкретні слабкі місця моделі в довгостроковій логіці, стратегіях пошуку, контролі складності або проєктуванні структур даних, надаючи чіткий напрямок для покращення.
У етапі, коли генеративні моделі часто прагнуть до високих балів та технік підказок, LiveCodeBench Pro пропонує чистий еталон.
Воно повертає алгоритмічні можливості назад до реального контексту, ставлячи модель перед тими ж правилами та тиском, що й людські програмісти.
Це випробування логіки та виконання, а також ясне дзеркало, яке відображає справжні межі моделі у розумінні програмування.
LiveCodeBench Pro повертає код у світ правил, а оцінювання – у перевірену реальність.
#KAITO #cookiedotfun #SentientAGI #Sentient