Стенфорд і Берклі запропонували LLM-as-a-Verifier, одночасно оновивши перші місця в рейтингах Terminal-Bench і SWE-Bench

robot
Генерація анотацій у процесі

ME News Новини, 14 квітня (UTC+8), за даними моніторингу 1M AI News, при обробці окремого завдання за допомогою AI-програмних агентів, багаторазове виконання часто дає різні рішення, з яких деякі можуть бути неправильними. Якщо автоматично вибирати найкраще, загальний рівень успіху може перевищити один разовий запуск. Питання в тому, як це зробити: залучення іншої моделі для оцінки (тобто LLM-as-a-Judge) є нинішнім основним підходом, але рівень оцінки занадто грубий, часто дає однакові бали різним рішенням, що ускладнює визначення кращого. Стенфордська лабораторія штучного інтелекту та лабораторія Sky Computing з Берклі у співпраці з NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес відбору. Замість того, щоб орієнтуватися лише на кінцевий бал судді, вони читають ймовірнісні розподіли моделі для кожного рівня оцінки і обчислюють з них неперервну винагороду. Також суддю повторюють кілька разів для усунення випадкових похибок, а загальну оцінку розбивають на три незалежні виміри (чи відповідає завданню, правильність формату виводу, наявність помилкових сигналів) і перевіряють окремо. У дослідженні використано Gemini 2.5 Flash як валідатор, точність однієї перевірки становить 74,7%, тоді як традиційний Judge — лише 57,0%; повторюючи 16 разів, Verifier досягає 77,4%, Judge — 70,2%. Традиційний Judge має 26,5% випадків, коли результат закінчується нічиєю, тоді як Verifier у всіх конфігураціях показує 0% нічиї. Реальні результати: на Terminal-Bench 2, запуск GPT-5.4 п’ять разів на одне й те саме завдання з випадковим вибором рішення дає 81,8% успіху, а після відбору за допомогою Verifier — 86,4%. На SWE-Bench Verified, з одного рішення кожного з Claude Opus 4.5, Claude Opus 4.6 і Gemini 3 Flash (всього 3 рішення), після відбору показник підвищився з 76,1% до 77,8%. Станом на 9 квітня обидва показники були на першому місці. Рамка вже відкритий код. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити