Стенфордська та Берклі лабораторії у співпраці з NVIDIA запропонували LLM-as-a-Verifier, аналізуючи розподіл ймовірностей оцінки та багаторазове судження, успішно підвищили точність вибору рішень для AI-програмних агентів. Експерименти показали, що у порівнянні з традиційним суддею, Verifier демонструє кращі результати у оцінюванні, значно підвищуючи рівень успіху, а також рамкова структура вже відкрита для публічного доступу.

MeNews

2026-05-01 14:30:48

Генерація анотацій у процесі

ME News Новини, 14 квітня (UTC+8), за даними моніторингу 1M AI News, при обробці окремого завдання за допомогою AI-програмних агентів, багаторазове виконання часто дає різні рішення, з яких деякі можуть бути неправильними. Якщо автоматично вибирати найкраще, загальний рівень успіху може перевищити один разовий запуск. Питання в тому, як це зробити: залучення іншої моделі для оцінки (тобто LLM-as-a-Judge) є нинішнім основним підходом, але рівень оцінки занадто грубий, часто дає однакові бали різним рішенням, що ускладнює визначення кращого. Стенфордська лабораторія штучного інтелекту та лабораторія Sky Computing з Берклі у співпраці з NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес відбору. Замість того, щоб орієнтуватися лише на кінцевий бал судді, вони читають ймовірнісні розподіли моделі для кожного рівня оцінки і обчислюють з них неперервну винагороду. Також суддю повторюють кілька разів для усунення випадкових похибок, а загальну оцінку розбивають на три незалежні виміри (чи відповідає завданню, правильність формату виводу, наявність помилкових сигналів) і перевіряють окремо. У дослідженні використано Gemini 2.5 Flash як валідатор, точність однієї перевірки становить 74,7%, тоді як традиційний Judge — лише 57,0%; повторюючи 16 разів, Verifier досягає 77,4%, Judge — 70,2%. Традиційний Judge має 26,5% випадків, коли результат закінчується нічиєю, тоді як Verifier у всіх конфігураціях показує 0% нічиї. Реальні результати: на Terminal-Bench 2, запуск GPT-5.4 п’ять разів на одне й те саме завдання з випадковим вибором рішення дає 81,8% успіху, а після відбору за допомогою Verifier — 86,4%. На SWE-Bench Verified, з одного рішення кожного з Claude Opus 4.5, Claude Opus 4.6 і Gemini 3 Flash (всього 3 рішення), після відбору показник підвищився з 76,1% до 77,8%. Станом на 9 квітня обидва показники були на першому місці. Рамка вже відкритий код. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
450.64K Популярність
#
USSeeksStrategicBitcoinReserve
58.69M Популярність
#
IsraelStrikesIranBTCPlunges
37.26K Популярність
#
BitcoinETFOptionLimitQuadruples
986.86K Популярність
#
#FedHoldsRateButDividesDeepen
30.82K Популярність

Закріпити

карта сайту

Стенфорд і Берклі запропонували LLM-as-a-Verifier, одночасно оновивши перші місця в рейтингах Terminal-Bench і SWE-Bench

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити