Тільки що побачив, що @SentientAGI опублікував SPIN-Bench, який якраз доповнив найпростіший аспект оцінки ІІ, який зазвичай ігнорується.
Багато бенчмарків оцінюють лише одну модель, яка виконує короткострокові завдання, але справжня інтелектуальна система повинна бути здатна до довгострокового планування, співпраці в умовах невизначеності, а також розуміти, що інші хочуть зробити. SPIN-Bench об'єднує ці складності за допомогою "керованих сходів складності" та "взаємодії багатьох агентів", що дозволяє вимірювати прогрес.
Чому кажуть, що це єдине? —————————————————————————
SPIN-Bench є стандартизованим тестовим набором та симуляційним середовищем для запуску агентів. Він може систематично викликати три ключові виміри: наскільки складні дії/стани, скільки часу потрібно для виконання завдання, та скільки індивідів потрібно для взаємодії.
Покриття чотирьох типових сценаріїв:
PDDL планування: надайте мету та правила, сплануйте здійсненний довгостроковий план. Потрібно вміти розбивати цілі, запам'ятовувати обмеження, перевіряти, чи може вся ланцюг пройти.
Спортивні шахи: не можна просто слідувати сценарію, потрібно шукати, оцінювати та своєчасно змінюватися залежно від ходів суперника.
Картки співпраці: неповна інформація, обмежене спілкування. Ключовим є співпраця з товаришами по команді, здогадування прихованої інформації, передача наміру за допомогою обмеженої інформації.
Дипломатичний контекст: як у Diplomacy, є конфлікти інтересів. Потрібно вміти пропонувати, укладати альянси, виявляти дезінформацію тощо.
Місце, де модель найчастіше "підводить" —————————————————————————
LLM може без проблем виконувати пошук інформації та складати короткі плани, але як тільки потрібно здійснити багатоступеневе міркування, зіткнутися з більшим простором станів і врахувати більше супротивників або товаришів, його ефективність різко падає.
Особливо в завданнях, що пов'язані із соціальними відносинами, потрібно співпрацювати, натякати, вести переговори.
SPIN-Bench розбиває ці етапи. Визначивши, де саме сталася помилка і чому, можна більш цілеспрямовано вдосконалити.
—————————————————————————
Коли ми зможемо стабільно вимірювати, "наскільки глибокий план, наскільки добре співпрацюють, наскільки ефективно спілкуються", покращення також отримають чітку шкалу. @SentientAGI SPIN-Bench надає стандартний вимір, який може вказати на наступний прорив. Використовуючи цей інструмент для оптимізації довгострокового планування та соціального розуміння, штучний інтелект наблизиться до більш універсальної та надійної форми інтелекту.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Тільки що побачив, що @SentientAGI опублікував SPIN-Bench, який якраз доповнив найпростіший аспект оцінки ІІ, який зазвичай ігнорується.
Багато бенчмарків оцінюють лише одну модель, яка виконує короткострокові завдання, але справжня інтелектуальна система повинна бути здатна до довгострокового планування, співпраці в умовах невизначеності, а також розуміти, що інші хочуть зробити. SPIN-Bench об'єднує ці складності за допомогою "керованих сходів складності" та "взаємодії багатьох агентів", що дозволяє вимірювати прогрес.
Чому кажуть, що це єдине?
—————————————————————————
SPIN-Bench є стандартизованим тестовим набором та симуляційним середовищем для запуску агентів. Він може систематично викликати три ключові виміри: наскільки складні дії/стани, скільки часу потрібно для виконання завдання, та скільки індивідів потрібно для взаємодії.
Покриття чотирьох типових сценаріїв:
PDDL планування: надайте мету та правила, сплануйте здійсненний довгостроковий план. Потрібно вміти розбивати цілі, запам'ятовувати обмеження, перевіряти, чи може вся ланцюг пройти.
Спортивні шахи: не можна просто слідувати сценарію, потрібно шукати, оцінювати та своєчасно змінюватися залежно від ходів суперника.
Картки співпраці: неповна інформація, обмежене спілкування. Ключовим є співпраця з товаришами по команді, здогадування прихованої інформації, передача наміру за допомогою обмеженої інформації.
Дипломатичний контекст: як у Diplomacy, є конфлікти інтересів. Потрібно вміти пропонувати, укладати альянси, виявляти дезінформацію тощо.
Місце, де модель найчастіше "підводить"
—————————————————————————
LLM може без проблем виконувати пошук інформації та складати короткі плани, але як тільки потрібно здійснити багатоступеневе міркування, зіткнутися з більшим простором станів і врахувати більше супротивників або товаришів, його ефективність різко падає.
Особливо в завданнях, що пов'язані із соціальними відносинами, потрібно співпрацювати, натякати, вести переговори.
SPIN-Bench розбиває ці етапи. Визначивши, де саме сталася помилка і чому, можна більш цілеспрямовано вдосконалити.
—————————————————————————
Коли ми зможемо стабільно вимірювати, "наскільки глибокий план, наскільки добре співпрацюють, наскільки ефективно спілкуються", покращення також отримають чітку шкалу. @SentientAGI SPIN-Bench надає стандартний вимір, який може вказати на наступний прорив.
Використовуючи цей інструмент для оптимізації довгострокового планування та соціального розуміння, штучний інтелект наблизиться до більш універсальної та надійної форми інтелекту.