Только что увидел, что @SentientAGI выпустил SPIN-Bench, который как раз заполнил самую легко игнорируемую часть оценки ИИ.
Многие бенчмарки оценивают только одну модель для выполнения краткосрочных задач, но действительно умная система должна уметь планировать на долгий срок, сотрудничать в условиях неопределенности и даже понимать, что хотят сделать другие. SPIN-Bench организует эти сложности с помощью "контролируемой ступенчатой сложности" и "взаимодействия нескольких агентов", позволяя измерять прогресс.
Почему говорят, что он единый? —————————————————————————
SPIN-Bench является как стандартизированным тестовым набором, так и симуляционной средой для запуска智能体. Он позволяет систематически вызывать три ключевых измерения: насколько сложны действия/состояния, как долго необходимо выполнять задачу и с каким количеством индивидуумов нужно взаимодействовать.
Охватывает четыре категории представительных сцен:
PDDL планирование: задайте цель и правила, спланируйте выполнимый долгосрочный план. Нужно уметь разбивать цели, запоминать ограничения, проверять, может ли пройти вся цепочка.
Спортивные шахматы: нельзя просто следовать сценарию, нужно искать, оценивать и вовремя адаптироваться к ходам противника.
Картами для сотрудничества: неполная информация, ограниченная коммуникация. Ключевым моментом является взаимодействие с товарищами по команде, угадывание скрытой информации, передача намерения с использованием ограниченной информации.
Сценарий дипломатии: как в Diplomacy, есть конфликт интересов. Необходимо уметь предлагать, объединяться, выявлять дезинформацию и так далее.
Место, где модель чаще всего "теряет цепочку". —————————————————————————
LLM без проблем справляется с поиском информации и составлением краткосрочных планов, но как только требуется многопроцессный вывод, столкновение с большим пространством состояний, а также учет большего числа противников или союзников, его эффективность резко падает.
Особенно в задачах, связанных с социальными отношениями, необходимо сотрудничество, намеки и переговоры.
SPIN-Bench разбивает эти этапы. Определив, где и почему произошла ошибка, можно более целенаправленно внести улучшения.
—————————————————————————
Когда мы сможем стабильно измерять, «насколько глубоко спланировано, насколько хорошо согласовано и насколько эффективно осуществляется общение», улучшение получит четкую шкалу. @SentientAGI SPIN-Bench предоставляет стандартный инструмент, который указывает на следующий прорыв. Используя эту линейку для оптимизации долгосрочного планирования и социального мышления, ИИ сделает еще один шаг к более универсальной и надежной интеллектуальной форме.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Только что увидел, что @SentientAGI выпустил SPIN-Bench, который как раз заполнил самую легко игнорируемую часть оценки ИИ.
Многие бенчмарки оценивают только одну модель для выполнения краткосрочных задач, но действительно умная система должна уметь планировать на долгий срок, сотрудничать в условиях неопределенности и даже понимать, что хотят сделать другие. SPIN-Bench организует эти сложности с помощью "контролируемой ступенчатой сложности" и "взаимодействия нескольких агентов", позволяя измерять прогресс.
Почему говорят, что он единый?
—————————————————————————
SPIN-Bench является как стандартизированным тестовым набором, так и симуляционной средой для запуска智能体. Он позволяет систематически вызывать три ключевых измерения: насколько сложны действия/состояния, как долго необходимо выполнять задачу и с каким количеством индивидуумов нужно взаимодействовать.
Охватывает четыре категории представительных сцен:
PDDL планирование: задайте цель и правила, спланируйте выполнимый долгосрочный план. Нужно уметь разбивать цели, запоминать ограничения, проверять, может ли пройти вся цепочка.
Спортивные шахматы: нельзя просто следовать сценарию, нужно искать, оценивать и вовремя адаптироваться к ходам противника.
Картами для сотрудничества: неполная информация, ограниченная коммуникация. Ключевым моментом является взаимодействие с товарищами по команде, угадывание скрытой информации, передача намерения с использованием ограниченной информации.
Сценарий дипломатии: как в Diplomacy, есть конфликт интересов. Необходимо уметь предлагать, объединяться, выявлять дезинформацию и так далее.
Место, где модель чаще всего "теряет цепочку".
—————————————————————————
LLM без проблем справляется с поиском информации и составлением краткосрочных планов, но как только требуется многопроцессный вывод, столкновение с большим пространством состояний, а также учет большего числа противников или союзников, его эффективность резко падает.
Особенно в задачах, связанных с социальными отношениями, необходимо сотрудничество, намеки и переговоры.
SPIN-Bench разбивает эти этапы. Определив, где и почему произошла ошибка, можно более целенаправленно внести улучшения.
—————————————————————————
Когда мы сможем стабильно измерять, «насколько глубоко спланировано, насколько хорошо согласовано и насколько эффективно осуществляется общение», улучшение получит четкую шкалу. @SentientAGI SPIN-Bench предоставляет стандартный инструмент, который указывает на следующий прорыв.
Используя эту линейку для оптимизации долгосрочного планирования и социального мышления, ИИ сделает еще один шаг к более универсальной и надежной интеллектуальной форме.