Модель мира переходит от предсказания к планированию, проблема долгосрочного управления и HWM

robot
Генерация тезисов в процессе

null Введение

В течение последнего года исследовательский фокус на моделях мира изначально сосредоточился на обучении представлений и прогнозировании будущего. Модель сначала понимает мир, затем внутри себя моделирует будущие состояния. Этот подход уже дал ряд характерных результатов. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — видеомодель мира, выпущенная Meta в 2025 году) использует более миллиона часов интернет-видео для предварительного обучения, а затем сочетает его с небольшим количеством данных взаимодействия с роботами, демонстрируя потенциал модели мира в понимании, прогнозировании и нулевом обучении планированию роботов.

Но способность модели делать прогнозы не означает, что она умеет обрабатывать долгие задачи. При многосценарном управлении система сталкивается с двумя основными проблемами. Первая — ошибка прогноза накапливается в длинных ролл-утах (последовательных многократных моделированиях), что ведет к отклонению пути от цели. Вторая — пространство поиска действий быстро расширяется с увеличением горизонта планирования, что повышает стоимость планирования. HWM не переписывает базовые принципы обучения моделей мира, а добавляет иерархическую структуру планирования поверх существующей модели мира с условием действия, позволяя системе сначала организовать этапы пути, а затем заниматься локальными действиями.

С технической точки зрения, V-JEPA 2 (больше ориентирована на представление мира и базовое прогнозирование), HWM (больше ориентирована на долгосрочное планирование), WAV (World Action Verifier: Самоулучшающиеся модели мира через асимметрию прямого и обратного моделирования) —

  1. Почему долгосрочное управление остается узким местом моделей мира

Сложности долгосрочного управления легче понять на примере задач роботов. Например, управление манипулятором для захвата стакана и его помещения в ящик — это не одно действие, а цепочка последовательных шагов. Система должна приблизиться к объекту, скорректировать позу, выполнить захват, переместиться в целевую точку, затем открыть ящик и разместить предмет. Чем длиннее цепочка, тем одновременно возникают две проблемы. Первая — ошибка прогноза накапливается при длительном ролл-утах, вторая — пространство поиска действий быстро расширяется.

Недостающим обычно является не локальная способность к прогнозированию, а умение организовать дальние цели в этапы пути. Многие действия с локальной точки зрения кажутся отклонениями от цели, но на самом деле — это промежуточные шаги для достижения конечной цели. Например, перед захватом поднять руку, перед открытием ящика отступить чуть назад и скорректировать угол.

В демонстрационных задачах модели мира уже могут давать связные прогнозы. Но при переходе к реальному управлению производительность падает, и возникают новые проблемы. Давление исходит не только от самой представления, но и от незрелости уровня планирования.

  1. Как HWM перестраивает процесс планирования

HWM разбивает изначально одноступенчатое планирование на два уровня. Верхний уровень отвечает за направление в рамках более долгосрочной временной шкалы, нижний — за локальное выполнение в рамках более короткого времени. Модель не планирует только по одному ритму, а одновременно по двум разным временным ритмам.

При обработке длинных задач одноступенчатым методом обычно приходится искать всю цепочку действий прямо в базовом пространстве действий. Чем длиннее задача, тем выше стоимость поиска, и тем быстрее накапливается ошибка прогноза при многократных ролл-утах. После разделения HWM верхний уровень занимается выбором маршрута на более долгосрочной шкале, нижний — выполнением текущего сегмента действий, и вся длинная задача разбивается на несколько коротких, что снижает сложность планирования.

Здесь есть важный дизайн: действия на верхнем уровне — не просто разница между двумя состояниями, а кодируются с помощью кодировщика, который сжимает сегмент локальных действий в более высокоуровневое представление. Для длинных задач важно не только знать разницу между началом и концом, но и как организованы промежуточные шаги. Если верхний уровень смотрит только на смещение, он может потерять информацию о путях внутри цепочки действий.

HWM реализует иерархический способ организации задач. При многосценарных задачах система не раскрывает все действия сразу, а сначала формирует более грубый план этапов, затем выполняет их по частям и корректирует. Такая иерархическая структура, интегрированная в модель мира, делает прогнозирование более стабильным и превращает его в эффективное планирование.

  1. Что показывает эксперимент: от 0% до 70%

В эксперименте по реальной задаче захвата и размещения предметов, где система получает только конечное условие цели и не имеет заранее подготовленных промежуточных целей, HWM достигает 70% успеха, тогда как одноступенчатая модель мира — 0%. То есть, практически невыполнимую длинную задачу после внедрения иерархического планирования можно реализовать с высокой вероятностью.

Также тестировали симуляции перемещения предметов и навигации по лабиринтам. Результаты показывают, что иерархическое планирование повышает успех и снижает вычислительные затраты на этапе планирования. В некоторых случаях затраты на планирование сокращаются примерно в четыре раза при сохранении или повышении успешности.

  1. От V-JEPA к HWM и далее к WAV

V-JEPA 2 — это путь, связанный с представлением мира. Он использует более миллиона часов интернет-видео для предварительного обучения, а затем менее 62 часов видео с роботами для дообучения (post-training), создавая латентную модель мира, обусловленную действиями, — модель, которая способна к пониманию, прогнозированию и планированию физических процессов. Она показывает, что модель может извлекать представление мира из большого объема наблюдений и переносить его в планирование роботов.

HWM — следующий шаг. Модель уже обладает представлением мира и базовым прогнозированием, но при многосценарных задачах возникают проблемы с накоплением ошибок и расширением пространства поиска. HWM не меняет базовые принципы обучения представлений, а добавляет многоуровневую структуру планирования поверх существующей модели мира. Его задача — как организовать дальние цели в промежуточные шаги и постепенно их реализовать.

WAV (World Action Verifier) — это дальнейшее развитие, сосредоточенное на проверке возможностей модели. Чтобы модель могла применяться в стратегическом планировании и развертывании, она должна не только прогнозировать, но и уметь обнаруживать области, где она склонна к искажениям, и корректировать их. В центре внимания — как модель проверяет свои собственные прогнозы.

V-JEPA ориентирована на представление мира, HWM — на планирование задач, WAV — на проверку результатов. Хотя фокус у них разный, основные направления совпадают. Следующий этап развития моделей мира — это не только внутреннее прогнозирование, а интеграция прогнозирования, планирования и проверки в единую систему.

  1. От внутреннего прогнозирования к системе, способной к выполнению

Ранее многие работы по моделям мира были сосредоточены на повышении непрерывности прогнозирования будущих состояний или стабильности внутреннего представления мира. Но текущие исследования уже меняют направление: система должна не только формировать оценку окружающей среды, но и превращать эти оценки в действия, а после получения результата — корректировать следующий шаг. Для более реальной развертываемой системы необходимо управлять распространением ошибок в долгосрочных задачах, сокращать пространство поиска и снижать вычислительные затраты на рассуждение.

Такие изменения также влияют на агенты ИИ. Многие системы уже умеют выполнять короткие цепочки задач, например, вызывать инструменты, читать файлы, выполнять последовательность команд. Но при переходе к длинным цепочкам, многосценарным задачам и необходимости перезапланирования эффективность падает. Это схоже с трудностями управления роботами — причина в недостаточной способности верхнего уровня организовать путь, что приводит к разрыву между локальным выполнением и глобальной целью.

Идея иерархии, предложенная HWM, — это разделение ответственности: верхний уровень занимается путями и этапами, нижний — локальными действиями и обратной связью, а также проверкой результатов. Такая структура, в будущем, будет всё чаще встречаться в системах. Следующий этап развития моделей мира — это не только прогнозировать будущее, а организовать весь цикл: прогнозировать, выполнять и корректировать — в единую управляемую цепочку.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить