Модель світу від прогнозування до планування, HWM та складнощі довгострокового управління

robot
Генерація анотацій у процесі

null Вступ

За останній рік дослідження світових моделей спочатку зосереджувалися на репрезентаційному навчанні та прогнозуванні майбутнього. Модель спершу розуміє світ, а потім внутрішньо пророкує майбутні стани. Цей шлях уже приніс низку репрезентативних результатів. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — відео світова модель, випущена Meta у 2025 році) використовує понад 1 мільйон годин інтернет-відео для попереднього навчання, а також невелику кількість даних взаємодії з роботами, демонструючи потенціал світової моделі у розумінні, прогнозуванні та нульовому зразковому плануванні роботів.

Але здатність моделі прогнозувати не означає, що вона здатна обробляти довгі завдання. У випадку багатоступеневого контролю система зазвичай стикається з двома проблемами. Перша — помилка прогнозу буде постійно накопичуватися під час довгого розгортання (послідовного багато-крокового пророку), що призведе до відхилення від цілі. Друга — поширення пошукового простору дій зростає з ростом горизонту (планувальної відстані), що постійно підвищує вартість планування. HWM не переписує базовий шлях навчання світової моделі, а додає ієрархічну структуру планування поверх уже існуючої світової моделі з умовами дії, дозволяючи системі спершу організовувати етапний шлях, а потім обробляти локальні дії.

З технічної точки зору, V-JEPA 2 (більш орієнтована на репрезентацію світу та базове прогнозування), HWM (більш орієнтована на довгострокове планування), WAV (World Action Verifier: самовдосконалюючі світові моделі через передньо-зворотню асиметрію) —

  1. Чому довгострокове управління залишається вузьким місцем світових моделей

Складність довгострокового управління стає більш очевидною у робототехнічних завданнях. Візьмемо приклад роботи з механічною рукою: підняти стакан і покласти його у ящик — це не одна дія, а ланцюг послідовних кроків. Система має наблизитися до об’єкта, відрегулювати положення, виконати захоплення, переміститися до цільової позиції, потім обробити ящик і розмістити предмет. Чим довший ланцюг, тим одночасно виникають дві проблеми. Перша — помилка прогнозу буде постійно накопичуватися під час розгортання (rollout), що призведе до відхилення від цілі. Друга — поширення пошукового простору дій швидко зростає.

Зазвичай системі бракує не локальної здатності прогнозування, а здатності організувати ціль у етапний шлях. Багато дій з локальної точки зору здаються відхиленням від цілі, але насправді є проміжними кроками, необхідними для досягнення цілі. Наприклад, перед захопленням підняти руку, перед відкриттям ящика — зробити невеликий відступ і потім відрегулювати кут.

У демонстраційних завданнях світова модель вже здатна давати послідовні прогнози. Але при переході до реального управління продуктивність починає знижуватися, і виникають нові проблеми. Тиск походить не лише від репрезентації, а й від незрілості рівня планування.

  1. Як HWM перебудовує процес планування

HWM розбиває початковий однорівневий процес планування на два рівні. Верхній рівень відповідає за напрямки у довгостроковій перспективі, нижній — за локальне виконання у короткостроковій. Модель не планує лише за одним ритмом, а одночасно за двома різними часовими масштабами.

При обробці довгих завдань однорівневий підхід зазвичай вимагає безпосереднього пошуку всієї ланцюга дій у нижньому просторі дій. Чим довше завдання, тим вищі витрати на пошук і тим легше накопичується помилка прогнозу. Після розбиття HWM, верхній рівень відповідає лише за вибір маршруту у довгостроковій перспективі, а нижній — за виконання конкретної частини дії. Таким чином, довге завдання розбивається на кілька коротших, що знижує складність планування.

Ще один важливий аспект — верхній рівень не просто фіксує різницю між двома станами, а використовує кодер для стиснення сегмента нижнього рівня у більш абстрактне представлення дії. Для довгих завдань важливо не лише різниця між початком і кінцем, а й організація проміжних кроків. Якщо верхній рівень дивиться лише на зсув, він може втратити шлях у ланцюгу дій.

HWM втілює ідею ієрархічної організації задач. Замість одноразового розгортання всіх дій системою, вона спершу формує грубий шлях, а потім виконує і коригує його поетапно. Після інтеграції такої ієрархії у світову модель, її прогнозна здатність починає більш стабільно перетворюватися у здатність до планування.

  1. Що показують результати від 0% до 70%

У експерименті з реальним завданням захоплення і розміщення предметів, де система отримує лише кінцеву ціль і не має попередньо розбитих проміжних цілей, HWM досягає 70% успіху, тоді як однорівнева світова модель — 0%. Те, що раніше здавалося неможливим для довгих завдань, стало цілком здійсненним із застосуванням ієрархічного планування.

Також тестували симуляційні завдання, наприклад, переміщення предметів і навігацію лабіринтом. Результати показали, що ієрархічне планування не лише підвищує успішність, а й зменшує обчислювальні витрати на етапі планування. У деяких випадках витрати на планування зменшуються приблизно у чотири рази, зберігаючи або підвищуючи рівень успіху.

  1. Від V-JEPA до HWM і далі до WAV

V-JEPA 2 — це репрезентація світу. Вона використовує понад 1 мільйон годин інтернет-відео для попереднього навчання, а також менше 62 годин відео з роботами для подальшого навчання (post-training), отримуючи латентну світову модель, яка враховує дії для розуміння, прогнозування і планування фізичного світу. Це демонструє, що модель може через масштабне спостереження отримати репрезентацію світу і переносити її у планування роботів.

HWM — наступний крок. Модель вже має репрезентацію світу і базове прогнозування, але при переході до багатоступеневого контролю виникають проблеми накопичення помилок і розширення пошукового простору. HWM не змінює базовий шлях навчання, а додає багатозасічкову структуру планування поверх вже існуючої світової моделі. Вона зосереджена на тому, як організувати ціль у набір проміжних кроків і поступово просуватися вперед.

WAV (World Action Verifier) — це подальше зосередження на здатності перевіряти. Щоб світова модель могла застосовуватися у стратегії та розгортанні, вона повинна не лише прогнозувати, а й вміти виявляти зони потенційних похибок і коригувати їх. Вона зосереджена на тому, як модель сама себе перевіряє.

V-JEPA орієнтована на репрезентацію світу, HWM — на планування задач, WAV — на верифікацію результатів. Хоча їхні фокуси різні, основний напрям однаковий. Наступний етап світової моделі — це не лише внутрішнє прогнозування, а й інтеграція прогнозування, планування і верифікації у єдину систему.

  1. Від внутрішнього прогнозування до системи, здатної до виконання

Раніше багато робіт із світовими моделями були спрямовані на підвищення безперервності прогнозу майбутніх станів або стабільності внутрішньої репрезентації світу. Але сучасні дослідження вже змінюють фокус — система має не лише формувати оцінку навколишнього середовища, а й перетворювати цю оцінку у дії, а після отримання результату — коригувати наступний крок. Щоб наблизитися до реального застосування, потрібно контролювати поширення помилок у довгострокових завданнях, зменшувати пошук і знижувати витрати на розуміння.

Ці зміни також впливають на агентів штучного інтелекту. Багато систем вже здатні виконувати короткі завдання, наприклад, викликати інструменти, читати файли, виконувати кілька команд. Але при переході до довгих ланцюгів, багатоступеневих і з необхідністю перерозподілу плану, продуктивність знижується. Це не має суттєвих відмінностей від труднощів у робототехніці — недостатня здатність до високорівневого організування шляхів призводить до розриву між локальним виконанням і глобальною метою.

Ідея ієрархічного підходу HWM — це високий рівень відповідає за шлях і цілі етапів, нижній — за локальні дії і зворотний зв’язок, а додавання перевірки результатів дозволяє цю структуру застосовувати у більшості систем. Наступний етап світової моделі — це не лише прогнозування майбутнього, а й організація прогнозу, виконання і коригування у робочу, функціональну систему.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити