Дослідники Meta розкривають п'ять шкіл World Model: на яку ШІ роблять ставку Ян ЛеКун і Лі Фей-Фей?

ChainNewsAbmedia

На здобутому премію Тьюринга та колишньому головному науковому співробітнику Meta AI Янну Лекуну заснована стартап-компанія Advanced Machine Intelligence (AMI) нещодавно завершила масштабне посівне фінансування на суму понад 1,03 мільярда доларів. Після цього «Модель світу» знову стала популярним ключовим словом у галузі штучного інтелекту. Однак, навіть якщо AI-спільнота часто обговорює концепцію моделей світу, різні дослідники мають дуже різне розуміння цього терміну.

(Глибокий аналіз: Чи має LLM недоліки? Чому AMI Янна Лекуна робить ставку на шлях моделей світу)

Недавно дослідник Meta AI Жоукай Чжао опублікував у соцмережах довгий пост, у якому зазначив, що сучасні так звані моделі світу у галузі AI можна поділити щонайменше на п’ять різних технічних напрямків. Він вважає, що ці підходи насправді не конкурують безпосередньо, а вирішують різні рівні проблем.

JEPA: стиснене фізичне розуміння

Spatial Intelligence: відновлення 3D-світу

Learned Simulation: навчання AI у симульованому світі

NVIDIA Cosmos: забезпечення інфраструктури

Active Inference: пропозиція нової теорії розуму

Він очікує, що межі між цими напрямками незабаром стануть розмитими.

Напрямок 1: JEPA від Лекуна — розуміння світу через абстрактний простір

Чжао вважає, що перший тип моделі світу — це Joint Embedding Predictive Architecture (JEPA), головним представником якої є Янн Лекун.

Основна ідея JEPA полягає в тому, що AI не має намагатися передбачити кожен піксель, а має прогнозувати майбутнє у абстрактному просторі репрезентацій.

У реальному світі багато деталей важко передбачити, наприклад, зміну освітлення, точне положення листя, текстуру поверхні. Якщо модель має генерувати всі пікселі, вона буде змушена обробляти безліч безглуздих деталей.

Метод JEPA полягає у тому, що спочатку за допомогою кодувальника зображення або відео перетворюється у абстрактне представлення, а потім у цьому просторі прогнозуються приховані частини. Таким чином, модель може навчитися, наприклад, що «м’яч впаде зі столу», не генеруючи кожен кадр.

Meta’s V-JEPA 2 — один із найяскравіших прикладів таких експериментів. Ця модель використовує 1 мільйон годин відеоматеріалів для самонавчання, а потім лише 62 години даних з робототехніки достатньо для створення світової моделі, що підтримує нульовий зразковий планування. Робот генерує кандидатні послідовності дій, вводить їх у модель і обирає ту, що найкраще відповідає цільовому зображенню. Такий підхід працює навіть із об’єктами та середовищами, яких модель раніше не бачила.

Ця висока ефективність у використанні даних — одна з головних причин, чому AMI робить ставку на архітектуру JEPA. Якщо репрезентація достатньо хороша, не потрібно з нуля перебирать кожне завдання. AMI Labs — це спроба Лекуна перенести цю технологію з дослідницької сфери у практичну. Вони спершу орієнтуються на медицину та робототехніку. Але це довгострокові інвестиції: їхній CEO відкрито заявив, що комерційні продукти можуть з’явитися лише через кілька років.

Напрямок 2: «Просторова мудрість» від Лі Фейфей

Ще один відомий напрямок походить від засновниці World Labs Лі Фейфей.

(Хто така Лі Фейфей? Стартап-єдиноріг World Labs отримує фінансування від NVIDIA, AMD)

На відміну від JEPA, що зосереджена на «прогнозуванні майбутнього», Лі Фейфей ставить питання: «Як виглядає світ у тривимірному просторі?» Вона пропонує концепцію, яку називає Spatial Intelligence (просторова мудрість). Вона вважає, що справжнє розуміння вимагає чіткої структурованої 3D-репрезентації: геометрії, глибини, стабільності та здатності переглядати сцену з нових ракурсів — а не просто прогнозувати час.

Це відрізняється від JEPA: тут не вчаться абстрактній динаміці, а структурованому 3D-представленню навколишнього середовища, з яким можна безпосередньо працювати.

Продукт Marble від World Labs може генерувати стійкий 3D-світ із зображень, тексту або відео. На відміну від традиційних моделей генерації відео, Marble створює справжню 3D-сцену. Можна змінювати точку зору, редагувати об’єкти, експортувати 3D-моделі. Це ближче до 3D-редакторів, ніж до простих генераторів.

Напрямок 3: DeepMind — навчальні симуляційні світи

Третій тип моделі світу — це навчальні симуляції (Learned Simulation).

Приклади досліджень:

DeepMind Genie 3

Dreamer-серія

Runway GWM-1

Ці моделі прагнуть створити інтерактивний симульований світ, у якому AI може навчатися.

Напрямок 4: Інфраструктура NVIDIA для фізичного AI

Четвертий напрямок — не створення окремої моделі, а побудова цілісної екосистеми. Представник — NVIDIA, яка запустила платформу Cosmos, що забезпечує повний набір інструментів:

Обробка відеоданих

Візуальні токенізатори

Навчання моделей

Розгортання сервісів

Модель базового світу (World foundation models) Cosmos вже тренується на 20 мільйонів годин реальних відео, з обсягом токенів у 9000 трильйонів.

(Екосистема NVIDIA Alpamayo: надає AI-водіям здатність робити висновки та пояснювати рішення)

Стратегія NVIDIA ясна: не обов’язково створювати власну модель світу, а надавати інструменти для її створення всім охочим.

Напрямок 5: Active Inference (нейронауковий підхід)

Останній напрямок базується на нейронауці. Його представник — нейронауковець Карл Фрістон, який запропонував відомий принцип вільної енергії (Free Energy Principle). На відміну від традиційного підходу підкріпленого навчання, Active Inference вважає, що AI — це як живий організм, що постійно намагається зрозуміти світ. Він вживає дії, щоб зробити свої передбачення навколишнього середовища більш точними і зменшити ситуації, коли «щось не відповідає очікуванням».

Компанія VERSES AI розробила систему AXIOM, яка використовує об’єктно-орієнтовану модель: кожен об’єкт — окрема сутність, система оновлює свої переконання за допомогою байєсівського виведення, не залежачи від глибоких нейронних мереж. Така архітектура має пояснюваність, комбінаційність і високу ефективність у використанні даних. У квітні 2025 року AXIOM вийшла на комерційний ринок (Genius). Базові тести AXIOM у стандартних контрольних задачах показали конкурентоспроможність із RL-базовими системами при значно менших обсягах даних.

Майбутнє AI: розуміння світу

Завершуючи, Чжао зазначає, що ці п’ять напрямків моделей світу насправді не виключають одне одного, а швидше доповнюють:

JEPA: стиснене фізичне розуміння

Spatial Intelligence: відновлення 3D-світу

Learned Simulation: навчання AI у симульованому світі

NVIDIA Cosmos: забезпечення інфраструктури

Active Inference: нова теорія розуму

Зі зростанням ролі AI у робототехніці, автономному керуванні та фізичних системах, ці технології, ймовірно, швидко зіллються у майбутньому.

Ця стаття «Meta дослідники розкривають п’ять основних шкіл моделей світу: що таке AI, на якій ставці роблять Ян Лекун і Лі Фейфей?» вперше з’явилася на ABMedia.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів