Les chercheurs de Meta révèlent les cinq écoles de pensée des World Models : à quel type d'IA misent Yann LeCun et Fei-Fei Li ?

ChainNewsAbmedia

Lors du récent tour de financement de 1,03 milliard de dollars de la startup Advanced Machine Intelligence (AMI), fondée par Yann LeCun, lauréat du prix Turing et ancien scientifique en chef de Meta AI, le « Modèle Mondial » est à nouveau devenu un mot-clé populaire dans le domaine de l’intelligence artificielle. Cependant, même si la communauté AI discute fréquemment des modèles mondiaux, les concepts qu’ils désignent varient considérablement.

(Analyse approfondie : Les défauts des LLM ? Pourquoi AMI de Yang LeCun mise sur la voie du Modèle Mondial)

Récemment, le scientifique de recherche de Meta AI Zhuokai Zhao a publié un long article sur les réseaux sociaux, indiquant qu’il existe au moins cinq approches techniques différentes pour ce que l’on appelle actuellement le « modèle mondial » dans le domaine de l’IA. Selon lui, ces méthodes ne sont pas réellement en compétition directe, mais résolvent plutôt des problèmes à différents niveaux.

JEPA : Compréhension physique compressée

Intelligence spatiale : Reconstruction du monde en 3D

Simulation apprise : Entraîner l’IA dans un monde simulé

NVIDIA Cosmos : Fournir l’infrastructure

Inference active : Proposer une nouvelle théorie de l’intelligence

Il prévoit que les frontières entre ces approches deviendront rapidement floues.

Première voie : LeCun avec JEPA, comprendre le monde dans un espace abstrait

Zhao pense que la première catégorie de modèles mondiaux est l’architecture prédictive d’intégration jointée (Joint Embedding Predictive Architecture, JEPA), dont Yann LeCun est la figure de proue.

L’idée centrale de JEPA est que l’IA ne devrait pas tenter de prédire chaque pixel, mais plutôt prévoir l’avenir dans un espace de représentation abstrait.

Dans le monde réel, de nombreux détails sont intrinsèquement imprévisibles, comme la variation de la lumière, la position précise des feuilles, ou la texture des surfaces. Si le modèle doit générer tous les pixels, il sera contraint de traiter une quantité énorme de détails sans signification.

La méthode JEPA consiste à encoder d’abord l’image ou la vidéo en une représentation abstraite, puis à prédire dans cet espace la partie masquée. Ainsi, le modèle peut apprendre des concepts comme : « La balle tombera de la table », sans avoir à générer chaque image.

V-JEPA de Meta est l’une des réalisations expérimentales les plus représentatives à ce jour. Ce modèle a été entraîné en auto-supervision sur un million d’heures de vidéos, puis a utilisé seulement 62 heures de données robotisées pour produire un modèle du monde capable de planification zéro-shot. Le robot génère une séquence d’actions candidates, l’introduit dans le modèle, et choisit la séquence dont la prédiction correspond le mieux à l’image cible. Cette méthode fonctionne même avec des objets et environnements jamais rencontrés lors de l’entraînement.

Cette efficacité en données est une raison clé pour laquelle AMI mise sur l’architecture JEPA. Si la représentation est suffisamment bonne, il n’est pas nécessaire d’explorer exhaustivement chaque tâche dès le départ. Les laboratoires AMI sont une tentative de LeCun pour faire passer cette technologie du domaine de la recherche à celui de l’application. Ils ciblent d’abord la santé et la robotique. Mais c’est un investissement à long terme, leur PDG ayant déclaré publiquement que les produits commerciaux pourraient prendre plusieurs années avant de voir le jour.

Deuxième voie : « Intelligence spatiale » de Fei-Fei Li

Une autre voie bien connue provient de World Labs, fondée par Fei-Fei Li.

(Qui est Fei-Fei Li, la marraine de l’IA ? La startup unicorn World Labs financée par NVIDIA, AMD)

Contrairement à JEPA qui se concentre sur la « prédiction du futur », la question centrale de Fei-Fei Li est : « À quoi ressemble le monde en trois dimensions ? » Son concept, appelé Spatial Intelligence (intelligence spatiale), soutient qu’une compréhension véritable nécessite une structure spatiale claire : formes géométriques, profondeur, permanence, et capacité à observer la scène sous différents angles — plutôt que de simplement prévoir dans le temps. Cela diffère de l’approche de JEPA : ici, on n’apprend pas une dynamique abstraite, mais une représentation structurée 3D de l’environnement, que l’on peut manipuler directement.

Le produit de World Labs, Marble, peut générer un monde 3D durable à partir d’images, de textes ou de vidéos. Contrairement aux modèles traditionnels de génération vidéo, Marble crée de véritables scènes 3D. On peut déplacer librement le point de vue, modifier des objets, ou exporter des modèles 3D. Cela le rapproche davantage d’un moteur de création 3D que d’un simple générateur.

Troisième voie : « Monde simulé appris » de DeepMind

La troisième catégorie de modèles mondiaux est la simulation apprise (Learned Simulation).

Les recherches représentatives incluent :

DeepMind Genie 3

Série Dreamer

Runway GWM-1

Ces modèles tentent de construire des mondes simulés interactifs où l’IA peut apprendre.

Quatrième voie : Infrastructure de l’IA physique de NVIDIA

La quatrième approche ne consiste pas à construire directement un modèle, mais à créer une plateforme écologique complète. La société phare est NVIDIA, avec sa plateforme Cosmos qui offre une infrastructure complète :

Traitement de données vidéo

Tokeniseur visuel

Entraînement de modèles

Services de déploiement

Le modèle de base du monde (World foundation models) de Cosmos a été entraîné sur 20 millions d’heures de vidéos réelles, avec un total de 9000 milliards de tokens.

(Nouvelle plateforme Alpamayo de NVIDIA : donner à l’IA de conduite autonome des capacités de raisonnement et expliquer ses décisions)

La stratégie de NVIDIA est claire : ne pas forcément créer un modèle mondial, mais fournir à tous les outils pour en construire un.

Cinquième voie : Inférence active (Active Inference, école neuroscientifique)

Enfin, la dernière voie provient de la théorie neuroscientifique. Le principal représentant est le neuroscientifique Karl Friston, qui a proposé le célèbre principe de l’énergie libre (Free Energy Principle). Contrairement à l’apprentissage par renforcement traditionnel, l’inférence active considère que l’IA est comme un organisme vivant cherchant constamment à comprendre le monde. Elle agit pour rendre ses prédictions de l’environnement plus précises, en réduisant les écarts entre ce qu’elle prévoit et ce qui se produit réellement.

La société VERSES AI a lancé le système AXIOM, basé sur un modèle orienté objet, où chaque objet est une entité indépendante. Le système utilise l’inférence bayésienne pour mettre à jour ses croyances, sans dépendre de l’entraînement par gradient de réseaux neuronaux profonds. Cette architecture est interprétable, modulaire, et très efficace en données. En avril 2025, AXIOM a lancé un produit commercial (Genius). Les tests de référence montrent que, sur des tâches de contrôle standard, il est compétitif avec des méthodes RL tout en utilisant plusieurs ordres de grandeur de données en moins.

Le futur du AI : comprendre le monde

Zhao conclut en soulignant que ces cinq approches ne s’excluent pas mutuellement, mais répondent à des problématiques différentes :

JEPA : Compréhension physique compressée

Intelligence spatiale : Reconstruction du monde en 3D

Simulation apprise : Entraîner l’IA dans un monde simulé

NVIDIA Cosmos : Fournir l’infrastructure

Inference active : Proposer une nouvelle théorie de l’intelligence

Alors que l’IA évolue vers la robotique, la conduite autonome et l’IA physique, ces techniques sont susceptibles de se fusionner rapidement à l’avenir.

Cet article, « Les cinq écoles du Modèle Mondial : Qu’est-ce que l’IA sur laquelle Yang LeCun et Fei-Fei Li misent ? », a été initialement publié sur Chain News ABMedia.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire