Le jeu de réalité augmentée mondialement populaire « Pokémon Go » développé par Niantic, filiale de Niantic Spatial spécialisée en intelligence artificielle, utilise des milliards d’images urbaines capturées par les joueurs depuis des années pour créer un « système de localisation visuelle » capable de comprendre le monde réel, ainsi qu’un modèle AI du monde. Cette technologie permet une localisation précise dans des environnements urbains où le signal GPS est instable, et a été testée en collaboration avec des entreprises de robots de livraison, ouvrant de nouvelles perspectives pour la navigation des robots et de l’IA dans le monde réel.
Les images des joueurs de Pokémon Go comme données d’entraînement pour l’IA, construction d’un modèle du monde à partir de photos urbaines
Depuis son lancement en 2016, Pokémon Go est rapidement devenu un jeu mondialement populaire, où les joueurs capturent des Pokémon en utilisant la caméra de leur téléphone dans le monde réel. Ce jeu AR (réalité augmentée) développé par Niantic maintient encore aujourd’hui plus d’un milliard de joueurs actifs chaque année, même après plusieurs années.
Cependant, durant le jeu, les joueurs doivent constamment orienter leur téléphone vers des bâtiments et des points de repère urbains, ce qui a involontairement permis à la société de collecter une énorme quantité d’images.
Niantic Spatial, filiale d’intelligence artificielle de Niantic, a récemment annoncé avoir collecté et organisé environ 30 milliards de photos provenant d’environnements urbains mondiaux, toutes accompagnées de données géographiques précises, telles que la direction du téléphone, la vitesse de déplacement et l’angle de prise de vue. Ces données sont désormais utilisées pour entraîner une IA afin de construire un « modèle du monde » capable de comprendre l’espace réel.
(Analyse approfondie : Les limites des LLM ? Pourquoi Yang Likun mise sur le chemin du « Modèle du Monde »)
Système de localisation visuelle vs GPS : l’IA peut déterminer la position précise via des images de bâtiments
Selon NewsForce, la dernière technologie développée par Niantic Spatial est un système de localisation visuelle (Visual Positioning System, VPS). Ce modèle d’IA analyse des photos de bâtiments ou de points de repère pour déterminer la position de l’utilisateur, avec une précision pouvant atteindre le centimètre.
L’entreprise indique que sa base de données couvre actuellement plus d’un million de points de repère dans le monde. À chaque endroit, des milliers d’images prises à différents moments, angles et conditions météorologiques sont accumulées. En comparant ces caractéristiques visuelles, l’IA peut estimer la position et la direction de vue de l’appareil, fournissant une localisation relativement précise.
Le directeur technique de Niantic Spatial, Brian McClendon, explique que cette méthode diffère du GPS traditionnel, qui dépend des signaux satellites. Le VPS « voit ce qu’il y a » pour déterminer la position :
Dans les environnements urbains denses, le signal GPS est souvent dévié, pouvant entraîner des erreurs de localisation de plusieurs dizaines de mètres, voire des erreurs de direction.
Ces erreurs ne posent pas de problème majeur pour l’utilisateur moyen, mais pour les robots nécessitant une navigation précise, cela peut poser de graves problèmes. C’est pourquoi la technologie de localisation basée sur la reconnaissance d’images est une solution que les entreprises de robotique surveillent de près.
De la capture de Pokémon à la livraison : les robots de livraison commencent à adopter la technologie de Niantic
Niantic Spatial a déjà commencé à collaborer avec la société de robots de livraison Coco Robotics pour des tests. Coco déploie environ 1 000 robots de livraison dans plusieurs villes des États-Unis et d’Europe, principalement pour la livraison de repas et de courses. Ces robots, de la taille d’une petite valise, peuvent transporter jusqu’à 8 grandes pizzas ou 4 sacs de courses.
L’entreprise indique que, malgré plus de 500 000 livraisons effectuées, certains robots rencontrent encore des difficultés à se stationner précisément devant les restaurants ou chez les clients en raison d’un mauvais positionnement GPS :
Grâce au modèle de localisation visuelle de Niantic, les robots peuvent utiliser leurs quatre caméras pour analyser leur environnement, afin de mieux déterminer leur position et leur direction, améliorant ainsi la fiabilité des livraisons.
L’ère des robots arrive : Niantic veut créer une « carte vivante »
Le PDG de Niantic Spatial, John Hanke, explique que l’objectif initial du développement de la technologie de localisation visuelle était de soutenir les lunettes AR et les applications de réalité augmentée, mais avec le développement rapide de l’industrie robotique, la société a commencé à orienter cette technologie vers la navigation robotique.
Il indique que la société construit un système appelé « Living Map » (Carte vivante), un modèle numérique du monde extrêmement détaillé et constamment mis à jour, capable de s’adapter aux changements du monde réel.
À l’avenir, les robots de livraison, les appareils intelligents et même les dispositifs AR pourraient devenir des sources de données cartographiques, renvoyant en continu des informations sur l’environnement, rapprochant ainsi le monde numérique de la réalité dynamique.
L’IA doit comprendre le monde réel : le « Modèle du Monde » devient une nouvelle priorité technologique
Ces dernières années, le domaine de la recherche en IA a commencé à accorder une importance croissante au concept de « Modèle du Monde ». Bien que les grands modèles de langage (LLM) excellent dans le traitement du texte et des connaissances, ils présentent encore des limites évidentes dans la compréhension de l’espace physique et de l’environnement réel.
En combinant cartes, images et informations environnementales, le Modèle du Monde vise à permettre à l’IA de comprendre les objets, les relations spatiales et les changements environnementaux. Des entreprises comme Google DeepMind développent également des modèles capables de générer des mondes virtuels pour entraîner des agents IA.
Niantic Spatial adopte une stratégie différente, en utilisant une grande quantité d’images du monde réel pour reconstruire progressivement un modèle numérique du monde physique. Avec l’accumulation continue de données, ce système pourrait devenir une infrastructure essentielle pour la compréhension du monde réel par les robots et l’IA à l’avenir.
Cet article « Les joueurs de Pokémon entraînent 30 milliards de photos pour créer un « Modèle du Monde IA », aidant l’industrie de la livraison » a été publié initialement sur Chain News ABMedia.