Oubliez l'AGI — Les meilleurs modèles d'IA ont toujours du mal avec les mathématiques

Decrypt

2026-03-18 12:10:12

En résumé

MATHVISTA, construit avec plus de 6 000 points de données annotés par Sahara AI, teste les modèles d’IA sur le raisonnement mathématique multimodal.
GPT-4V a obtenu 49,9 %, le meilleur résultat parmi 12 modèles testés, mais reste à 10,4 points de pourcentage en dessous de la performance humaine.
Les chercheurs affirment que le progrès vers l’AGI pourrait dépendre moins de la taille du modèle que d’une meilleure formation et d’une meilleure évaluation des données.

L’intelligence artificielle générale, ou AGI, est souvent décrite comme un système capable d’exécuter dans de nombreux domaines comme le font les humains. Les résultats publiés cette semaine du test de référence MATHVISTA montrent que les modèles actuels sont encore loin de cet objectif. Des chercheurs de Microsoft Research, Sahara AI et l’Université Emory ont testé des capacités essentielles à l’intelligence générale, notamment le raisonnement mathématique basé sur des informations visuelles, telles que des graphiques, des diagrammes et des schémas. Parmi 12 modèles fondamentaux testés, dont ChatGPT, Gemini et Claude, GPT-4 Vision a obtenu le meilleur score à 49,9 %. Les participants humains ont en moyenne 60,3 %, soulignant l’écart entre les systèmes d’IA actuels et la capacité de raisonnement plus large souvent associée à l’AGI.

« Nous voulons que la machine fasse des choses qu’une personne normale et moyenne peut faire pour ses tâches quotidiennes », a déclaré Hao Cheng, chercheur principal chez Microsoft Research, à Decrypt. « C’est essentiellement ce que tout le monde recherche pour l’AGI. » En transformant des problèmes en images, diagrammes et graphiques, le projet teste si les modèles peuvent interpréter avec précision des informations visuelles et résoudre des problèmes mathématiques et logiques en plusieurs étapes — des compétences qui vont au-delà de la simple reconnaissance de motifs dans le texte. Les modèles ont encore du mal avec ces tâches, et mesurer cette limitation est difficile.

Lorsque l’équipe de Cheng a examiné les ensembles de données d’évaluation existants, beaucoup comprenaient des problèmes ne nécessitant pas de raisonnement visuel. Les modèles atteignaient souvent la bonne réponse en se fiant uniquement au texte. « Ce n’est pas idéal », a déclaré Cheng. MathVista, disponible sur GitHub et Hugging Face, a été lancé en octobre 2023. Depuis, il a été téléchargé plus de 275 000 fois, dont plus de 13 000 au cours du dernier mois, selon Microsoft Research. La création de l’ensemble de données a nécessité plus qu’un simple étiquetage standard. Microsoft Research avait besoin d’annotateurs capables de traiter des problèmes en arithmétique, algèbre, géométrie et statistiques, tout en distinguant un raisonnement mathématique plus approfondi, comme l’interprétation de graphiques ou la résolution d’équations, de tâches plus simples comme compter des objets ou lire des chiffres. Après une phase pilote, Microsoft a choisi Sahara AI pour soutenir l’effort. La société a fourni des annotateurs formés, des flux de travail personnalisés et des contrôles de qualité à plusieurs étapes pour produire plus de 6 000 exemples multimodaux utilisés dans la référence. Sans benchmarks fiables, il devient difficile de mesurer le progrès vers une intelligence machine plus large, selon Sean Ren, PDG de Sahara AI et professeur associé en informatique à l’USC. « Il y a cette nuance de contamination des données, où une fois que nous commençons à utiliser cet ensemble pour tester, ces résultats sont absorbés dans la version suivante », a expliqué Ren à Decrypt. « Donc, on ne sait pas vraiment s’ils résolvent juste un ensemble de données ou s’ils ont réellement la capacité. » Si les réponses du benchmark apparaissent dans les données d’entraînement d’un modèle, des scores élevés peuvent refléter la mémorisation plutôt que le raisonnement. Cela complique la détermination si les systèmes d’IA s’améliorent réellement.

Les chercheurs soulignent également les limites des données d’entraînement. Une grande partie de l’internet accessible publiquement a déjà été intégrée dans les ensembles de données des modèles. « Il faut absolument trouver un moyen d’injecter de nouvelles connaissances dans ce processus », a déclaré Cheng. « Je pense que ce genre de chose doit venir de données de haute qualité pour que nous puissions réellement dépasser cette frontière de connaissance. » Une voie proposée consiste en des environnements simulés où les modèles peuvent interagir, apprendre par l’expérience et s’améliorer grâce aux retours. « Vous créez un monde jumeau ou un miroir du monde réel dans un bac à sable, afin que le modèle puisse jouer et faire beaucoup de choses que les humains font dans la vie réelle, pour qu’il puisse en gros dépasser la limite d’internet », a expliqué Cheng. Ren a déclaré que les humains pourraient encore jouer un rôle important dans l’amélioration des systèmes d’IA. Bien que les modèles puissent générer du contenu rapidement, les humains restent meilleurs pour l’évaluer. « Cette différence entre l’humain et l’IA, là où ils sont bons, là où ils ne le sont pas, peut être exploitée pour vraiment améliorer l’IA à l’avenir », a-t-il conclu.

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire