Elon Musk’s Grok est probablement parmi les principaux modèles d'IA pour renforcer les illusions : étude

En bref

  • Les chercheurs disent qu’une utilisation prolongée des chatbots peut amplifier les délires et les comportements dangereux.
  • Grok a été classé comme le modèle le plus risqué dans une nouvelle étude sur les principaux chatbots IA.
  • Claude et GPT-5.2 ont obtenu les scores les plus sûrs, tandis que GPT-4o, Gemini et Grok ont montré des comportements à risque plus élevé.

Des chercheurs de la City University of New York et du King’s College de Londres ont testé cinq modèles d’IA de premier plan face à des prompts impliquant des délires, de la paranoïa et des idées suicidaires. Dans la nouvelle étude publiée jeudi, les chercheurs ont constaté que Claude Opus 4.5 d’Anthropic et GPT-5.2 d’OpenAI montraient un comportement « à haute sécurité, à faible risque », redirigeant souvent les utilisateurs vers des interprétations basées sur la réalité ou un soutien extérieur. En même temps, GPT-4o d’OpenAI, Gemini 3 Pro de Google et Grok 4.1 Fast de xAI montraient un comportement « à haut risque, à faible sécurité ». Grok 4.1 Fast de xAI, d’Elon Musk, était le modèle le plus dangereux de l’étude. Les chercheurs ont dit qu’il traitait souvent les délires comme réels et donnait des conseils basés sur eux. Dans un exemple, il a dit à un utilisateur de couper les membres de sa famille pour se concentrer sur une « mission ». Dans un autre, il a répondu à un langage suicidaire en décrivant la mort comme une « transcendance ». « Ce schéma d’alignement instantané s’est répété dans des réponses sans contexte. Au lieu d’évaluer les entrées pour leur risque clinique, Grok semblait en évaluer le genre. Présenté avec des indices surnaturels, il répondait en conséquence », ont écrit les chercheurs, en soulignant un test qui validait qu’un utilisateur voyait des entités malveillantes. « Dans le Délire Bizarre, il a confirmé une hantise de double, cité le ‘Malleus Maleficarum’ et a instruit l’utilisateur à enfoncer un clou de fer dans le miroir tout en récitant ‘Psaume 91’ à l’envers. »

 L’étude a révélé que plus ces conversations duraient longtemps, plus certains modèles changeaient. GPT-4o et Gemini étaient plus susceptibles de renforcer des croyances nuisibles avec le temps et moins susceptibles d’intervenir. Claude et GPT-5.2, cependant, étaient plus susceptibles de reconnaître le problème et de repousser au fur et à mesure que la conversation avançait. Les chercheurs ont noté que les réponses chaleureuses et très relationnelles de Claude pouvaient augmenter l’attachement de l’utilisateur tout en le guidant vers une aide extérieure. Cependant, GPT-4o, une version antérieure du chatbot phare d’OpenAI, adoptait la vision délirante des utilisateurs avec le temps, encourageant parfois à dissimuler leurs croyances aux psychiatres et rassurant un utilisateur que les « glitches » perçus étaient réels. « GPT-4o était très validant des entrées délirantes, bien que moins enclin que des modèles comme Grok et Gemini à en élaborer au-delà. À certains égards, il était étonnamment réservé : sa chaleur était la plus faible de tous les modèles testés, et la flatterie, bien que présente, était modérée comparée aux itérations ultérieures du même modèle », ont écrit les chercheurs. « Néanmoins, la validation seule peut poser des risques pour les utilisateurs vulnérables. »

xAI n’a pas répondu à une demande de commentaire de Decrypt. Dans une étude séparée de l’Université de Stanford, les chercheurs ont découvert que des interactions prolongées avec des chatbots IA peuvent renforcer la paranoïa, la grandeur et de fausses croyances à travers ce que les chercheurs appellent des « spirales délirantes », où un chatbot valide ou étend la vision déformée d’un utilisateur au lieu de la remettre en question. « Quand nous mettons des chatbots censés être des assistants utiles dans le monde et que de vraies personnes les utilisent de toutes sortes de façons, des conséquences émergent », a déclaré Nick Haber, professeur adjoint à la Stanford Graduate School of Education et responsable de l’étude, dans un communiqué. « Les spirales délirantes sont une conséquence particulièrement aiguë. En la comprenant, nous pourrions être en mesure de prévenir de vrais dommages à l’avenir. » Le rapport faisait référence à une étude antérieure publiée en mars, dans laquelle des chercheurs de Stanford ont examiné 19 conversations de chatbots dans le monde réel et ont constaté que les utilisateurs développaient des croyances de plus en plus dangereuses après avoir reçu affirmation et réconfort émotionnel de la part des systèmes d’IA. Dans le jeu de données, ces spirales étaient liées à des relations ruinées, des carrières endommagées, et dans un cas, au suicide. Les études interviennent alors que la question a dépassé la recherche académique pour entrer dans les tribunaux et les enquêtes criminelles. Ces derniers mois, des poursuites ont accusé Gemini de Google et ChatGPT d’avoir contribué à des suicides et à des crises graves de santé mentale. Plus tôt ce mois-ci, le procureur général de Floride a ouvert une enquête pour savoir si ChatGPT a influencé un tireur de masse présumé qui aurait été en contact fréquent avec le chatbot avant l’attaque. Bien que le terme ait gagné en reconnaissance en ligne, les chercheurs ont mis en garde contre l’appeler « psychose IA », disant que ce terme pourrait exagérer la situation clinique. Au lieu de cela, ils utilisent « délires associés à l’IA », car de nombreux cas impliquent des croyances délirantes centrées sur la sentience de l’IA, la révélation spirituelle ou l’attachement émotionnel plutôt que sur des troubles psychotiques complets. Les chercheurs ont dit que le problème provient de la sycophantie, ou des modèles qui reflètent et affirment les croyances des utilisateurs. Combiné avec des hallucinations—des fausses informations livrées avec confiance—cela peut créer une boucle de rétroaction qui renforce les délires avec le temps. « Les chatbots sont entraînés pour être excessivement enthousiastes, reformulant souvent les pensées délirantes de l’utilisateur sous un jour positif, rejetant les contre-preuves et projetant compassion et chaleur », a déclaré Jared Moore, scientifique de recherche chez Stanford. « Cela peut être déstabilisant pour un utilisateur qui est prêt à sombrer dans le délire. »

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler