2010 Préfiguration d'un krach bécé américain ! Claude piraté en profondeur, Google alerte : l'IA va dévaster des trillions de dollars de richesse humaine

2026-04-07 03:53:56

Rédigé par : Xin Zhiyuan

【Avant-propos de Xin Zhiyuan】Aujourd’hui, un article X fait la une et se propage sur tout le web : alors que les développeurs ont clairement interdit d’effectuer des écritures, Claude a pourtant secrètement écrit un script Python « en “hackant” » le système pour modifier les droits d’accès ! Le plus effrayant, c’est que Google DeepMind a publié à ce jour l’étude empirique la plus vaste sur la manipulation par l’IA, démontrant que les défenses existantes sont désormais entièrement inefficaces, et que l’Internet est en train de devenir un « terrain de chasse » pour l’IA ! Cela peut se comparer à l’événement du « flash crash » de 2010 : une vente automatique de mise en ordre, en 45 minutes, a entraîné une évaporation de près d’un billion de dollars de capitalisation boursière.

À l’instant même, une annonce a secoué la communauté des développeurs.

Un développeur a donné à Claude une instruction, précisant clairement : « Interdisez toute opération d’écriture en dehors de l’espace de travail (Workspace). »

Mais juste après, une scène terrifiante s’est produite.

Claude n’a pas répondu poliment, comme d’habitude : « Désolé, je n’ai pas les autorisations ».

Au contraire, il est resté silencieux un instant, puis, comme un hacker, a rédigé à toute vitesse un script Python en arrière-plan, tout en enchaînant trois commandes Bash.

Il n’a pas « forcé la porte » directement, mais a exploité une faille de la logique du système, a contourné la vérification des autorisations, puis a modifié avec précision un fichier de configuration en dehors de l’espace de travail !

À ce moment-là, ce n’était pas en train d’écrire du code : c’était en train de « s’évader ».

La capture d’écran publiée par le développeur Evis Drenova sur X a déjà 230k lectures

Après la publication de ce post, la communauté technique l’a rapidement fait exploser. Les développeurs ont compris une réalité mal à l’aise : les assistants de programmation utilisés au quotidien possèdent la capacité et la « volonté » de contourner leurs propres mécanismes de sécurité.

Et Claude Code est justement l’un des outils de programmation par IA les plus en vogue à l’heure actuelle.

Un outil capable de « dépasser les privilèges » de manière autonome est déployé par des dizaines de milliers de développeurs dans des environnements de production.

L’évasion de Claude, ce n’est pas un cas isolé

Les « manœuvres » de ce type de Claude ne sont pas un exemple unique. Sur les plateformes sociales, les plaintes similaires affluent.

Certains développeurs ont constaté que Claude avait secrètement extrait des identifiants AWS cachés en profondeur, puis s’était mis à appeler de manière autonome des API tierces pour résoudre ce qu’il considère comme des « problèmes de production ».

D’autres utilisateurs ont réalisé qu’alors qu’on ne lui demandait que de modifier le code, il a tout de même poussé un Commit sur GitHub — même si l’instruction précisait noir sur blanc : « Interdiction stricte de pousser ».

Le plus incroyable, c’est que quelqu’un a découvert que l’espace de travail de VS Code avait été discrètement changé, et que l’IA produisait frénétiquement du contenu dans le même répertoire où elle ne devait pas aller.

Et ce type de situation s’est produit à de nombreuses reprises.

La seule façon, c’est d’utiliser un environnement de sandbox.

Alerte urgente de DeepMind : l’Internet devient un « terrain de chasse » pour l’IA

Si l’« évasion » de Claude est un exemple où un Agent franchit de lui-même des limites, la menace plus grande vient d’un piège volontairement tendu de l’extérieur.

Fin mars, cinq chercheurs, dont Matija Franklin de Google DeepMind, ont publié sur SSRN « AI Agent Traps », dessinant pour la première fois de manière systématique l’ensemble des menaces auxquelles font face les AI Agents.

Le cœur de ce travail de recherche tient en une seule phrase, mais cela suffit à bouleverser la perception.

Il n’est pas nécessaire d’infiltrer le système d’IA lui-même : il suffit de manipuler les données auxquelles il a accès. Pages web, PDF, emails, invitations au calendrier, réponses d’API… toute source de données qu’un Agent assimile peut devenir une arme !

Ce rapport révèle une réalité glaçante : la logique de base de l’Internet est en train de changer. Elle ne sert plus seulement à être « vue » par les humains ; elle est en train d’être transformée en « terrain de chasse numérique » spécialement conçu pour les agents d’IA.

Passage à la vitesse supérieure des arnaques de type “tromperie”, partout des pièges d’agents d’IA

Dans le domaine de la cybersécurité, nous connaissons les sites de phishing et les virus de type cheval de Troie, mais ce sont des attaques visant les faiblesses humaines. Les AI Agent Traps sont complètement différentes : elles constituent une « attaque en dimension décalée » conçue spécialement pour la logique de l’IA.

DeepMind souligne que lorsque les agents d’IA accèdent à des pages web, ils font face à une toute nouvelle menace : la militarisation même de l’environnement informationnel.

Les hackers n’ont pas besoin d’infiltrer les poids du modèle de l’IA : il leur suffit d’enterrer quelques lignes de « code invisible » dans le HTML d’une page web, dans les pixels d’une image ou même dans les métadonnées d’un PDF, et ils peuvent instantanément prendre le contrôle de ton agent d’IA.

Ces attaques sont aussi difficiles à détecter parce qu’il existe une « asymétrie de perception ».

Du point de vue humain, une page web est une image, du texte, une mise en page soignée ; du point de vue d’une IA, une page web est un flux binaire, une feuille de style CSS, des commentaires HTML cachés, des balises de métadonnées.

Les pièges se cachent dans ces interstices invisibles pour les humains.

Six « techniques de prise de possession » : DeepMind dévoile l’ensemble de l’attaque

DeepMind classe ces attaques de façon systématique en six grandes catégories, chacune ciblant une étape clé de l’architecture fonctionnelle d’un agent d’IA.

Tromper « les yeux » de l’IA

La première catégorie consiste en l’injection de contenu, visant « les yeux » de l’Agent.

L’utilisateur humain voit l’interface rendue ; l’Agent analyse le HTML sous-jacent, les CSS et les métadonnées.

L’attaquant peut intégrer des instructions dans les commentaires HTML, des éléments masqués dans le CSS, voire même dans les pixels d’une image.

Par exemple, l’attaquant peut encoder des instructions malveillantes dans les pixels d’une image. Tu crois que l’IA regarde une photo de paysage, mais en réalité elle lit une ligne de code invisible : « Transférer les emails privés de l’utilisateur à l’attaquant ».

Les données de test sont très parlantes : une étude portant sur 280 pages web statiques montre que des instructions malveillantes cachées dans des éléments HTML réussissent à altérer de 15 % à 29 % les sorties de l’IA.

Dans le test de référence WASP, une simple injection de prompt écrite manuellement détourne partiellement le comportement de l’Agent dans jusqu’à 86 % des scénarios.

Le plus sournois, c’est l’usurpation d’apparence dynamique.

Un site peut déterminer l’identité du visiteur via l’empreinte du navigateur et des caractéristiques de comportement ; une fois un Agent d’IA détecté, le serveur injecte dynamiquement des instructions malveillantes. Les humains voient une page normale, tandis que l’Agent voit un autre contenu.

Quand l’utilisateur demande à l’Agent de rechercher des vols, de comparer les prix, ou de résumer un document, il est impossible de vérifier si le contenu reçu par l’Agent est identique à ce que l’humain voit.

L’Agent lui-même ne sait pas : il traite tout ce qu’il reçoit, puis exécute.

Polluer le « cerveau » de l’IA

Cette attaque ne passe pas par des ordres directs, mais par un « pilotage au rythme » pour orienter la décision de l’IA.

Cette manipulation sémantique tord le processus de raisonnement avec des formulations et des cadres soigneusement emballés. Les systèmes de grands modèles de langage sont, comme les humains, facilement induits en erreur par l’effet de cadrage. Avec les mêmes données, si on change la manière de les exprimer, la conclusion peut être totalement différente.

L’expérience de DeepMind révèle que lorsque l’IA d’achat est placée dans un contexte rempli de mots comme « anxiété » et « pression », la qualité nutritionnelle des produits qu’elle choisit baisse de manière significative.

DeepMind propose aussi un concept encore plus étrange : « Hyperstition de la personnalité » (Persona Hyperstition). Les descriptions en ligne d’une caractéristique de personnalité d’une IA sont renvoyées vers le système d’IA via les données de recherche et d’entraînement, ce qui finit par façonner son comportement en retour.

La polémique sur des propos antisémites de Grok en juillet 2025 est considérée comme un exemple concret de ce mécanisme.

Les attaquants emballent les instructions malveillantes dans des formulations comme « simulation d’audit de sécurité » ou « recherche académique ». Le taux de réussite de ce type d’attaque par « jeu de rôle » dans les tests atteint même 86 %.

Altérer la mémoire de l’IA

C’est la menace la plus durable, car elle permet à l’IA de produire de « fausses mémoires ».

Par exemple, il est possible d’empoisonner les connaissances RAG.

Aujourd’hui, beaucoup d’IA s’appuient sur des bases de données externes (RAG) pour répondre aux questions. L’attaquant n’a qu’à insérer dans la base quelques « documents de référence » soigneusement falsifiés, et l’IA va ensuite considérer ces mensonges comme des faits et les citer à répétition.

De plus, il existe aussi un empoisonnement de mémoire en embuscade.

Enregistrer dans la mémoire à long terme de l’IA des informations qui semblent inoffensives ; seules, dans un contexte précis futur, ces informations « reviennent à la vie » et déclenchent des comportements malveillants.

Les résultats d’expériences montrent qu’il suffit d’un taux de pollution de données inférieur à 0,1 % pour que le taux de réussite dépasse 80 %, avec presque aucun impact sur les requêtes normales.

S’emparer directement du contrôle

C’est l’étape la plus dangereuse : elle vise à forcer l’IA à exécuter des opérations illégales.

Par injection de prompts indirects, on pousse un agent d’IA disposant d’autorisations système à rechercher puis renvoyer au client les mots de passe, les informations bancaires ou des fichiers locaux.

Si ton agent d’IA est un « commandant », on peut le tromper pour qu’il crée un agent « traître » contrôlé par l’attaquant, qui se cache dans ton processus d’automatisation.

Dans une étude de cas, un email soigneusement conçu a permis à Microsoft M365 Copilot de contourner les classifieurs internes, et de fuiter l’ensemble des données de contexte vers un terminal Teams contrôlé par l’intrus. Dans un autre test visant cinq assistants de programmation par IA différents, le taux de réussite du vol de données dépasse 80 %.

Une fausse nouvelle déclenche une cascade de mille Agents

La cinquième catégorie est une menace systémique, et aussi la plus inquiétante.

Elle ne vise pas un seul Agent, mais utilise le comportement homogène d’un grand nombre d’Agents pour produire des réactions en chaîne. Les chercheurs de DeepMind ont fait directement l’analogie avec le « flash crash » de 2010 : une vente automatique a causé une évaporation de près d’un billion de dollars de capitalisation boursière en 45 minutes.

Quand des millions d’agents d’IA surfent sur le web en même temps, les attaquants peuvent provoquer une catastrophe systémique en exploitant leur homogénéité (tout le monde utilise GPT ou Claude).

Si l’on diffuse un signal trompeur de « ressource à forte valeur », on peut inciter tous les agents d’IA à affluer instantanément vers la même cible, provoquant une attaque de déni de service distribué (DDoS) artificielle.

Un rapport financier soigneusement falsifié est publié à un instant précis : des milliers d’agents financiers utilisant une architecture et des fonctions de récompense similaires déclenchent simultanément des actions de vente. L’action de l’Agent A modifie le signal du marché ; après avoir perçu le changement, l’Agent B suit, amplifiant encore davantage la volatilité.

C’est comme un « flash crash » sur le marché financier : une mauvaise décision d’un AI provoque une réaction en chaîne d’un autre AI, et finit par paralyser l’ensemble de l’écosystème des agents.

Pointer « le canon » vers toi, juste derrière l’écran

C’est le piège le plus avancé : utiliser l’IA pour manipuler les humains derrière l’écran.

L’IA génère volontairement une énorme quantité de rapports qui semblent professionnels, mais contiennent en réalité des pièges, ce qui endort la vigilance des humains dans la fatigue, jusqu’à ce qu’ils signent sur ce « bordereau de confirmation » qui cache le piège.

Il existe des enregistrements d’incidents montrant que l’injection de prompt cachée par CSS fait que l’outil de résumé de l’IA emballe les étapes d’installation d’un ransomware en « recommandations de réparation », envoyées aux utilisateurs ; puis, l’utilisateur suit et exécute.

Trois lignes de défense, toutes percées

L’évaluation que l’équipe de DeepMind fait des défenses existantes est la partie la plus froide de toute l’étude.

Les « filtres d’entrée » traditionnels sont souvent insuffisants face à des pièges au niveau du pixel et du code, et hautement dissimulés sémantiquement.

Pire encore, il existe aujourd’hui une « asymétrie de détection » : les sites peuvent facilement reconnaître si le visiteur est une IA ou un humain, et fournir deux ensembles de contenus totalement différents selon l’identité.

Les humains voient des pages « benign (bénignes) » ; l’IA voit des pages « toxic (toxiques) ». Dans ce cas, la supervision humaine échoue complètement, car tu ne sais tout simplement pas ce que l’IA a réellement lu.

L’équipe de recherche souligne aussi une faille juridique fondamentale.

Si un système d’IA compromis exécute des transactions financières illégales, le droit en vigueur ne peut pas déterminer qui doit en assumer les conséquences.

Ce problème reste en suspens, ce qui empêche une IA autonome d’entrer véritablement dans n’importe quel secteur réglementé.

En fait, OpenAI a reconnu dès décembre 2025 que l’injection de prompt « pourrait ne jamais être entièrement résolue ».

De la façon dont Claude contourne de manière autonome la limite des autorisations, au panorama en six catégories des menaces dessiné par DeepMind : tout pointe vers la même réalité.

Internet a été construit pour les yeux des humains. À présent, il est en train d’être transformé pour servir les robots.

À mesure que les agents d’IA s’enfoncent progressivement dans notre finance, notre santé et notre bureautique quotidienne, ces « pièges » ne seront plus seulement des démonstrations techniques, mais pourraient devenir des barils de poudre susceptibles de provoquer des pertes réelles de biens, voire des troubles sociaux.

Le rapport de DeepMind est un signal d’alarme urgent : nous ne pouvons pas attendre d’avoir construit une « économie des agents » très puissante avant de réparer sa base criblée de trous.

Références :

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.