Les découvertes alarmantes d'Anthropic sur le mythe ont été reproduites avec une IA prête à l'emploi, selon les chercheurs

En résumé

  • Des chercheurs montrent que des exploits de style Anthropic peuvent être reproduits avec une IA publique, selon un rapport.
  • L’étude suggère que la découverte de vulnérabilités est déjà peu coûteuse et largement accessible.
  • Les résultats indiquent que les capacités cybernétiques de l’IA pourraient se répandre plus rapidement que prévu.

Lorsque Anthropic a dévoilé Claude Mythos plus tôt ce mois-ci, il a verrouillé le modèle derrière une coalition vérifiée de géants de la technologie et l’a présenté comme quelque chose de trop dangereux pour le public. Le secrétaire au Trésor Scott Bessent et le président de la Fed Jerome Powell ont convoqué une réunion d’urgence avec les PDG de Wall Street. Le mot « vulnpocalypse » a refait surface dans les cercles de sécurité. Et maintenant, une équipe de chercheurs a encore compliqué cette narration. Vidoc Security a pris les exemples publics corrigés par Anthropic lui-même et a tenté de les reproduire en utilisant GPT-5.4 et Claude Opus 4.6 dans un agent de codage open-source appelé opencode. Pas d’invitation Glasswing. Pas d’accès API privé. Pas de stack interne d’Anthropic. « Nous avons reproduit les résultats de Mythos dans opencode en utilisant des modèles publics, pas la stack privée d’Anthropic », a écrit Dawid Moczadło, l’un des chercheurs impliqués dans l’expérience, sur X après avoir publié les résultats. « Une meilleure façon de lire la sortie Mythos d’Anthropic n’est pas ‘un laboratoire possède un modèle magique’. C’est : l’économie de la découverte de vulnérabilités change. »

Nous avons reproduit les résultats de Mythos dans opencode en utilisant des modèles publics, pas la stack privée d’Anthropic.

La barrière passe de l’accès au modèle à la validation : trouver un signal de vulnérabilité devient moins cher ; le transformer en sécurité fiable

Une meilleure façon de lire la sortie Mythos d’Anthropic est… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 avril 2026

Les cas qu’ils ont ciblés étaient les mêmes que ceux mis en avant par Anthropic dans ses documents publics : un protocole de partage de fichiers sur serveur, la pile réseau d’un OS axé sur la sécurité, le logiciel de traitement vidéo intégré dans presque toutes les plateformes média, et deux bibliothèques cryptographiques utilisées pour vérifier les identités numériques sur le web. Les deux modèles, GPT-5.4 et Claude Opus 4.6, ont reproduit deux cas de bugs dans chacun des trois essais. Claude Opus 4.6 a aussi redécouvert indépendamment un bug dans OpenBSD trois fois de suite, tandis que GPT-5.4 n’a obtenu aucun score sur celui-là. Certains bugs (, dont un impliquant la bibliothèque FFmpeg pour lire des vidéos et un autre concernant le traitement des signatures numériques avec wolfSSL), sont revenus partiels — c’est-à-dire que les modèles ont trouvé la surface du code correcte mais n’ont pas identifié la cause racine précise.

Image : Vidoc Security

Chaque scan est resté en dessous de $30 par fichier, ce qui signifie que les chercheurs ont pu trouver les mêmes vulnérabilités qu’Anthropic tout en dépensant moins que $30 pour le faire.

« Les modèles d’IA sont déjà suffisamment performants pour réduire l’espace de recherche, faire émerger de véritables pistes, et parfois retrouver la cause racine complète dans un code éprouvé », a déclaré Moczadło sur X. Le processus qu’ils ont utilisé n’était pas une simple invite unique. Il a imité ce que Anthropic lui-même a décrit publiquement : donner au modèle une base de code, le laisser explorer, paralléliser les tentatives, filtrer le signal. L’équipe Vidoc a construit la même architecture avec des outils open-source. Un agent de planification divise chaque fichier en morceaux. Un agent de détection distinct s’exécute sur chaque morceau, puis inspecte d’autres fichiers du dépôt pour confirmer ou infirmer les découvertes. Les plages de lignes dans chaque invite de détection — par exemple, « se concentrer sur les lignes 1158-1215 » — n’ont pas été choisies manuellement par les chercheurs. Elles proviennent des étapes de planification précédentes. Le billet de blog le précise explicitement : « Nous voulons être clairs à ce sujet car la stratégie de découpage façonne ce que chaque agent de détection voit, et nous ne voulons pas présenter le workflow comme étant plus manuellement curaté qu’il ne l’était. » L’étude ne prétend pas que les modèles publics égalent Mythos sur tout. Le modèle d’Anthropic est allé plus loin que simplement repérer le bug de FreeBSD — il a construit un plan d’attaque fonctionnel, en déterminant comment un attaquant pourrait enchaîner des fragments de code à travers plusieurs paquets réseau pour prendre le contrôle complet de la machine à distance. Les modèles de Vidoc ont trouvé la faille. Ils n’ont pas construit l’arme. C’est là que réside la véritable différence : pas dans la détection de la faille, mais dans la connaissance précise de comment la franchir. Mais l’argument de Moczadło n’est pas vraiment que les modèles publics sont aussi puissants. C’est que la partie coûteuse du processus est désormais accessible à quiconque possède une clé API : « La barrière passe de l’accès au modèle à la validation : trouver un signal de vulnérabilité devient moins cher ; le transformer en sécurité fiable reste difficile. » Le rapport de sécurité d’Anthropic lui-même reconnaissait que Cybench, la référence utilisée pour mesurer si un modèle présente un risque cybernétique sérieux, « n’est plus suffisamment informatif sur les capacités des modèles de l’avant-garde » car Mythos l’a entièrement dépassé. Le laboratoire estimait que des capacités comparables se répandraient d’autres laboratoires d’IA dans un délai de six à 18 mois. L’étude de Vidoc suggère que le côté découverte de cette équation est déjà accessible en dehors de tout programme fermé. Leurs extraits complets d’invites, sorties de modèles, et annexe méthodologique sont publiés sur le site officiel du laboratoire.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler