OpenAI et Paradigm ont créé EVMbench à partir de 120 vulnérabilités réelles d’audit.
Les tests de référence évaluent l’IA en modes détection, correction et exploitation en utilisant des environnements EVM isolés.
GPT-5.3-Codex a obtenu un score de 72,2 % en mode exploitation, surpassant les résultats antérieurs de GPT-5.
OpenAI, en collaboration avec Paradigm, a dévoilé une nouvelle référence pour tester la performance de l’IA sur la sécurité des contrats intelligents Ethereum. La sortie, annoncée cette semaine, a introduit EVMbench comme un moyen de mesurer comment les agents IA détectent, corrigent et exploitent les failles des contrats. L’initiative vise à répondre à la montée des risques, alors que les contrats intelligents sécurisent plus de 100 milliards de dollars d’actifs cryptographiques sur les réseaux EVM.
Selon OpenAI, EVMbench s’appuie sur 120 vulnérabilités de haute gravité identifiées lors de 40 audits professionnels de contrats intelligents. Notamment, bon nombre de ces problèmes proviennent de concours d’audit ouverts, notamment Code4rena. La référence se concentre sur de véritables bugs plutôt que sur des exemples synthétiques.
De plus, OpenAI indique que l’ensemble de données inclut des scénarios liés à des travaux de sécurité sur la chaîne Tempo. Tempo fonctionne comme un réseau Layer-1 axé sur les paiements, conçu pour les transferts de stablecoins. En conséquence, ces cas introduisent des risques liés à la logique de paiement dans l’environnement de référence.
Pour soutenir des tests réalistes, les ingénieurs ont réutilisé des scripts de preuve de concept d’exploitation lorsque disponibles. Cependant, ils ont construit manuellement les composants manquants lorsque la documentation était incomplète. OpenAI affirme avoir préservé la possibilité d’exploitation tout en assurant que les correctifs pouvaient se compiler correctement.
EVMbench évalue les agents en modes détection, correction et exploitation. En mode détection, les agents analysent des dépôts et reçoivent des scores basés sur la recall des vulnérabilités confirmées. En mode correction, ils doivent réparer les failles tout en conservant le comportement original du contrat.
Le mode exploitation, quant à lui, simule des attaques complètes de drain de fonds dans une blockchain sandbox. OpenAI indique que les évaluateurs confirment les résultats par la relecture des transactions et des vérifications de l’état sur la chaîne. Pour garantir la cohérence, la société a développé un environnement de déploiement déterministe basé sur Rust.
Les tests d’exploitation s’effectuent dans un environnement Anvil local, et non sur des réseaux en direct. OpenAI précise que toutes les vulnérabilités sont historiques et publiquement divulguées. De plus, l’environnement limite les appels RPC non sécurisés pour réduire les abus.
Dans les résultats rapportés, GPT-5.3-Codex a obtenu un score de 72,2 % en mode exploitation. En comparaison, GPT-5 a atteint 31,9 %, malgré son lancement plusieurs mois plus tôt. Cependant, OpenAI indique que la couverture en détection et correction reste incomplète.
Par ailleurs, en plus d’EVMbench, OpenAI a confirmé une embauche clé. Peter Steinberger, fondateur d’OpenClaw, a rejoint l’entreprise pour travailler sur le développement d’agents. Sam Altman a confirmé ce mouvement sur X, précisant que Steinberger dirigera les projets d’agents personnels de nouvelle génération.
Articles similaires
# Flux de Trésorerie des ETF Crypto Semaine 16-20/3 : Bitcoin Poursuit sa Tendance de Croissance, Ethereum Enregistre des Sorties Nettes de Capitaux
NYSE lève complètement les restrictions sur les options des ETF Bitcoin et Ethereum! La limite de 25 000 contrats est annulée, et l'espace de manœuvre pour les fonds institutionnels s'élargit considérablement
Le Trésor USDC a brûlé 50 millions d'USDC sur la chaîne Ethereum
La semaine dernière, l'ETF au comptant Ethereum a enregistré des sorties nettes de 59,94 millions de dollars, tandis que l'ETHA de BlackRock a enregistré des sorties nettes de 69,58,65 millions de dollars.
Comment les petits investisseurs peuvent-ils investir dans OpenAI ? Analyse des positions indirectes avant l'IPO
Un détenteur précoce d'ETH de 2016 qui a été inactif pendant un an a déposé 15 000 ETH vers un certain CEX, avec un coût de détention d'environ 11,61 dollars.