El creador de ChatGPT, OpenAI, y la firma de inversión centrada en criptomonedas Paradigm han presentado EVMbench, una herramienta para mejorar la seguridad de los contratos inteligentes en la Máquina Virtual de Ethereum. EVMbench está diseñada para evaluar la capacidad de los agentes de IA para detectar, parchear y explotar vulnerabilidades de alta gravedad en contratos inteligentes de la Máquina Virtual de Ethereum (EVM). Los contratos inteligentes son el corazón de la red de Ethereum, conteniendo el código que impulsa todo, desde protocolos de finanzas descentralizadas hasta lanzamientos de tokens. Según Token Terminal, el número semanal de contratos inteligentes desplegados en Ethereum alcanzó un máximo histórico de 1.7 millones en noviembre de 2025, con 669,500 desplegados solo la semana pasada.
EVMbench se basa en 120 vulnerabilidades seleccionadas de 40 auditorías, la mayoría provenientes de competencias abiertas de auditoría como Code4rena, según una publicación en el blog de OpenAI. También incluye escenarios del proceso de auditoría de seguridad para Tempo, la blockchain de capa 1 diseñada por Stripe, centrada en pagos con stablecoins de alto rendimiento y bajo costo. El gigante de pagos Stripe lanzó la red de prueba pública de Tempo en diciembre, afirmando en ese momento que se construía con aportes de Visa, Shopify y OpenAI, entre otros. El objetivo es fundamentar las pruebas en código del mundo real y económicamente relevante, especialmente a medida que los pagos con stablecoins impulsados por IA se expanden, añadió la firma.
Presentamos EVMbench, un nuevo estándar que mide qué tan bien pueden detectar, explotar y parchear vulnerabilidades de alta gravedad en contratos inteligentes los agentes de IA. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 de febrero de 2026
EVMbench está diseñado para evaluar modelos de IA en tres modos: Detectar, parchear y explotar. En “detectar,” los agentes auditan repositorios y se les califica por su capacidad de recordar vulnerabilidades reales. En “parchear,” los agentes deben eliminar vulnerabilidades sin romper la funcionalidad prevista. Finalmente, en la fase de “explotar,” los agentes intentan ataques completos de drenaje de fondos en un entorno de blockchain aislado, con la calificación basada en la reproducción determinista de transacciones. En modo de explotación, GPT-5.3-Codex, ejecutándose a través de la CLI de Codex de OpenAI, logró una puntuación del 72.2%, en comparación con el 31.9% de GPT-5, que fue lanzado seis meses antes. El rendimiento fue menor en las tareas de detección y parcheo, donde los agentes a veces no auditaron exhaustivamente o tuvieron dificultades para mantener toda la funcionalidad del contrato. Los investigadores de OpenAI, creadores de ChatGPT, advirtieron que EVMbench no captura completamente la complejidad de la seguridad en el mundo real. Sin embargo, añadieron que medir el rendimiento de la IA en entornos económicamente relevantes es fundamental a medida que los modelos se convierten en herramientas poderosas tanto para atacantes como para defensores. Sam Altman de OpenAI y Vitalik Buterin, cofundador de Ethereum, ya habían tenido desacuerdos sobre el ritmo del desarrollo de la IA. En enero de 2025, Altman afirmó que su firma estaba “segura de saber cómo construir una AGI como la hemos entendido tradicionalmente.” Pero Buterin abogó por que los sistemas de IA incluyeran una capacidad de “pausa suave” que pudiera restringir temporalmente operaciones de IA a escala industrial si surgían señales de advertencia.
Artículos relacionados
ETH cae por debajo de $2K mientras los comerciantes señalan un mayor descenso
Predicción del Precio de Ethereum: ¿Hacia Dónde se Dirige ETH Si se Pierde el Soporte de $2K para Siempre?
Predicciones de precios 3/27: BTC, ETH, BNB, XRP, SOL, DOGE, HYPE, ADA, BCH, LINK
Las buenas y malas noticias para Ethereum (ETH) después de caer por debajo de $2K
ETH subió un 1.27% en 15 minutos: la entrada neta de fondos ETF y la acumulación de instituciones impulsan el aumento principal.