OpenAI y Paradigm lanzan EVMbench para la seguridad de Ethereum

ETH1,27%
  • OpenAI y Paradigm crearon EVMbench a partir de 120 vulnerabilidades reales detectadas en auditorías.

  • Las pruebas de referencia evalúan a la IA en modos de detección, parcheo y explotación utilizando entornos sandbox de EVM.

  • GPT-5.3-Codex obtuvo una puntuación del 72,2 % en modo de explotación, superando los resultados anteriores de GPT-5.

OpenAI, en colaboración con Paradigm, presentó un nuevo estándar para evaluar el rendimiento de la IA en la seguridad de contratos inteligentes en Ethereum. El lanzamiento, anunciado esta semana, introdujo EVMbench como una forma de medir cómo los agentes de IA detectan, corrigen y explotan fallos en los contratos. El esfuerzo responde a los riesgos crecientes, ya que los contratos inteligentes aseguran más de 100 mil millones de dólares en activos criptográficos en redes EVM.

Estándar basado en fallos reales de auditoría

Según OpenAI, EVMbench se basa en 120 vulnerabilidades de alta gravedad identificadas en 40 auditorías profesionales de contratos inteligentes. Es importante destacar que muchos de estos problemas provienen de concursos de auditoría abiertos, como Code4rena. El estándar se centra en errores reales en lugar de ejemplos sintéticos.

Además, OpenAI indicó que el conjunto de datos incluye escenarios relacionados con trabajos de seguridad en la cadena Tempo. Tempo funciona como una red Layer-1 enfocada en pagos, diseñada para transferencias de stablecoins. Debido a esto, estos casos introducen riesgos de lógica de pagos en el entorno de prueba.

Para apoyar pruebas realistas, los ingenieros reutilizaron scripts de prueba de concepto para exploits cuando estaban disponibles. Sin embargo, construyeron manualmente los componentes faltantes cuando la documentación era incompleta. OpenAI afirmó que se preservó la capacidad de explotación mientras se aseguraba que los parches pudieran compilarse correctamente.

Tres modos de prueba que desafían a los agentes de IA

EVMbench evalúa a los agentes en modos de detección, parcheo y explotación. En modo de detección, los agentes escanean repositorios y reciben puntuaciones basadas en la recuperación de vulnerabilidades confirmadas. En modo de parcheo, los agentes deben corregir fallos manteniendo el comportamiento original del contrato.

El modo de explotación, sin embargo, simula ataques completos de drenaje de fondos en una blockchain sandbox. OpenAI indicó que los evaluadores confirman los resultados mediante la reproducción de transacciones y verificaciones del estado en cadena. Para garantizar la consistencia, la compañía desarrolló una herramienta en Rust para despliegues deterministas.

Las pruebas de explotación se ejecutan en un entorno local Anvil, no en redes en vivo. OpenAI señaló que todas las vulnerabilidades son históricas y de conocimiento público. Además, la herramienta restringe llamadas RPC inseguras para reducir el uso indebido.

Resultados y expansión del equipo

En los resultados reportados, GPT-5.3-Codex logró una puntuación del 72,2 % en modo de explotación. En comparación, GPT-5 alcanzó un 31,9 %, a pesar de haberse lanzado meses antes. Sin embargo, OpenAI afirmó que la cobertura en detección y parcheo aún no está completa.

Junto con EVMbench, OpenAI confirmó una incorporación clave. Peter Steinberger, fundador de OpenClaw, se unió a la empresa para trabajar en el desarrollo de agentes. Sam Altman confirmó el movimiento en X, señalando que Steinberger liderará proyectos de agentes personales de próxima generación.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

ETH rompe 2100 dólares, ganancia diaria de 0.62%

Noticia de Gate News: Al 15 de marzo, en el momento de la redacción, ETH ha superado los 2100 dólares, con un aumento diario del 0.62%.

GateNewshace1h

Vitalik Buterin respalda nueva actualización para simplificar el software de nodos de Ethereum

Vitalik Buterin, cofundador de Ethereum, presentó una propuesta el sábado para fusionar los programas de backend que impulsan la capa de consenso de la Cadena de Baliza de Ethereum con la capa de ejecución en una única base de código. La intención es eliminar la complejidad innecesaria de la operación de nodos y reducir las barreras para

CryptoBreakinghace1h
Comentar
0/400
Sin comentarios