Los hallazgos alarmantes de Mythos de Anthropic se replican con IA de uso general, dicen los investigadores

En resumen

  • Los investigadores muestran que las explotaciones al estilo Anthropic pueden reproducirse con IA pública, afirman los informes.
  • El estudio sugiere que el descubrimiento de vulnerabilidades ya es barato y ampliamente accesible.
  • Los hallazgos indican que las capacidades cibernéticas de la IA podrían estar extendiéndose más rápido de lo esperado.

Cuando Anthropic presentó Claude Mythos a principios de este mes, bloqueó el modelo tras una coalición verificada de gigantes tecnológicos y lo enmarcó como algo demasiado peligroso para el público. El Secretario del Tesoro Scott Bessent y el Presidente de la Fed Jerome Powell convocaron una reunión de emergencia con CEOs de Wall Street. La palabra “vulnpocalipsis” resurgió en círculos de seguridad. Y ahora un equipo de investigadores ha complicado aún más esa narrativa. Vidoc Security tomó los ejemplos públicos parchados de Anthropic y trató de reproducirlos usando GPT-5.4 y Claude Opus 4.6 dentro de un agente de codificación de código abierto llamado opencode. Sin invitación a Glasswing. Sin acceso a API privada. Sin pila interna de Anthropic. “Repliqué los hallazgos de Mythos en opencode usando modelos públicos, no la pila privada de Anthropic,” escribió Dawid Moczadło, uno de los investigadores involucrados en el experimento, en X tras publicar los resultados. “Una mejor forma de entender el lanzamiento de Mythos de Anthropic no es ‘un laboratorio tiene un modelo mágico’. Es: la economía del descubrimiento de vulnerabilidades está cambiando.”

Repliqué los hallazgos de Mythos en opencode usando modelos públicos, no la pila privada de Anthropic.

La brecha se está moviendo de acceso al modelo a validación: encontrar señales de vulnerabilidad se vuelve más barato; convertirlo en seguridad confiable

Una mejor forma de entender el lanzamiento de Mythos de Anthropic es… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 de abril de 2026

Los casos que abordaron fueron los mismos que Anthropic destacó en sus materiales públicos: un protocolo de compartición de archivos en servidor, la pila de red de un sistema operativo enfocado en seguridad, el software de procesamiento de video integrado en casi todas las plataformas multimedia, y dos bibliotecas criptográficas usadas para verificar identidades digitales en la web. Tanto GPT-5.4 como Claude Opus 4.6 reprodujeron dos casos de errores en las tres ejecuciones cada uno. Claude Opus 4.6 también redescubrió independientemente un error en OpenBSD tres veces seguidas, mientras que GPT-5.4 no obtuvo puntos en ese caso. Algunos errores (uno relacionado con la biblioteca FFmpeg para reproducir videos y otro relacionado con el procesamiento de firmas digitales con wolfSSL) regresaron de forma parcial—es decir, los modelos encontraron la superficie del código correcto pero no identificaron la causa raíz exacta.

Imagen: Vidoc Security

Cada escaneo se mantuvo por debajo de $30 por archivo, lo que significa que los investigadores pudieron encontrar las mismas vulnerabilidades que Anthropic gastando menos de $30 en hacerlo.

“Los modelos de IA ya son lo suficientemente buenos para reducir el espacio de búsqueda, detectar pistas reales y, a veces, recuperar toda la causa raíz en código probado en batalla,” dijo Moczadło en X. El flujo de trabajo que usaron no fue una sola instrucción. Imitó lo que Anthropic describió públicamente: dar al modelo una base de código, dejar que explore, paralelizar intentos, filtrar por señal. El equipo de Vidoc construyó la misma arquitectura con herramientas abiertas. Un agente de planificación dividió cada archivo en fragmentos. Un agente de detección separado se ejecutó en cada fragmento, luego inspeccionó otros archivos del repositorio para confirmar o descartar hallazgos. Los rangos de línea dentro de cada instrucción de detección—por ejemplo, “enfóquese en las líneas 1158-1215”—no fueron elegidos manualmente por los investigadores. Fueron salidas del paso previo de planificación. La publicación del blog lo explica claramente: “Queremos ser explícitos al respecto porque la estrategia de fragmentación moldea lo que cada agente de detección ve, y no queremos presentar el flujo de trabajo como más curado manualmente de lo que fue.” El estudio no afirma que los modelos públicos igualen a Mythos en todo. El modelo de Anthropic fue más allá que solo detectar el error en FreeBSD—construyó un esquema de ataque funcional, averiguando cómo un atacante podría encadenar fragmentos de código a través de múltiples paquetes de red para tomar control completo de la máquina de forma remota. Los modelos de Vidoc encontraron la falla. No construyeron el arma. Ahí radica la verdadera brecha: no en encontrar el agujero, sino en saber exactamente cómo atravesarlo. Pero el argumento de Moczadło no es realmente que los modelos públicos sean igualmente poderosos. Es que la parte costosa del flujo de trabajo ahora está disponible para cualquiera con una clave API: “La brecha se está moviendo de acceso al modelo a validación: encontrar señales de vulnerabilidad se vuelve más barato; convertirlo en trabajo de seguridad confiable todavía es difícil.” El propio informe de seguridad de Anthropic reconoció que Cybench, la referencia utilizada para medir si un modelo representa un riesgo cibernético serio, “ya no es suficientemente informativa de las capacidades actuales de los modelos de frontera” porque Mythos lo superó por completo. El laboratorio estimó que capacidades comparables se extenderían desde otros laboratorios de IA en seis a 18 meses. El estudio de Vidoc sugiere que el lado del descubrimiento de esa ecuación ya está disponible fuera de cualquier programa restringido. Sus fragmentos completos de instrucciones, salidas del modelo y apéndice metodológico están publicados en el sitio oficial del laboratorio.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado