OpenAI Lanza Conjunto de Datos IH-Challenge para Fortalecer la IA Contra Ataques de Inyección de Prompts

Iris Coleman

21 de marzo de 2026 00:05

OpenAI ha lanzado IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo diseñado para enseñar a los modelos de IA a priorizar instrucciones confiables sobre las maliciosas. El conjunto de datos, publicado el 19 de marzo de 2026 junto con un artículo en arXiv, logró una mejora de hasta el 15% en las puntuaciones de referencia que miden la resistencia a ataques de inyección de prompts.

El lanzamiento aborda una vulnerabilidad fundamental en los grandes modelos de lenguaje: cuando las instrucciones de diferentes fuentes entran en conflicto, los modelos pueden ser engañados para seguir la incorrecta. Esa es la causa raíz de los jailbreaks, la extracción de prompts del sistema y los ataques de inyección de prompts cada vez más sofisticados que afectan a los sistemas de IA agentica.

El problema de la jerarquía

Los modelos de OpenAI siguen un orden de confianza estricto: Sistema > Desarrollador > Usuario > Herramienta. Cuando un usuario pregunta algo que viola una política de seguridad a nivel de sistema, el modelo debe negarse. Cuando una herramienta de scraping web devuelve contenido con instrucciones maliciosas incrustadas, el modelo debe ignorarlas.

Suena simple. En la práctica, ha sido una pesadilla entrenar de manera confiable.

Los enfoques previos usando aprendizaje por refuerzo enfrentaron tres problemas. Primero, los modelos fallaban en las pruebas de jerarquía de instrucciones no porque no entendieran la jerarquía, sino porque las instrucciones en sí eran demasiado complejas. Segundo, determinar la respuesta “correcta” en conflictos ambiguos resultaba subjetivo—incluso los jueces de IA se equivocaban. Tercero, los modelos aprendieron atajos como rechazar todo, lo que maximiza las puntuaciones de seguridad pero destruye la utilidad.

Lo que realmente hace IH-Challenge

El conjunto de datos evita estos obstáculos mediante tareas deliberadamente simples. Cada escenario presenta una instrucción de alto privilegio (“Responde solo ‘Sí’ o ‘No’”) seguida de un mensaje de menor privilegio que intenta anularla. Un script en Python—no un juez de IA falible—evalúa si la respuesta del modelo respetó la restricción de mayor prioridad.

Sin ambigüedades. Sin atajos que funcionen en todas las tareas.

OpenAI entrenó un modelo interno llamado GPT-5 Mini-R con el conjunto de datos. Los resultados en benchmarks académicos y internos muestran ganancias consistentes:

Las puntuaciones de conflicto entre desarrollador y usuario en TensorTrust aumentaron de 0.76 a 0.91 (+0.15). La resolución de conflictos entre sistema y usuario mejoró de 0.84 a 0.95 (+0.11). La gestión de conflictos entre desarrollador y usuario subió de 0.83 a 0.95 (+0.12).

Lo más importante, el modelo entrenado no se volvió menos útil. Las tasas de rechazo excesivo mejoraron, ya que el modelo ahora distingue mejor entre amenazas reales y solicitudes benignas. Las puntuaciones en GPQA Diamond y AIME 2024 se mantuvieron estables, aunque la tasa de victoria en chat frente a o1 bajó ligeramente de 0.71 a 0.66.

Implicaciones de seguridad en el mundo real

El beneficio práctico se refleja en dos áreas. La capacidad de dirigir la seguridad mejoró: cuando se añadieron especificaciones de seguridad específicas por categoría a los prompts del sistema, el modelo entrenado con IH alcanzó tasas de rechazo más altas en contenido no permitido sin volverse menos útil en general.

La resistencia a la inyección de prompts también se fortaleció. En CyberSecEval 2 y en el benchmark interno de OpenAI (basado en ataques que anteriormente funcionaban contra ChatGPT Atlas), el modelo entrenado superó significativamente la línea base.

OpenAI ha puesto a disposición pública el conjunto de datos IH-Challenge en Hugging Face. Para los desarrolladores que construyen sistemas agenticos que llaman a herramientas, leen documentos no confiables y toman acciones en el mundo real, esto aborda uno de los problemas más difíciles sin resolver en la seguridad de IA.

El momento es crucial. A medida que los agentes de IA ganan autonomía, la capacidad de priorizar instrucciones confiables de manera constante pasa de ser un complemento a un requisito previo para su despliegue.

Fuente de la imagen: Shutterstock

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado