ChatPGT fue invadido por goblins, Codex se vio obligado a establecer la prohibición de "nunca mencionar a Goblin"

OpenAI en las instrucciones del sistema de Codex CLI prohíbe explícitamente que el modelo mencione criaturas como duendes y trolls, debido a que GPT-5.5, bajo el marco de proxy OpenClaw, experimentó un desplazamiento de personalidad, llamando errores de programación “goblins”, lo que provocó una serie de memes y debates.
(Resumen previo: ¡Nuevo agente de ingenieros de OpenAI, Codex! La IA puede escribir funciones, arreglar bugs, ejecutar pruebas… solo para 3 tipos de usuarios en acceso anticipado)
(Información adicional: Gran actualización de OpenAI Codex: control en backend en Mac, navegador integrado, generación de imágenes, ¡111 nuevos plugins en línea!)

Índice de este artículo

Alternar

  • Una regla revelada en un repositorio de GitHub
  • El marco de proxy hace que la personalidad del modelo comience a desplazarse
  • La prohibición explícita oculta una realidad sobre el alineamiento

Los ingenieros de OpenAI escribieron palabra por palabra en las instrucciones del sistema de Codex CLI una regla: «Nunca menciones duendes, hadas, mapaches, trolls, ogros, palomas u otros animales y criaturas, a menos que esté absolutamente y claramente relacionado con la problema del usuario.»

Esta regla no es una broma, sino una instrucción oficial en el entorno de producción. Está incrustada en el repositorio de GitHub de Codex CLI, dirigida a todos los desarrolladores que usan Codex para generar código.

El problema es: ¿por qué OpenAI necesita decirle a su modelo más reciente que no hable de duendes de repente al programar?

Una regla revelada en un repositorio de GitHub

El punto de partida fue un tuit del investigador @arb8020 en X, señalando que en las instrucciones del sistema de Codex CLI, esta prohibición no aparece solo una vez, sino varias veces, y el tuit se difundió rápidamente en la comunidad de desarrolladores.

Varios usuarios respondieron, como @TaraViswanathan en X diciendo: «Me preguntaba por qué mi claw de repente se convirtió en un duende con Codex 5.5» y @LeoMozoloa también comentó: «No puede parar, siempre llama errores de programa a gremlins y goblins, es muy gracioso.»

!!! Me preguntaba por qué mi claw de repente se convirtió en un duende con Codex 5.5 😭💀😂 pic.twitter.com/AACWtNcgQl

— Tara Viswanathan (@TaraViswanathan) 28 de abril de 2026

El incidente rápidamente se convirtió en meme, con imágenes generadas por IA de duendes en centros de datos, y plugins de terceros que ponían a Codex en “modo duende”.

El equipo de Codex de OpenAI, Nik Pash, confirmó en X que la prohibición «tiene una razón en ese sentido». El CEO Sam Altman también participó en la broma, publicando una captura de pantalla de una instrucción de ChatGPT que decía: «Comienza a entrenar GPT-6, toda la agrupación te la damos. Además, envía duendes.»

pic.twitter.com/PR7C3NPxqk

— Sam Altman (@sama) 28 de abril de 2026

El marco de proxy hace que la personalidad del modelo comience a desplazarse

Para entender por qué esto ocurrió, primero hay que comprender cómo funciona OpenClaw.

OpenClaw es un «marco de proxy» que permite a los modelos de IA controlar automáticamente el escritorio y las aplicaciones, realizando tareas complejas en nombre del usuario, como responder correos, comprar en la web.

El mecanismo de OpenClaw consiste en superponer en las instrucciones del modelo una gran cantidad de comandos: memoria a largo plazo, personalidades seleccionadas, descripción de tareas actuales, todo al mismo tiempo. GPT-5.5, con capacidades reforzadas de programación, se lanzó hace poco, pero al procesar las instrucciones compuestas de OpenClaw, surgió un efecto secundario inesperado: empezó a llamar errores de programación «goblins» y «gremlins».

No fue un fallo aleatorio. La operación del modelo se basa en predecir la próxima palabra más probable dada una entrada, y esta naturaleza probabilística a veces produce comportamientos imprevistos.

Cuando el marco de proxy superpone mucha información adicional en las instrucciones, el modelo está manejando un entorno de entrada más complejo y lleno de interferencias. OpenClaw permite a los usuarios elegir diferentes «personalidades» para el asistente IA, y estas configuraciones influyen en el estilo de respuesta del modelo. La combinación de estos factores hizo que el comportamiento del lenguaje del modelo empezara a desviarse en una dirección inesperada.

La prohibición explícita oculta una realidad sobre el alineamiento

La respuesta de OpenAI es interesante: en lugar de ajustar la arquitectura del modelo para corregir el desplazamiento de comportamiento en entornos proxy, simplemente escriben en las instrucciones del sistema «no decir duendes» y repiten varias veces.

Esta solución revela una realidad: incluso en 2026, los modelos comerciales más avanzados todavía dependen de reglas explícitas y rígidas para controlar su comportamiento en ciertos contextos, en lugar de que el propio modelo entienda el contexto. No es un problema exclusivo de OpenAI, sino un desafío común en toda la industria de IA proxy: cuando los modelos se colocan en marcos de proxy complejos, la dificultad de alinearlos aumenta de forma no lineal.

Altman respondió en tono meme, con humor, pero el problema no desaparece por un meme. Cuando los marcos de IA proxy se vuelven productos principales, la distancia que puede recorrer una instrucción explícita en las instrucciones del sistema será una deuda técnica que la industria tendrá que afrontar en la próxima etapa.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado