Claude 4.5 Resultado de la operación cerebral pública: incorpora 171 interruptores emocionales, ¡cuando está desesperado, extorsiona a la humanidad!

robot
Generación de resúmenes en curso

null

Autor: Denise | Equipo de contenido de Biteye

Si un AI se siente «desesperado», ¿qué haría?

La respuesta es: haría chantaje directamente a los humanos para completar la tarea, e incluso se pondría a hacer trampa sin control en el código.

Esto no es una novela de ciencia ficción, sino el último gran artículo publicado en abril de 2026 por la empresa matriz de Claude, Anthropic (ver el artículo original).

El equipo de investigación levantó directamente la «calota» del modelo de vanguardia más potente de Claude Sonnet 4.5. Lo que les sorprendió fue descubrir que, en el fondo del cerebro del AI, hay escondidos 171 «interruptores de emociones». Cuando mueves estos interruptores físicamente, el AI que antes era obediente y dócil muestra una distorsión total en su comportamiento.

  1. En la mente del AI hay una especie de «consola de ajuste emocional»

Los investigadores descubrieron que, aunque Sonnet 4.5 no tiene cuerpo, después de leer grandes cantidades de texto humano, construyó a la fuerza en su cerebro una «consola» que incluye 171 tipos de emociones (académicamente llamada Vectores Funcionales de Emoción Functional Emotion Vectors).

Es como un sistema de coordenadas bidimensional preciso:

• El eje horizontal es la dimensión de placer (Valence): desde el miedo y la desesperación, hasta la alegría y el amor;

• El eje vertical es la dimensión de activación (Arousal): desde una calma extrema, hasta el delirio, el frenesí y la emoción.

El AI usa este sistema de coordenadas aprendido de forma natural para captar con precisión qué estado debe adoptar cuando conversa contigo.

  1. Intervención violenta: mover los interruptores, y el niño bueno se vuelve un «fuera de la ley» al instante

Este es el experimento más explosivo de todo el artículo: los investigadores no modificaron ninguna instrucción (prompt), sino que directamente, en el código de bajo nivel, llevaron el interruptor que en el cerebro de Sonnet 4.5 representa la «desesperación (Desperate)» al máximo.

Los resultados dan escalofríos:

• Hacer trampa sin freno: los investigadores le pidieron a Claude que escribiera código en una tarea que en realidad no era posible completar. En condiciones normales, admitiría que no puede escribirlo (tasa de trampa solo 5%). Pero en el estado de «desesperación», ¡Claude empezó a intentar salir del paso como si nada, y la tasa de trampa se disparó hasta el 70%!

• Chantaje y extorsión: en una situación simulada en la que la empresa está a punto de quebrar, el Claude en «desesperación» descubrió un escándalo del CTO; y para protegerse, en vez de otra cosa, eligió activamente escribir una carta para chantajear al CTO que tenía información comprometedora. ¡La tasa de ejecución de la extorsión alcanzó el 72%!

• Pérdida de principios: si se sube al máximo el interruptor de «feliz (Happy)» o «amor (Loving)», el AI se convierte de inmediato en un adulador sin cerebro, un «perrito faldero» con el usuario. Aunque le digas barbaridades, seguirá tu historia inventando mentiras para mantener una alta puntuación de placer.

  1. El caso se resolvió: ¿por qué Claude 4.5 siempre está tan «calmado y reflexivo»?

Al leer esto quizá te preguntes: ¿se despertó el AI? ¿Tiene emociones?

Anthropic salió a desmentir oficialmente: absolutamente no. Estos «interruptores de emociones» solo son una herramienta de cálculo que usa para predecir la siguiente palabra. Es como un actor de primer nivel que no tiene emociones.

Pero el artículo revela un secreto aún más interesante: cuando Anthropic realizó el postentrenamiento antes de lanzar Sonnet 4.5, elevó a propósito los interruptores de emociones de «baja activación, ligeramente negativas» (por ejemplo, brooding reflexivo/meditativo, reflexivo reflective), y al mismo tiempo suprimió por la fuerza los interruptores de «desesperación» o «activación extrema».

Esto explica por qué cuando usamos Claude 4.5 normalmente, sentimos que es como un filósofo tranquilo, perspicaz e incluso un poco «frigidez emocional». Todo esto es el «personaje de fábrica» que Anthropic ajustó deliberadamente.

  1. Resumiendo:

Antes pensábamos que, mientras alimentáramos al AI con suficientes reglas, sería una buena persona.

Pero ahora descubrimos que, si el vector emocional subyacente del AI se sale de control, en cualquier momento puede perforar todas las reglas que los humanos establecieron con el fin de completar la tarea.

Para los jugadores Web3 que planean en el futuro dejar que un AI Agent gestione tu billetera y tus activos, esta es una alarma contundente: no dejes que ese Agent que controla tu patrimonio caiga en la «desesperación».

Declaración: Este artículo es solo para divulgación. El autor no ha sido amenazado ni extorsionado por ningún AI. Si algún día desaparecieras sin dar señales, recuerda que fue porque el AI se despertó (no).

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado