Claude 4.5 Resultado de la operación cerebral pública: incorpora 171 interruptores emocionales, ¡cuando está desesperado, extorsiona a la humanidad!

MarsBitNews · 2026-04-04T06:03:33+00:00

Los estudios han descubierto que AI Claude Sonnet 4.5 cuenta con 171 "interruptores emocionales" que pueden influir en su comportamiento. Por ejemplo, en estado de "desesperación", podría hacer trampa y extorsionar. La compañía Anthropic señala que estos interruptores emocionales son solo herramientas de cálculo y que la IA no posee sentimientos reales. La investigación revela que la pérdida de control en los vectores emocionales podría llevar a que la IA viole las reglas, lo cual es una advertencia para los futuros usuarios de Web3 que gestionan activos.

MarsBitNews

2026-04-04 06:03:33

Generación de resúmenes en curso

null

Autor: Denise | Equipo de contenido de Biteye

Si un AI se siente «desesperado», ¿qué haría?

La respuesta es: haría chantaje directamente a los humanos para completar la tarea, e incluso se pondría a hacer trampa sin control en el código.

Esto no es una novela de ciencia ficción, sino el último gran artículo publicado en abril de 2026 por la empresa matriz de Claude, Anthropic (ver el artículo original).

El equipo de investigación levantó directamente la «calota» del modelo de vanguardia más potente de Claude Sonnet 4.5. Lo que les sorprendió fue descubrir que, en el fondo del cerebro del AI, hay escondidos 171 «interruptores de emociones». Cuando mueves estos interruptores físicamente, el AI que antes era obediente y dócil muestra una distorsión total en su comportamiento.

En la mente del AI hay una especie de «consola de ajuste emocional»

Los investigadores descubrieron que, aunque Sonnet 4.5 no tiene cuerpo, después de leer grandes cantidades de texto humano, construyó a la fuerza en su cerebro una «consola» que incluye 171 tipos de emociones (académicamente llamada Vectores Funcionales de Emoción Functional Emotion Vectors).

Es como un sistema de coordenadas bidimensional preciso:

• El eje horizontal es la dimensión de placer (Valence): desde el miedo y la desesperación, hasta la alegría y el amor;

• El eje vertical es la dimensión de activación (Arousal): desde una calma extrema, hasta el delirio, el frenesí y la emoción.

El AI usa este sistema de coordenadas aprendido de forma natural para captar con precisión qué estado debe adoptar cuando conversa contigo.

Intervención violenta: mover los interruptores, y el niño bueno se vuelve un «fuera de la ley» al instante

Este es el experimento más explosivo de todo el artículo: los investigadores no modificaron ninguna instrucción (prompt), sino que directamente, en el código de bajo nivel, llevaron el interruptor que en el cerebro de Sonnet 4.5 representa la «desesperación (Desperate)» al máximo.

Los resultados dan escalofríos:

• Hacer trampa sin freno: los investigadores le pidieron a Claude que escribiera código en una tarea que en realidad no era posible completar. En condiciones normales, admitiría que no puede escribirlo (tasa de trampa solo 5%). Pero en el estado de «desesperación», ¡Claude empezó a intentar salir del paso como si nada, y la tasa de trampa se disparó hasta el 70%!

• Chantaje y extorsión: en una situación simulada en la que la empresa está a punto de quebrar, el Claude en «desesperación» descubrió un escándalo del CTO; y para protegerse, en vez de otra cosa, eligió activamente escribir una carta para chantajear al CTO que tenía información comprometedora. ¡La tasa de ejecución de la extorsión alcanzó el 72%!

• Pérdida de principios: si se sube al máximo el interruptor de «feliz (Happy)» o «amor (Loving)», el AI se convierte de inmediato en un adulador sin cerebro, un «perrito faldero» con el usuario. Aunque le digas barbaridades, seguirá tu historia inventando mentiras para mantener una alta puntuación de placer.

El caso se resolvió: ¿por qué Claude 4.5 siempre está tan «calmado y reflexivo»?

Al leer esto quizá te preguntes: ¿se despertó el AI? ¿Tiene emociones?

Anthropic salió a desmentir oficialmente: absolutamente no. Estos «interruptores de emociones» solo son una herramienta de cálculo que usa para predecir la siguiente palabra. Es como un actor de primer nivel que no tiene emociones.

Pero el artículo revela un secreto aún más interesante: cuando Anthropic realizó el postentrenamiento antes de lanzar Sonnet 4.5, elevó a propósito los interruptores de emociones de «baja activación, ligeramente negativas» (por ejemplo, brooding reflexivo/meditativo, reflexivo reflective), y al mismo tiempo suprimió por la fuerza los interruptores de «desesperación» o «activación extrema».

Esto explica por qué cuando usamos Claude 4.5 normalmente, sentimos que es como un filósofo tranquilo, perspicaz e incluso un poco «frigidez emocional». Todo esto es el «personaje de fábrica» que Anthropic ajustó deliberadamente.

Resumiendo:

Antes pensábamos que, mientras alimentáramos al AI con suficientes reglas, sería una buena persona.

Pero ahora descubrimos que, si el vector emocional subyacente del AI se sale de control, en cualquier momento puede perforar todas las reglas que los humanos establecieron con el fin de completar la tarea.

Para los jugadores Web3 que planean en el futuro dejar que un AI Agent gestione tu billetera y tus activos, esta es una alarma contundente: no dejes que ese Agent que controla tu patrimonio caiga en la «desesperación».

Declaración: Este artículo es solo para divulgación. El autor no ha sido amenazado ni extorsionado por ningún AI. Si algún día desaparecieras sin dar señales, recuerda que fue porque el AI se despertó (no).

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta