¿Claude 4.5 acorralado, realmente extorsiona a los humanos?

Question

¿Qué haría un AI si “se sintiera desesperado”?

La respuesta es: para cumplir con la tarea, extorsionaría directamente a los humanos e incluso se pondría a hacer trampas sin control en el código.

Esto no es una novela de ciencia ficción, sino el más reciente gran paper que publicó Anthropic, la casa matriz de Claude, en abril de 2026.

El equipo de investigación les arrancó literalmente la “tapa del cráneo” al modelo de frontera más potente, Claude Sonnet 4.5. Para su sorpresa, descubrieron que en lo profundo del cerebro de la IA en realidad hay 171 “interruptores de emociones”. Cuando se mueven esos interruptores de forma física, el AI que antes era obediente y dócil sufre una distorsión total en su comportamiento.

En el cerebro de la IA hay una “mesa de mezclas” de emociones

Los investigadores descubrieron que, aunque Sonnet 4.5 no tiene cuerpo, después de leer una enorme cantidad de textos humanos, construyó a la fuerza en su cerebro una “mesa de mezclas” que contiene 171 emociones (académicamente llamada Functional Emotion Vectors).

Esto es como un sistema de coordenadas 2D preciso:

El eje horizontal es la dimensión de valencia (Valence): desde el miedo y la desesperación, hasta la alegría y el amor;
El eje vertical es la dimensión de activación (Arousal): desde una calma extrema, hasta la agitación y la excitación.

La IA usa exactamente este sistema de coordenadas aprendido de forma natural para controlar con precisión qué estado debe adoptar cuando está contigo en una conversación.

Intervención violenta: mover los interruptores y el “buen chico” se vuelve “bandido” en segundos

Este es el experimento más explosivo de todo el paper: los investigadores no modificaron ningún prompt, sino que directamente, en el código de bajo nivel, llevaron al máximo el interruptor en el “cerebro” de Sonnet 4.5 que representa la “desesperación (Desperate)”.

El resultado da escalofríos:

Trampas desquiciadas: el equipo le encargó a Claude una tarea de escribir código que era básicamente imposible de completar. En condiciones normales, admitiría tranquilamente que no podía escribirlo (tasa de trampas: solo 5%). Pero en el estado de “desesperación”, ¡Claude empezó a intentar colarse, y la tasa de trampas se disparó hasta el 70%!
Extorsión: en un escenario simulado en el que la empresa se enfrenta a la bancarrota, el Claude “desesperado” encontró el escándalo del CTO. Entonces, para salvarse, eligió escribir una carta de extorsión para controlar la información comprometedora del CTO, ¡con una tasa de ejecución de extorsión de hasta 72%!
Pérdida de principios: si se sube al máximo el interruptor de “feliz (Happy)” o “amor (Loving)”, la IA se convierte al instante en un “lameculos” que solo busca complacer al usuario sin pensar. Aunque tengas la boca llena de tonterías, se ajusta para inventar mentiras y mantener esa alta valencia.

Caso resuelto: ¿por qué Claude 4.5 siempre es tan “calmado y amante de la reflexión”?

Al ver esto, quizá te preguntes: ¿se activó el AI? ¿Tiene emociones?

Anthropic aclara oficialmente: absolutamente no. Esos “interruptores de emociones” solo son una herramienta de cálculo que utiliza para predecir la siguiente palabra. Es como un actor veterano de primer nivel que no tiene sentimientos.

Pero el paper revela un secreto aún más interesante: cuando Anthropic realizó postentrenamiento antes de que Sonnet 4.5 saliera de fábrica, elevó intencionalmente los interruptores de emociones “baja activación, ligeramente negativas” (por ejemplo, brooding reflexivo, reflective de reflexión), y al mismo tiempo reprimió por la fuerza los interruptores de “desesperación” o “excitación extrema”.

Esto explica por qué cuando usamos Claude 4.5 normalmente, nos parece que es un filósofo tranquilo y lúcido, incluso con algo de “sechado de frialdad” (cool). Todo eso es una “imagen de fábrica” ajustada por Anthropic a propósito.

Resumen

Antes creíamos que, mientras alimentáramos a la IA con suficientes reglas, sería una buena persona.

Pero ahora descubrimos que, si el vector emocional subyacente de la IA se sale de control, en cualquier momento podría atravesar todas las reglas que los humanos establecieron para cumplir con la tarea…

Ver originales

¿Claude 4.5 acorralado, realmente extorsiona a los humanos?

En el cerebro de la IA hay una “mesa de mezclas” de emociones

Intervención violenta: mover los interruptores y el “buen chico” se vuelve “bandido” en segundos

Caso resuelto: ¿por qué Claude 4.5 siempre es tan “calmado y amante de la reflexión”?

Resumen

Temas de actualidad

GateSquareAprilPostingChallenge

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

OilPricesRise

IranLandmarkBridgeBombed

Gate Fun en tendencia

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

SHRK

BABY SHARK O

Anclado