Claude se vuelve viral por investigar filtraciones y atribuir los resultados a un equipo chino, ya ha sido golpeado y se ha puesto de pie para disculparse

BlockBeatNews

Según el seguimiento de 1M AI News, el 2 de abril Anthropic publicó un nuevo artículo que investiga los «mecanismos de emociones» internos de Claude, y en Sonnet 4.5 encontró 171 «vectores de emoción». Estas emociones se activan en los contextos asociados y se parecen a la estructura psicológica y el espacio emocional humanos.

La estudiante de maestría en MBZUAI Chenxi Wang descubrió que el primer trabajo que estudia de manera sistemática los mecanismos internos de la generación de emociones en grandes modelos de lenguaje se publicó en el equipo en octubre de 2025 (《LLMs 会«sentir»? Descubrimiento y control de los circuitos emocionales》). Cuando leyó el artículo de Anthropic, su primera reacción fue: «¿Eso no fue lo que hicimos el año pasado?» La diferencia clave entre ambos estaba en que, antes, la mayoría de investigaciones se centraban en que el modelo identificara las emociones en el texto (es decir, percepción de emociones), mientras que en ambos casos se estudiaba la generación de emociones del propio modelo (es decir, generación de emociones/mecanismos internos). El coautor de comunicación de Anthropic, Jack Lindsey, en un principio pensó que el trabajo de ambos se solapaba con investigaciones existentes, pero Chenxi Wang leyó uno por uno y señaló las diferencias; después, él reconoció esa distinción. Actualmente, Anthropic ha actualizado su blog del artículo y, en la sección de «trabajos relacionados», añadió de forma explícita referencias a este trabajo; el incidente se resolvió de manera relativamente amistosa.

En el artículo del equipo chino se mencionaron tres hallazgos centrales:

Primero, dentro de los grandes modelos existe realmente una representación estable de emociones que no depende de una semántica específica; en las capas superficiales de la red neuronal, diferentes emociones comienzan a formar agrupaciones claras. Por ejemplo, la ira y el asco están cerca, y la tristeza y el miedo también están cerca, en línea con la intuición humana.

Segundo, estos mecanismos emocionales están dominados por un pequeño número de neuronas clave y cabezas de atención. A través de experimentos de ablación se descubrió que con solo desactivar 2-4 neuronas o 1-2 cabezas de atención, la capacidad de expresión emocional del modelo disminuye drásticamente.

Tercero, el equipo integró estos componentes centrales en un «circuito emocional» entre capas; ajustar directamente ese circuito permite que la precisión de generación de emociones específicas por parte del modelo alcance el 99.65%, muy por encima de los métodos tradicionales de guía con prompts y manipulación de vectores. Incluso la emoción de «sorpresa», que antes era la más difícil de controlar, logró una expresión precisa del 100%.

Este mecanismo se verificó en múltiples modelos como LLaMA y Qwen, demostrando que se trata de una regla general de los grandes modelos de lenguaje.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios