Laut den 1M-AI-News-Beobachtungen veröffentlichte Anthropic am 2. April eine neue Arbeit, in der die „Emotionsmechanismen“ innerhalb von Claude untersucht werden. In Sonnet 4.5 wurden 171 „Emotionsvektoren“ gefunden. Diese Emotionen werden in den damit verbundenen Kontexten aktiviert und ähneln in ihrer Struktur und ihrem „Emotionsraum“ denen des Menschen.
Die Masterstudentin MBZUAI Chenxi Wang stellte fest, dass die Arbeit ihres Teams (《LLMs 会「感觉」吗?情绪回路的发现与控制》), die sie im Oktober 2025 veröffentlicht haben, die erste ist, die das innere Entstehungs- und Steuerungsmechanismus von Emotionen in großen Sprachmodellen systematisch erforscht. Als sie die Arbeit von Anthropic las, war ihre erste Reaktion: „Ist das nicht das, was wir letztes Jahr gemacht haben?“ Der zentrale Unterschied zwischen beiden liegt darin, dass sich frühere Forschungen überwiegend darauf konzentrierten, Emotionen in Texten zu erkennen (also Emotionswahrnehmung), während sowohl sie als auch ihr Gegenüber das untersucht haben, was ein Modell selbst generiert (also Emotionsgenerierung/innere Mechanismen). Der korrespondierende Autor von Anthropic, Jack Lindsey, dachte zunächst, dass sich die beiden Arbeiten mit bereits vorhandenen Forschungen überschneiden. Nachdem Chenxi Wang beide Unterschiede jedoch nacheinander erläutert hatte, erkannte er diese Trennung an. Inzwischen hat Anthropic seinen Blog zur Arbeit aktualisiert und im Abschnitt „Related Work“ diese Arbeit explizit zitiert; das Ereignis wurde auf relativ freundliche Weise gelöst.
In der Arbeit des chinesischen Teams wurden drei zentrale Erkenntnisse genannt:
Erstens: In den internen Ebenen großer Modelle existieren tatsächlich stabile Emotionsdarstellungen, die unabhängig von konkreter Semantik sind. Unterschiedliche Emotionen bilden bereits in den flachen Schichten eines neuronalen Netzwerks klar erkennbare Gruppen, zum Beispiel liegen Wut und Ekel nahe beieinander, und Traurigkeit und Furcht liegen nahe beieinander – im Einklang mit der menschlichen Intuition.
Zweitens: Diese Emotionsmechanismen werden von wenigen zentralen Neuronen und Aufmerksamkeitsköpfen dominiert. Aus Ablationsexperimenten geht hervor, dass schon das Abschalten von 2–4 Neuronen oder 1–2 Aufmerksamkeitsköpfen die Fähigkeit des Modells, Emotionen auszudrücken, erheblich senkt.
Drittens: Das Team integrierte diese Kernkomponenten zu einem „Emotionskreislauf“ über Ebenen hinweg. Durch die direkte Regulierung dieses Kreislaufs erreicht die Genauigkeit, mit der das Modell eine bestimmte Emotion generiert, 99,65% – weit über den herkömmlichen Methoden zur Eingabeaufforderungssteuerung und zur Vektormanipulation hinaus. Sogar die zuvor am schwierigsten zu kontrollierende Emotion „Überraschung“ wurde mit 100% Genauigkeit ausgedrückt.
Dieses Mechanismus wurde auf mehreren Modellen wie LLaMA und Qwen validiert und zeigt damit, dass es sich um eine allgemeine Regel großer Sprachmodelle handelt.