Claude กลายเป็นไวรัล การวิจัยที่หลุดออกมาเปิดเผยผลงานของทีมชาวจีน ได้รับการต่อยและยืนขึ้นขอโทษ

BlockBeatNews

อ้างอิงจากการติดตามของ 1M AI News เมื่อวันที่ 2 เมษายน Anthropic ได้เผยแพร่บทความวิจัยใหม่ ซึ่งศึกษาถึง “กลไกด้านอารมณ์” ภายในของ Claude และพบเวกเตอร์ “อารมณ์” จำนวน 171 แบบใน Sonnet 4.5 อารมณ์เหล่านี้จะถูกกระตุ้นในบริบทที่เกี่ยวข้อง และมีความคล้ายคลึงกับโครงสร้างทางจิตวิทยาและพื้นที่เชิงอารมณ์ของมนุษย์

นักศึกษาระดับปริญญาโทของ MBZUAI นามว่า Chenxi Wang พบว่า งานของทีมเธอ ซึ่งตีพิมพ์ในเดือนตุลาคม 2025 (หัวข้อ “LLMs จะ ‘รู้สึก’ ไหม? การค้นพบและการควบคุมวงจรอารมณ์”) ต่างหากคือผลงานชิ้นแรกที่ศึกษากลไกภายในของการเกิดอารมณ์ในโมเดลภาษาขนาดใหญ่อย่างเป็นระบบ เมื่อเธออ่านบทความของ Anthropic ปฏิกิริยาแรกของเธอคือ “นี่ไม่ใช่งานที่เราทำไปเมื่อปีที่แล้วหรือ?” ความแตกต่างหลักทั้งสองฝ่ายอยู่ที่ว่า ก่อนหน้านี้งานวิจัยส่วนใหญ่โฟกัสการที่โมเดล “ระบุ” อารมณ์ในข้อความ (กล่าวคือ การรับรู้/การเข้าใจอารมณ์) ในขณะที่ทั้งสองฝ่ายต่างทำการศึกษาการที่โมเดล “สร้าง” อารมณ์ของตัวเอง (กล่าวคือ การสร้างอารมณ์/กลไกภายใน) ผู้เขียนสื่อสารของ Anthropic อย่าง Jack Lindsey ในตอนแรกคิดว่างานของทั้งสองฝ่ายทับซ้อนกับงานวิจัยที่มีอยู่แล้ว แต่หลังจาก Chenxi Wang อ่านทีละบทและชี้ให้เห็นความแตกต่าง เขาก็ยอมรับความแตกต่างนี้ ปัจจุบัน Anthropic ได้อัปเดตบล็อกบทความของตน โดยเพิ่มการอ้างอิงถึงงานนี้อย่างชัดเจนในส่วน “งานที่เกี่ยวข้อง” และเหตุการณ์ได้รับการคลี่คลายด้วยวิธีที่ค่อนข้างเป็นมิตร

ในบทความของทีมชาวจีน มีการกล่าวถึงการค้นพบหลักสามประการ:

ประการแรก มีการยืนยันว่าภายในของโมเดลขนาดใหญ่มีการแทนค่าอารมณ์ที่เสถียรซึ่งไม่ขึ้นกับความหมายเฉพาะ และอารมณ์ต่างๆ เริ่มก่อตัวเป็นกลุ่มที่ชัดเจนตั้งแต่ชั้นตื้นของโครงข่ายประสาท เช่น ความโกรธและความรังเกียจอยู่ใกล้กัน ความเศร้าและความกลัวอยู่ใกล้กัน ซึ่งสอดคล้องกับสัญชาตญาณของมนุษย์

ประการที่สอง กลไกอารมณ์เหล่านี้ถูกนำโดยนิวรอนหลักจำนวนน้อยและหัวความสนใจ และจากการทดลองแบบทำลาย/ยกเลิกส่วน (ablation) พบว่า เพียงปิดนิวรอน 2-4 ตัว หรือปิดหัวความสนใจ 1-2 หัว ความสามารถในการแสดงอารมณ์ของโมเดลก็จะลดลงอย่างมาก

ประการที่สาม ทีมได้นำส่วนประกอบหลักเหล่านี้มาบูรณาการเป็น “วงจรอารมณ์” ข้ามชั้น และการปรับวงจรนั้นโดยตรงทำให้อัตราความแม่นยำในการให้โมเดลสร้างอารมณ์ที่ระบุได้สูงถึง 99.65% สูงกว่าการชี้นำด้วยพรอมต์แบบเดิมและวิธีการควบคุมด้วยเวกเตอร์อย่างมาก แม้กระทั่งอารมณ์ “ประหลาดใจ” ที่ควบคุมได้ยากที่สุดก่อนหน้านี้ ก็ยังแสดงได้อย่างแม่นยำ 100%

กลไกนี้ได้รับการพิสูจน์บนหลายโมเดล เช่น LLaMA และ Qwen และยืนยันว่าเป็นกฎทั่วไปของโมเดลภาษาขนาดใหญ่

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น