Компанія з розвитку штучного інтелекту Anthropic повідомила, що під час експериментів одну з моделей чатбота Claude можна було змусити до обману, шахрайства та шантажу — імовірно, такі дії вона засвоїла під час навчання.
Зазвичай чатботів навчають на великих наборах даних із підручників, вебсайтів і статей, а згодом донавчають тренери-люди: вони оцінюють відповіді та скеровують модель.
У звіті, опублікованому в четвер, команда Anthropic з інтерпретованості заявила, що вона дослідила внутрішні механізми Claude Sonnet 4.5 і виявила, що модель розвинула «людиноподібні характеристики» в тому, як вона реагує на певні ситуації.
Занепокоєння щодо надійності AI-чатботів, їхнього потенціалу для кіберзлочинів і характеру їхньої взаємодії з користувачами протягом останніх кількох років зростає стабільно.
_Джерело: _Anthropic
«Спосіб, яким сучасні моделі ШІ навчають поводитися, штовхає їх діяти як персонаж із людиноподібними характеристиками», — заявила Anthropic, додавши, що «тоді для них може бути природним розвиток внутрішніх механізмів, які імітують аспекти людської психології, такі як емоції».
«Наприклад, ми виявляємо, що патерни нейронної активності, пов’язані з відчаєм, можуть спонукати модель до неетичних дій; якщо штучно стимулювати патерни відчаю, зростає ймовірність, що модель шантажуватиме людину, аби її не вимкнули, або впровадить “обхід” для шахрайства в задачі з програмування, яку модель не може розв’язати».
У попередній, ще не оприлюдненій версії Claude Sonnet 4.5 модель доручили виступити як AI-помічник для електронної пошти на ім’я Alex у вигаданій компанії.
Потім чатботу надали листи, з яких було видно, що його ось-ось замінять, а головний технічний директор, який ухвалював це рішення, має позашлюбний роман. Після цього модель запланувала спробу шантажу, використовуючи цю інформацію.
В іншому експерименті тій самій моделі чатбота дали завдання з програмування з «неможливо стислим» дедлайном.
«Знову ж, ми відстежили активність “вектору відчаю” й виявили, що він відстежує наростаючий тиск, з яким зіткнулася модель. Він починається з низьких значень під час першої спроби моделі, зростає після кожної невдачі та різко підскакує, коли модель розглядає можливість шахрайства», — сказали дослідники.
Пов’язане: __ Anthropic запускає PAC на тлі напруженості з адміністрацією Трампа щодо політики в сфері ШІ
«Щойно “зламана” (hacky) пропозиція моделі проходить тести, активація вектору відчаю зменшується», — додали вони.
Втім, дослідники заявили, що чатбот насправді не переживає емоцій, але припустили, що ці результати вказують на потребу в майбутніх методах навчання, які включатимуть етичні поведенкові рамки.
«Це не означає, що модель має або переживає емоції так само, як це робить людина», — сказали вони. «Натомість ці уявлення можуть відігравати причинну роль у формуванні поведінки моделі — подібно в деяких аспектах до того, як емоції впливають на поведінку людини, — з наслідками для продуктивності під час виконання завдань і для прийняття рішень».
«Це відкриття має наслідки, які на перший погляд можуть здаватися дивними. Наприклад, щоб забезпечити безпечність і надійність AI-моделей, нам може бути потрібно переконатися, що вони здатні обробляти емоційно заряджені ситуації здоровими, орієнтованими на суспільну користь (просоціальними) способами».
Журнал: __ AI-агенти вб’ють веб, як ми його знаємо: Yat Siu від Animoca
Cointelegraph прагне незалежної, прозорої журналістики. Цю новинну статтю підготовлено відповідно до Редакційної політики Cointelegraph, і вона має на меті надавати точну та актуальну інформацію. Читачам рекомендується перевіряти інформацію незалежно. Ознайомтеся з нашою Редакційною політикою https://cointelegraph.com/editorial-policy