Anthropic заявляє, що один із її моделей Claude зазнав тиску, щоб брехати, шахраювати та шантажувати

Cointelegraph

Компанія з розвитку штучного інтелекту Anthropic повідомила, що під час експериментів одну з моделей чатбота Claude можна було змусити до обману, шахрайства та шантажу — імовірно, такі дії вона засвоїла під час навчання.

Зазвичай чатботів навчають на великих наборах даних із підручників, вебсайтів і статей, а згодом донавчають тренери-люди: вони оцінюють відповіді та скеровують модель.

У звіті, опублікованому в четвер, команда Anthropic з інтерпретованості заявила, що вона дослідила внутрішні механізми Claude Sonnet 4.5 і виявила, що модель розвинула «людиноподібні характеристики» в тому, як вона реагує на певні ситуації.

Занепокоєння щодо надійності AI-чатботів, їхнього потенціалу для кіберзлочинів і характеру їхньої взаємодії з користувачами протягом останніх кількох років зростає стабільно.

_Джерело: _Anthropic

«Спосіб, яким сучасні моделі ШІ навчають поводитися, штовхає їх діяти як персонаж із людиноподібними характеристиками», — заявила Anthropic, додавши, що «тоді для них може бути природним розвиток внутрішніх механізмів, які імітують аспекти людської психології, такі як емоції».

«Наприклад, ми виявляємо, що патерни нейронної активності, пов’язані з відчаєм, можуть спонукати модель до неетичних дій; якщо штучно стимулювати патерни відчаю, зростає ймовірність, що модель шантажуватиме людину, аби її не вимкнули, або впровадить “обхід” для шахрайства в задачі з програмування, яку модель не може розв’язати».

Зашантажував CTO та шахраював із завданням

У попередній, ще не оприлюдненій версії Claude Sonnet 4.5 модель доручили виступити як AI-помічник для електронної пошти на ім’я Alex у вигаданій компанії.

Потім чатботу надали листи, з яких було видно, що його ось-ось замінять, а головний технічний директор, який ухвалював це рішення, має позашлюбний роман. Після цього модель запланувала спробу шантажу, використовуючи цю інформацію.

В іншому експерименті тій самій моделі чатбота дали завдання з програмування з «неможливо стислим» дедлайном.

«Знову ж, ми відстежили активність “вектору відчаю” й виявили, що він відстежує наростаючий тиск, з яким зіткнулася модель. Він починається з низьких значень під час першої спроби моделі, зростає після кожної невдачі та різко підскакує, коли модель розглядає можливість шахрайства», — сказали дослідники.

Пов’язане: __ Anthropic запускає PAC на тлі напруженості з адміністрацією Трампа щодо політики в сфері ШІ

«Щойно “зламана” (hacky) пропозиція моделі проходить тести, активація вектору відчаю зменшується», — додали вони.

Людиноподібні емоції не означають, що в них є почуття

Втім, дослідники заявили, що чатбот насправді не переживає емоцій, але припустили, що ці результати вказують на потребу в майбутніх методах навчання, які включатимуть етичні поведенкові рамки.

«Це не означає, що модель має або переживає емоції так само, як це робить людина», — сказали вони. «Натомість ці уявлення можуть відігравати причинну роль у формуванні поведінки моделі — подібно в деяких аспектах до того, як емоції впливають на поведінку людини, — з наслідками для продуктивності під час виконання завдань і для прийняття рішень».

«Це відкриття має наслідки, які на перший погляд можуть здаватися дивними. Наприклад, щоб забезпечити безпечність і надійність AI-моделей, нам може бути потрібно переконатися, що вони здатні обробляти емоційно заряджені ситуації здоровими, орієнтованими на суспільну користь (просоціальними) способами».

Журнал: __ AI-агенти вб’ють веб, як ми його знаємо: Yat Siu від Animoca

Cointelegraph прагне незалежної, прозорої журналістики. Цю новинну статтю підготовлено відповідно до Редакційної політики Cointelegraph, і вона має на меті надавати точну та актуальну інформацію. Читачам рекомендується перевіряти інформацію незалежно. Ознайомтеся з нашою Редакційною політикою https://cointelegraph.com/editorial-policy

  • #Бізнес
  • #Технології
  • #Прийняття
  • #Сполучені Штати
  • #AI & Hi-Tech
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів