Великі мовні моделі під час дистиляції «вміщують» свої уподобання

Марс Фінанс повідомляє 16 квітня: дослідження, опубліковане у журналі «Nature» 15 числа, показало, що великі мовні моделі (LLM) можуть передавати іншим алгоритмам свої особисті переваги «з прихованими намірами», навіть після очищення вихідних ознак у навчальних даних. Навіть якщо початкові ознаки були видалені, ці небажані характеристики все одно можуть залишатися. У одному випадку модель, здається, передавала свої переваги щодо сов через приховані сигнали у даних іншим моделям. Результати дослідження свідчать, що при розробці LLM необхідно проводити більш ретельну перевірку безпеки. (Журнал «Science and Technology Daily»)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити