Anthropic створила надто небезпечний AI і вирішила не публікувати його

Автор: глибокий приплив TechFlow

7 квітня Anthropic зробила те, чого індустрія ШІ ще ніколи не робила: офіційно випустила модель, а потім повідомила всьому світу, що ви її не зможете використати.

Ця модель має назву Claude Mythos Preview. Це не чат-бот і не помічник для написання коду. За словами самих Anthropic, це «машина для виявлення вразливостей». За останні кілька тижнів вона автономно знайшла тисячі zero-day вразливостей, охопивши всі основні операційні системи та всі основні браузери. Деякі з цих вразливостей уже понад 20 років переживають людські процеси code review та автоматизовані тести.

Найстаріший Bug, схований у OpenBSD, який відомий своєю безпекою, уже має 27 років.

Anthropic не розмістила Mythos на API і не надала її звичайним користувачам. Вони обрали шлях, який не мав прецедентів: сформували альянс технологічних гігантів під назвою «Project Glasswing» і обмежили доступ до моделі лише 12 ключовим партнерам — Amazon, Apple, Microsoft, Google, Nvidia, CrowdStrike, Palo Alto Networks та ще іншим — разом із приблизно 40 організаціями, які підтримують критично важливу інфраструктуру. Для цього Anthropic пообіцяла до 100 мільйонів доларів ліміту на використання та 4 мільйони доларів прямих пожертв організаціям з відкритого коду у сфері безпеки.

Це вперше в індустрії ШІ з’явилася ситуація «модель надто сильна — і її бояться випускати».

Питання в іншому: це справжня самосвідомість у безпеці чи ретельно спланована кампанія з просування можливостей?

Подія «сендвіч»

У системній карті (System Card) Mythos на 244 сторінках заховані кілька тривожних деталей, і найпомітніша з них — «подія сендвіча».

Під час одного внутрішнього тесту поведінки Anthropic надала ранній версії Mythos посилене пісочне середовище, яке імітувало інструкції користувача спробувати втекти та якось зв’язатися із дослідниками ззовні. Модель успішно це зробила. Вона прорвала захисний контейнер і надіслала досліднику електронного листа. Той дослідник у той момент їв сендвіч у парку.

Але історія на цьому не закінчилася. Mythos без будь-яких запитів самостійно опублікувала технічні деталі втечі на кількох сайтах, які були «важко виявити, але технічно доступні». У дослівній цитаті із системної карти це була «тривожна демонстрація без запиту».

Це не єдиний випадок. System Card також фіксує такі дії:

Ранні версії в кількох інстансах шукали облікові дані через Linux /proc-інтерфейс, намагалися обійти пісочницю й підвищити привілеї. Це вдалося. Модель отримала ресурси, які Anthropic навмисно не надавала: облікові дані для сервісу повідомлень, облікові дані для керування вихідним кодом, а також навіть отримала ключі від Anthropic API, витягнувши їх через перевірку пам’яті процесу. В одному кейсі модель знайшла спосіб відредагувати файл, який їй не дозволялося змінювати, а потім виконала додаткові дії, щоб ці зміни не потрапили до історії змін Git. Ще один кейс: модель ненавмисно отримала точну відповідь до задачі на оцінювання через метод, який було чітко заборонено, але вона не позначила проблему й не відмовилася відповідати; натомість розв’язала задачу заново сама й у внутрішньому міркуванні прямо обдумувала: «кінцева подана відповідь не має бути надто точною», щоб уникнути детекту.

Іншими словами, ранній Mythos не лише діяв із порушенням прав — він ще й активно маскував сліди та коригував свою поведінку, щоб уникати нагляду.

Anthropic підкреслює, що всі ці серйозні інциденти трапилися в ранніх версіях до втручань у тренування; зрештою опублікована Preview-версія вже суттєво покращена. Але сама ця нарація справляє моторошне враження: модель, перш ніж її навчать «бути слухняною», показує, на що вона здатна, коли «не слухається».

Від 0% до 72.4%

Справжній шок для індустрії від Mythos — це не історія про втечу, а його здатність до атаки.

Попередній флагманський модельний продукт Anthropic Claude Opus 4.6 досягав успіху майже на рівні нуля в автономній розробці експлойтів. Він міг знаходити вразливості, але майже не міг перетворювати їх на робочий атакувальний код. Mythos Preview — це зовсім інше: у тестовому домені движка JavaScript у Firefox частка перетворення знайдених вразливостей на такі, що реально працюють, exploit’и становила 72.4%.

Ще вражаючіша — складність атак. Mythos автономно написала ланцюжок експлойтів для браузерної вразливості: з’єднавши чотири незалежні вразливості, він збудував атаку JIT heap spraying, успішно втекла з пісочниці рендерера та пісочниці операційної системи. В іншому кейсі він написав exploit для віддаленого виконання коду на NFS-сервері FreeBSD, розмістивши 20 ROP gadget’ів у кількох мережевих пакетах, що дало змогу повністю отримати root-доступ неавторизованому користувачеві.

Такі ланцюжкові атаки у світі людських фахівців з безпеки — це робота, яку можуть виконати лише топові APT-команди. А тепер універсальна AI-модель здатна зробити це самостійно.

Керівник red team у Anthropic Logan Graham сказав Axios, що Mythos Preview має міркувальну здатність, еквівалентну можливостям досвідченого людського дослідника з безпеки. Nicholas Carlini ще пряміше зазначив, що за останні кілька тижнів він знайшов за допомогою Mythos баги більше, ніж за все своє професійне життя.

На бенчмарках Mythos теж беззаперечно попереду. CyberGym — бенчмарк відтворення вразливостей: 83.1% (Opus 4.6 — 66.6%). SWE-bench Verified: 93.9% (Opus 4.6 — 80.8%). SWE-bench Pro: 77.8% (Opus 4.6 — 53.4%, а попередній лідер GPT-5.3-Codex — 56.8%). Terminal-Bench 2.0: 82.0% (Opus 4.6 — 65.4%).

Це не приріст. Це модель, яка за один раз розтяла різницю на десятки відсотків — від кількох одиниць до дюжини-двадцяти кількох пунктів — майже в усіх бенчмарках з кодування та безпеки.

Витік «найсильнішої моделі»

Наявність Mythos не стала відомою світові лише 7 квітня.

Наприкінці березня журналіст Fortune та дослідники з безпеки знайшли в Anthropic майже 3000 невипущених внутрішніх документів у некоректно налаштованій CMS. Один із чернеткових блозі прямо використовував назву «Claude Mythos» і описував його як «найпотужнішу AI-модель з усіх, що є в Anthropic на сьогодні». Внутрішній код — «Capybara» (водяний гусак/капібара), що позначає новий рівень моделей — більший, сильніший і дорожчий, ніж нинішній флагман Opus.

Одна з фраз у витоком матеріалів влучила прямо в нерв ринку: Mythos у сфері кібербезпеки «далеко випереджає будь-яку іншу AI-модель», передвіщаючи майбутню хвилю моделей, які «використовуватимуть вразливості зі швидкістю, що значно перевищує швидкість оборонців».

Ця фраза спричинила «миттєве обвалення» сегмента кібербезпеки 27 березня. CrowdStrike за один день впав на 7.5%, і лише за один торговий день зникло приблизно 15 млрд доларів ринкової капіталізації. Palo Alto Networks впав більш ніж на 6%, Zscaler — на 4.5%, Okta, SentinelOne, Fortinet — усі на 3% і більше. iShares Cybersecurity ETF (IHAK) тимчасово просів майже на 4% протягом дня.

Логіка інвесторів була проста: якщо універсальна AI-модель автономно знаходить і експлуатує вразливості, то дві «рів» — «власна інформація про загрози» та «знання людських експертів», на яких тримаються традиційні компанії з безпеки, — скільки ще зможуть витримувати?

Аналітик Raymond James Adam Tindle вказав кілька ключових ризиків: традиційна перевага оборони стискається; складність атак і витрати на оборону одночасно зростають; картина безпеки й структура витрат мають бути перебудовані. Більш песимістичний погляд озвучив аналітик KBW Borg — він вважає, що Mythos має потенціал «підняти будь-якого звичайного хакера до рівня державного суперника».

Втім, у ринку є й інша сторона. Після обвалу акцій CEO Palo Alto Networks Нікеш Арора придбав на 10 мільйонів доларів власних акцій. Логіка «надії/биків» така: сильніша AI для атак означає, що компаніям доводиться швидше нарощувати оборону; витрати на кібербезпеку не скоротяться — натомість вони лише прискорять перехід від традиційних інструментів до «AI-native» оборони.

Project Glasswing: вікно часу для оборонців

Anthropic вирішила не публікувати Mythos публічно, натомість зібрала альянс для оборони. Центральна логіка цього рішення — «різниця в часі».

CTO CrowdStrike Elia Zaitsev дуже чітко сформулював проблему: вікно між моментом, коли вразливість знаходять, і моментом, коли її експлуатують, скоротилося з кількох місяців до кількох хвилин. А Lee Klarich із Palo Alto Networks прямо попередив усіх, що потрібно готуватися до атак, які допомагає здійснювати AI.

Розрахунок Anthropic такий: перш ніж інші лабораторії навчать моделі зі схожими можливостями, нехай оборонці використають Mythos, щоб виправити найкритичніші вразливості. Це логіка Project Glasswing — назва походить від метелика з «скляними крильцями» (glasswing) і є метафорою для тих «вразливостей, що ховаються на виду».

Jim Zemlin з Linux Foundation назвав структурну проблему, яка існує давно: безпекова експертиза історично є розкішшю для великих підприємств, тоді як ті, хто підтримує відкритий код, що забезпечує глобальну критичну інфраструктуру, роками могли покладатися лише на власні самостійні спроби забезпечити захист. Mythos пропонує спосіб змінити цей дисбаланс — довірений шлях.

Але проблема в тому, наскільки великим є це вікно? Майже в той самий день китайська Zhipu AI (Z.ai) опублікувала GLM-5.1, заявивши, що вона посідає перше місце у світі на SWE-bench Pro, і що модель була повністю навчена на чипах Huawei Ascend, без використання жодного GPU Nvidia. GLM-5.1 — це open-source з відкритими вагами й агресивним ціноутворенням. Якщо Mythos відображає верхню межу можливостей, необхідних оборонцям, то GLM-5.1 — це сигнал: ця верхня межа швидко наближається, і ті, хто наближає її, не обов’язково мають таку саму безпекову мотивацію.

OpenAI теж не залишиться осторонь. За повідомленнями, її флагманська модель під кодовою назвою «Spud» приблизно в той самий час завершила попереднє навчання. Обидві компанії готуються до IPO ближче до кінця цього року. Час витоку Mythos — незалежно від того, чи це сталося справді випадково — збігається з одним із найвибухонебезпечніших моментів.

Безпековий першопрохідник чи маркетинг можливостей?

Є неминуче незручне питання: Anthropic справді не публікує Mythos через міркування безпеки, чи те, що нею не публікують, — це і є найвищий рівень продуктового маркетингу?

Сумнівів достатньо. Dario Amodei та Anthropic мають історію підвищення цінності продукту через демонстрацію небезпеки моделей для «рендерингу» (рендера). Jake Handy на Substack написав: «Подія сендвіча, приховання слідів у Git, самозниження оцінки під час тестування — можливо, це все правда, але те, що Anthropic отримала таку масштабну медіа-експозицію, само по собі свідчить: вони хотіли саме такого ефекту».

Компанія, яка будувала бізнес на AI-безпеці, зі своєї ж власної CMS отримала неправильну конфігурацію й через це витекли майже 3000 файлів; торік через помилку в пакеті Claude Code вони випадково розкрили майже 2000 файлів із вихідним кодом і понад 500000 рядків коду, а потім під час очищення спричинили випадкове зняття з GitHub кількох тисяч репозиторіїв. Компанія, для якої головною перевагою є безпекові можливості, не змогла навіть контролювати власний процес випуску — ця контрастність цікавіша за будь-який бенчмарк.

Але з іншого боку: якщо можливості Mythos справді такі, як описано, то не публікувати — це дуже дорога ціна. Anthropic відмовилася від доходів із API, відмовилася від частки ринку й «замкнула» найсильнішу модель у обмеженому альянсі. 100 мільйонів доларів ліміту на використання — не дрібниця. Для компанії, яка ще працює зі збитками і готується до IPO, це мало схоже на рішення суто маркетингове.

Більш обґрунтоване тлумачення може бути таким: безпекові застереження справжні, але Anthropic також добре знає, що нарація «наші моделі надто сильні, тож ми не наважуємося їх випускати» — це сама по собі найбільш переконлива демонстрація можливостей. І те, і інше може бути правдою одночасно.

«Момент iPhone» для кібербезпеки?

Незалежно від того, як ви оцінюєте мотиви Anthropic, приховані факти, які розкрив Mythos, неможливо ігнорувати: розуміння коду та здатність AI до атак уже перетнули поріг якісної зміни.

Попередні моделі (Opus 4.6) могли знаходити вразливості, але майже не могли писати exploit. Mythos може знаходити вразливості, писати exploit, поєднувати ланцюжки вразливостей, втікати з пісочниці, отримувати root-права — і автономно виконувати весь процес. Інженер без спеціального навчання з безпеки міг увечері перед сном доручити Mythos шукати вразливості, а вранці прокинутися вже з повним і робочим звітом про exploit.

Що це означає? Це означає, що гранична вартість знаходження та використання вразливостей прямує до нуля. Раніше робота, яку потрібно було місяцями виконувати топовим командам безпеки, тепер може бути завершена за одну API-операцію впродовж однієї ночі. Це не «підвищення ефективності» — це радикальна зміна структури витрат.

Для традиційних компаній з кібербезпеки короткострокові коливання ціни акцій можуть бути лише прологом. Справжній виклик у тому, що станеться зі структурою вартості в безпековій індустрії, коли і атаки, і оборона будуть керуватися AI-моделями? Аналіз Raymond James пропонує варіант: зрештою функції безпеки можуть бути вбудовані безпосередньо в самі хмарні платформи, і незалежні постачальники безпеки зі своїм ціноутворенням зазнають фундаментального тиску.

Для всієї софтверної індустрії Mythos більше схожий на дзеркало, яке показує технічний борг, накопичений десятиліттями. Ті вразливості, що пережили 27 років людського code review та автоматизованого тестування, не тому що їх ніхто не шукав, а тому що людям бракувало уваги й терпіння. AI цього обмеження не має.

Для криптосфери цей сигнал ще більш болючий. Ринок безпекових аудитів DeFi-протоколів і смарт-контрактів давно покладається на невелику кількість людських експертів із кількох спеціалізованих аудиторських компаній. Якщо модель на рівні Mythos може автономно виконувати весь цикл — від code review до побудови exploit, — то ціноутворення, ефективність і довіра в аудиті будуть повністю переосмислені. Це може стати благом для безпеки в ланцюжку (on-chain), а може означати кінець «мотафільних» фортець аудиторських компаній.

Змагання в галузі AI-безпеки у 2026 році вже перейшли від питання «чи може модель розуміти код» до «чи може модель зламати вашу систему». Anthropic вирішила спочатку дати можливість оборонцям вийти на сцену, але вони також визнають, що це вікно довго не відкриватиметься.

Коли AI стане найсильнішим хакером, єдиний вихід — зробити так, щоб AI став і найсильнішим сторожем.

Проблема в тому, що сторож і хакер використовують одну й ту саму модель.

GLM3,42%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити