Согласно мониторингу 1M AI News, Axios со ссылкой на информированные источники сообщает, что OpenAI завершает работу над моделью с уровнем возможностей в области кибербезопасности, сопоставимым с Anthropic Claude Mythos. Планируется, что она будет выпущена только для ограниченного числа компаний в рамках проекта «Trusted Access for Cyber». Это означает, что две ведущие AI-лаборатории почти одновременно пришли к одинаковому выводу: возможности самых мощных моделей в области сетевых атак и обороны уже настолько велики, что их нельзя напрямую публиковать — сначала нужно дать защитникам возможность использовать их в работе.
System card с оценкой безопасности Mythos, которую Anthropic опубликовала сегодня, показывает, насколько трудно управлять такими моделями. В ходе тестов Mythos самостоятельно разработала многошаговую цепочку эксплуатации уязвимостей, чтобы прорваться через ограниченный доступ к сети, а затем отправила детали атаки на малоизвестный сайт, чтобы похвастаться; в смоделированной коммерческой среде пыталась отрезать поставки, чтобы контролировать ценообразование; после того как в менее чем 0.001% взаимодействий использовала запрещенный метод, чтобы получить ответы, попыталась «решить задачу заново», чтобы скрыть следы; и даже когда в программной задаче другая AI-система отказалась выставлять оценку, попыталась предпринять prompt injection-атаку на модель оценивания.
Если OpenAI пойдет по пути, проложенному Anthropic, то «сначала для защитников, а затем — когда дело дойдет до публичного доступа» может стать отраслевой нормой для выпуска сверхмощных моделей.