#GatePreIPOsLaunchesWithSpaceX


Anthropic подвез пушечку: Claude Opus 4.7 😈

Anthropic только что выкатила Claude Opus 4.7 — свой самый мощный общедоступный модель на сегодня. А в таблице для сравнения показали и Claude Mythos Preview — внутренний «монстр», который пока не дают всем подряд (из-за мощных киберспособностей).

Агентное программирование (самое важное для разработчиков)
SWE-bench Pro (сложные реальные задачи по фиксу багов):
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

Это огромный скачок. Mythos почти удваивает результаты моделей 2024–2025 годов на реальных GitHub-задачах.
Terminal-Bench 2.0 (работа в терминале, агентное кодинг):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

Многостороннее мышление и сложные задачи Humanity’s Last Exam (один из самых жёстких «последних экзаменов человечества» мультидисциплинарный, graduate-level):

Mythos — 56.8% | Opus 4.7 — 46.9% С инструментами: Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (высокий уровень научного мышления):Все топ-модели около 94%, Mythos чуть впереди — 94.6%.

Агентные возможности
Scaled tool use (MCP-Atlas):
Opus 4.7 — 77.3% (лидер среди доступных)
Agentic computer use (OSWorld-Verified): Opus 4.7 — 78.0% | Mythos — 79.6%
Agentic search (BrowseComp): GPT-5.4 лидирует с 89.3%, Mythos — 86.9%
Cybersecurity vulnerability reproduction (CyberGym): Mythos — 83.1% (здесь он особенно опасно силён)

Визуальное мышление и мультимодальность CharXiv Reasoning: Opus 4.7 без инструментов — 82.1% | с инструментами — 91.0% Mythos — 93.2% с инструментами.
Multilingual Q&A (MMMLU): Opus 4.7 и 4.6 — около 91%, Gemini 3.1 Pro — 92.6%.

Opus 4.7 — это лучший выбор прямо сейчас для большинства задач:
Значительно лучше Opus 4.6 почти во всём (особенно в агентном кодинге, компьютерном использовании, визуальном reasoning и финансовом анализе).
Цена та же: $5 / $25 за миллион токенов.
Доступен всем через Claude, API, Bedrock, Vertex AI и т.д.
Улучшена работа с высококачественными изображениями (до 3.75 MP), новый «extra high» effort level, ultra review в Claude Code и т.д.

Mythos Preview это вообще пздц что за зверь — это следующий уровень. Он доминирует почти во всех агентных и сложных бенчмарках. Anthropic держит его в ограниченном доступе (Project Glasswing), потому что модель особенно сильна в поиске и воспроизведении уязвимостей в коде. По сути — это «кибер-оружие» уровня frontier, которое пока тестируют с усиленными safeguard’ами. Anthropic прямо говорит: Opus 4.7 уступает Mythos почти по всем осям, но при этом безопаснее и уже доступен для продакшена.

2026 год — это уже не просто «чатботы». Мы видим настоящих агентов, которые могут часами работать в терминале, фиксить реальный код, анализировать финансы и решать задачи уровня PhD.
Opus 4.7 уже можно ставить в продакшен для сложных workflow. Mythos же намекает, куда движется индустрия в ближайшие месяцы.

Наверное это будущее уже сейчас?
как вы считаете? 🤝
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить