#GatePreIPOsLaunchesWithSpaceX


Anthropic lançou a nova versão: Claude Opus 4.7 😈

A Anthropic acabou de lançar o Claude Opus 4.7 — seu modelo mais poderoso disponível ao público até hoje. E na tabela de comparação mostraram também o Claude Mythos Preview — um "monstro" interno, que ainda não é disponibilizado para todos (devido às suas poderosas capacidades cibernéticas).

Programação orientada a agentes (é o mais importante para desenvolvedores)
SWE-bench Pro (tarefas complexas do mundo real na correção de bugs):
Mythos Preview — 77,8% | Opus 4.7 — 64,3% | Opus 4.6 — 53,4% | GPT-5.4 — 57,7%
SWE-bench Verificado: Mythos — 93,9% | Opus 4.7 — 87,6% | Opus 4.6 — 80,8%

Isso é um avanço enorme. Mythos quase duplica os resultados dos modelos de 2024–2025 em tarefas reais no GitHub.
Terminal-Bench 2.0 (trabalho no terminal, codificação orientada a agentes):
Mythos — 82,0% | GPT-5.4 — 75,1% | Opus 4.7 — 69,4%

Pensamento multidisciplinar e tarefas complexas Humanity’s Last Exam (um dos exames finais mais difíceis da humanidade, multidisciplinar, nível de pós-graduação):

Mythos — 56,8% | Opus 4.7 — 46,9% Com ferramentas: Mythos — 64,7% | Opus 4.7 — 54,7%
GPQA Diamond (alto nível de raciocínio científico): Todas as principais modelos cerca de 94%, Mythos um pouco à frente — 94,6%.

Capacidades orientadas a agentes
Uso de ferramentas escalonado (MCP-Atlas):
Opus 4.7 — 77,3% (líder entre os disponíveis)
Uso de computador orientado a agentes (OSWorld-Verified): Opus 4.7 — 78,0% | Mythos — 79,6%
Busca orientada a agentes (BrowseComp): GPT-5.4 lidera com 89,3%, Mythos — 86,9%
Reprodução de vulnerabilidades de cibersegurança (CyberGym): Mythos — 83,1% (é especialmente forte aqui)

Pensamento visual e multimodalidade CharXiv Reasoning: Opus 4.7 sem ferramentas — 82,1% | com ferramentas — 91,0% Mythos — 93,2% com ferramentas.
Perguntas e respostas multilíngues (MMMLU): Opus 4.7 e 4.6 — cerca de 91%, Gemini 3.1 Pro — 92,6%.

Opus 4.7 é a melhor escolha atualmente para a maioria das tarefas:
Muito melhor que o Opus 4.6 em quase tudo (especialmente na codificação orientada a agentes, uso de computador, raciocínio visual e análise financeira).
O preço é o mesmo: $5 / $25 por milhão de tokens.
Disponível para todos via Claude, API, Bedrock, Vertex AI, etc.
Melhorias no trabalho com imagens de alta qualidade (até 3,75 MP), novo nível de esforço “extra high”, revisão ultra no Claude Code, etc.

Mythos Preview é realmente algo de outro mundo — é o próximo nível. Domina quase todos os benchmarks de agentes e tarefas complexas. A Anthropic mantém ele com acesso restrito (Project Glasswing), porque o modelo é especialmente forte na busca e reprodução de vulnerabilidades em código. Basicamente — é uma “arma cibernética” de nível frontier, que ainda está sendo testada com salvaguardas reforçadas. A Anthropic afirma: o Opus 4.7 fica atrás do Mythos em quase todos os aspectos, mas é mais seguro e já disponível para produção.

2026 já não será apenas “chatbots”. Vemos verdadeiros agentes que podem trabalhar horas no terminal, corrigir código real, analisar finanças e resolver tarefas de nível PhD.
O Opus 4.7 já pode ser usado em produção para fluxos de trabalho complexos. O Mythos indica para onde a indústria está se movendo nos próximos meses.

Será que esse é o futuro já agora?
O que vocês acham? 🤝
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar