Pedi ao GPT Image 2.0 para criar uma tabela de referência do opus 4.7 vs gpt 5.5.


Aquele modelo de imagem ficou realmente bom.
GPT-5.5 vence no placar principal. Mas olhe mais de perto.
OSWorld 78.7 vs 78.0. GDPval 84.9 vs 80.3. Toolathlon 55.6 vs 54.6 (mais de 5.4, não Opus).
Opus ainda leva o SWE-Bench Pro, MCP Atlas, GPQA Diamond, HLE sem ferramentas.
OpenAI fica com a faixa geral. Anthropic mantém a coroa de codificação. Na teoria.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar