opinião impopular: os lançamentos de modelos de IA estão a ficar aborrecidos.


não porque os modelos não estejam a melhorar.. estão.
mas cada lançamento é só.. benchmarks.
@OpenAI acabou de lançar o GPT-5.4 e o anúncio inteiro é basicamente esta tabela.
75% no OSWorld. 57,7% no SWE-Bench Pro. 94,4% no GPQA Diamond.
fixe.. mas o que é que isso significa para mim, a construir coisas às 2 da manhã?
ninguém fora do AI twitter liga a uma melhoria de 2% no MMLU. ninguém. zero pessoas.
a parte mais divertida? olha bem para a tabela..
> Opus 4.6 está ao alcance em quase todos os benchmarks.
> Gemini 3.1 Pro a bater discretamente todos no BrowseComp com 85,9%.
o "vencedor" muda dependendo da linha que olhas.
Sabes o que quero mesmo ver?
mostra-me a tarefa do mundo real confusa que ele consegue fazer melhor do que antes. mostra-me a demonstração que me faz pensar um pouco. mostra-me alguém a construir algo com isso que não era possível no mês passado.
o melhor benchmark é "isto facilitou a minha vida?"
é só isso. essa é toda a avaliação.
as empresas estão aqui a celebrar os resultados de matemática enquanto os utilizadores só querem saber se finalmente consegue lidar com uma base de código de 4K linhas sem partir metade das funcionalidades.
começa por aí.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar