Meminta GPT Image 2.0 untuk membuat tabel tolok ukur opus 4.7 vs gpt 5.5.


Model gambar itu sangat bagus.
GPT-5.5 memenangkan papan skor utama. Tapi lihat lebih dekat.
OSWorld 78.7 vs 78.0. GDPval 84.9 vs 80.3. Toolathlon 55.6 vs 54.6 (lebih dari 5.4, bukan Opus).
Opus masih memegang SWE-Bench Pro, MCP Atlas, GPQA Diamond, HLE tanpa alat.
OpenAI mendapatkan sabuk serba bisa. Anthropic tetap memegang mahkota pengkodean. Di atas kertas.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan