News | Gate.com

2026-04-27

05:17

GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode "Spud" dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5. Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat. Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut "Expert-SWE." Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos 77.8% yang belum dirilis Anthropic. Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi. DeepSeek V4 dinilai sebagai "mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin," dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa "Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi," dengan komentar bahwa "Claude menang melawan model Tionghoa di bahasa aslinya." Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan "biaya per tugas" bukan "biaya per token." Harga GPT-5.5 dua kali lipat dari GPT-5.4 input $5, output per million tokens, tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.

Lainnya

04:57

Xiaomi Mengungkap Detail Pelatihan MiMo-V2-Pro: Parameter Model 1T, Ribuan GPU Diterjunkan

Berita Industri AI

Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.

Lainnya

04:29

V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5

Berita Industri AI

Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk

Lainnya

01:13

Anthropic Merilis Claude Opus 4.7 dengan Perlindungan Keamanan Siber

Berita Industri AI

Claude Opus 4.7 milik Anthropic, diumumkan pada 17 April, meningkatkan keamanan siber dengan perlindungan terhadap permintaan berisiko tinggi. Model ini meningkatkan performa pemrograman dan penanganan gambar, tetapi kemampuannya lebih rendah dibanding Mythos Preview yang dirilis terbatas. Masukan dari rilis ini akan menjadi panduan bagi model-model di masa depan.

Lainnya

09:51

Musk: Grok masih mengejar Claude Opus 4.6, diperkirakan mendekat pada bulan Mei dan mengungguli pada bulan Juni

Berita Industri AI

Musk mengatakan di platform X bahwa model Grok dari xAI sedang mengejar Anthropic’s Claude Opus 4.6, dengan perkiraan mendekati level pada bulan Mei dan mungkin melampauinya pada bulan Juni. Ia mengatakan bahwa di bidang AI, waktu ini tergolong panjang. Claude Opus 4.6 adalah model AI andalan dari Anthropic, termasuk versi terkuat dari seri Claude 4.

Lainnya

02:14

Musk mengungkap jumlah parameter Grok 4.2, pihak luar memperkirakan bahwa Claude Opus atau bisa mencapai 50 triliun parameter

Berita Industri AI

Musk di platform X mengonfirmasi bahwa ukuran parameter Grok 4.2 adalah 0,5 triliun, dan perkiraan menunjukkan bahwa parameter Claude Opus sekitar 5 triliun, sedangkan Sonnet 1 triliun. Meskipun Anthropic belum mempublikasikan jumlah parameter modelnya, angka-angka ini berasal dari pernyataan Musk. Sementara itu, superkomputer Colossus 2 dari SpaceX AI sedang melatih model dengan ukuran maksimum 10 triliun parameter, yang akan menjadi kunci persaingan.

Lainnya

01:39

VVV (Venice) naik 19,99% dalam 24 jam

Volatilitas Harga

Token AI

Berita dari Gate News, pada 10 April, menurut data harga Gate, hingga saat artikel ini dibuat, VVV (Venice) saat ini diperdagangkan pada 8,03 dolar AS, dan dalam 24 jam terakhir mengalami pump sebesar 19,99%, mencapai tertinggi 8,00 dolar AS, serta terendah turun menjadi 6,64 dolar AS; volume perdagangan 24 jam mencapai 833.6k dolar AS. Kapitalisasi pasar saat ini sekitar 364M dolar AS. Venice adalah platform AI yang berfokus pada privasi, menyediakan layanan seperti pembuatan percakapan dan pembuatan gambar, namun tidak menyimpan data pengguna. Pengguna dapat mengakses secara privat atau anonim termasuk model AI terdepan di industri seperti Claude Opus, GPT-5.2, Flux 2, dan lainnya, sekaligus menikmati perlindungan data yang sepenuhnya privat—semua prompt AI tetap tersimpan di perangkat pengguna, tidak disimpan di server. Selain itu, Venice bertujuan untuk menghapuskan

Lainnya

VVV0,94%

RENDER0,65%

IOTA0,62%

12:36

GLM-5.1 diluncurkan secara resmi oleh Zhipu, kemampuan pengkodean jauh lebih unggul dibandingkan generasi sebelumnya, terbuka untuk semua pengguna GLM Coding Plan.

智谱发布了GLM-5.1，使所有GLM Coding Plan用户可用。在编码能力测试中，GLM-5.1得分45.3，显著优于前代的35.4，并接近Claude Opus 4.6，显示出明显的进步。

Lainnya

11:51

Batas kecepatan bukan satu-satunya masalah: Claude mengalami 25 gangguan layanan dalam dua minggu, tiga lini produk mengalami downtime besar, Opus 4.6 menjadi daerah yang paling terdampak.

Baru-baru ini, layanan Claude dari Anthropic mengalami downtime yang signifikan, yang berdampak pada tiga lini produk utama. Laporan menunjukkan bahwa antara 13 hingga 27 Maret, terjadi sekitar 25 gangguan, dengan tingkat kesalahan tertinggi terkait masalah sistem login. Meskipun tingkat operasi normal dipertahankan sekitar 99%, permintaan layanan dan tekanan kapasitas jelas meningkat.

Lainnya

05:07

20B model search capability matches GPT-5 and Opus: vector database Chroma open source Agent search model Context-1

Database vektor sumber terbuka Chroma telah merilis Context-1, sebuah model pencarian agen cerdas berparameter 20 miliar yang dirancang untuk penelusuran multi-babak. Model ini menggunakan teknik pengeditan konteks diri, dilatih pada berbagai tugas dengan penguatan pembelajaran dan mekanisme kurikulum, serta menunjukkan kinerja yang sangat baik, terutama di bidang web, keuangan, dan hukum, dan juga memperlihatkan kemampuan penelusuran lintas-bidang di bidang email.

Lainnya