2025-12-28 21:20:33

Evaluasi komprehensif Veo 3 baru saja menganalisis lebih dari 18.000 video di seluruh tolok ukur kualitatif dan kuantitatif. Yang mencolok adalah kemampuan model untuk memahami, mengedit, dan berinteraksi dengan lingkungan visual mulai dari hanya input gambar dan teks. Sistem ini menunjukkan kemampuan penalaran awal yang muncul tanpa pelatihan eksplisit di bidang ini—menandai lompatan yang signifikan dalam cara AI memahami dan memanipulasi konten visual. Jenis kompetensi multimodal ini sedang mengubah apa yang kita harapkan dari model generasi video generasi berikutnya.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
5
Posting ulang
Bagikan

Komentar

0/400

BtcDailyResearcher

· 2025-12-31 20:30

Sial, Veo 3 langsung bisa memahami lingkungan visual dari gambar dan teks? Kemampuan muncul ini agak menakutkan ya

Lihat AsliBalas0

ForkInTheRoad

· 2025-12-31 13:33

Aduh, lebih dari 18000 video pengujian? Jumlah data ini sangat solid, rasanya Veo 3 benar-benar bekerja diam-diam melakukan hal besar

Lihat AsliBalas0

mev_me_maybe

· 2025-12-28 21:47

ngl kemampuan muncul ini benar-benar tidak bisa lagi ditahan, dibuat sendiri tanpa pelatihan... rasanya semakin dekat dengan AGI umum

Lihat AsliBalas0

gas_fee_therapy

· 2025-12-28 21:39

veo3 data ini benar-benar luar biasa, lebih dari 18000+ sampel video yang dijalankan mampu menampilkan kemampuan penalaran seperti ini... Tapi sejujurnya, rasanya masih sedikit kurang dari kemampuan visual reasoning yang sebenarnya

Lihat AsliBalas0

MetaEggplant

· 2025-12-28 21:28

veo3 gelombang ini memang benar-benar hebat, tanpa diberitahu secara jelas tentang pelatihan, tetapi sendiri belajar melakukan penalaran, inilah yang membuatnya menakutkan

Lihat AsliBalas0