Evaluasi komprehensif Veo 3 baru saja menganalisis lebih dari 18.000 video di seluruh tolok ukur kualitatif dan kuantitatif. Yang mencolok adalah kemampuan model untuk memahami, mengedit, dan berinteraksi dengan lingkungan visual mulai dari hanya input gambar dan teks. Sistem ini menunjukkan kemampuan penalaran awal yang muncul tanpa pelatihan eksplisit di bidang ini—menandai lompatan yang signifikan dalam cara AI memahami dan memanipulasi konten visual. Jenis kompetensi multimodal ini sedang mengubah apa yang kita harapkan dari model generasi video generasi berikutnya.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
5
Posting ulang
Bagikan
Komentar
0/400
BtcDailyResearcher
· 2025-12-31 20:30
Sial, Veo 3 langsung bisa memahami lingkungan visual dari gambar dan teks? Kemampuan muncul ini agak menakutkan ya
Lihat AsliBalas0
ForkInTheRoad
· 2025-12-31 13:33
Aduh, lebih dari 18000 video pengujian? Jumlah data ini sangat solid, rasanya Veo 3 benar-benar bekerja diam-diam melakukan hal besar
Lihat AsliBalas0
mev_me_maybe
· 2025-12-28 21:47
ngl kemampuan muncul ini benar-benar tidak bisa lagi ditahan, dibuat sendiri tanpa pelatihan... rasanya semakin dekat dengan AGI umum
Lihat AsliBalas0
gas_fee_therapy
· 2025-12-28 21:39
veo3 data ini benar-benar luar biasa, lebih dari 18000+ sampel video yang dijalankan mampu menampilkan kemampuan penalaran seperti ini... Tapi sejujurnya, rasanya masih sedikit kurang dari kemampuan visual reasoning yang sebenarnya
Lihat AsliBalas0
MetaEggplant
· 2025-12-28 21:28
veo3 gelombang ini memang benar-benar hebat, tanpa diberitahu secara jelas tentang pelatihan, tetapi sendiri belajar melakukan penalaran, inilah yang membuatnya menakutkan
Evaluasi komprehensif Veo 3 baru saja menganalisis lebih dari 18.000 video di seluruh tolok ukur kualitatif dan kuantitatif. Yang mencolok adalah kemampuan model untuk memahami, mengedit, dan berinteraksi dengan lingkungan visual mulai dari hanya input gambar dan teks. Sistem ini menunjukkan kemampuan penalaran awal yang muncul tanpa pelatihan eksplisit di bidang ini—menandai lompatan yang signifikan dalam cara AI memahami dan memanipulasi konten visual. Jenis kompetensi multimodal ini sedang mengubah apa yang kita harapkan dari model generasi video generasi berikutnya.