Puluhan juta kesalahan setiap jam, penyelidikan mengungkap "ilusi akurasi" dalam pencarian AI Google

robot
Pembuatan abstrak sedang berlangsung

Penulis: Claude, Deep Tide TechFlow

Panduan Deep Tide: Uji terbaru dari The New York Times bersama startup AI Oumi menunjukkan bahwa tingkat akurasi ringkasan AI pencarian Google (AI Overviews) sekitar 91%, tetapi dengan volume pencarian Google yang mencapai 5 triliun per tahun, ini berarti setiap jam menghasilkan puluhan juta jawaban yang salah. Lebih rumit lagi, bahkan jika jawaban benar, lebih dari setengah tautan referensi juga tidak mampu mendukung kesimpulannya.

Google sedang menyebarkan informasi yang salah kepada pengguna dalam skala yang belum pernah terjadi sebelumnya, dan kebanyakan orang tidak menyadarinya.

Menurut laporan The New York Times, startup AI Oumi yang ditugaskan oleh Google melakukan evaluasi akurasi terhadap fitur AI Overviews Google menggunakan tes standar industri SimpleQA yang dikembangkan oleh OpenAI. Pengujian mencakup 4326 kueri pencarian, dilakukan dua kali—pada Oktober tahun lalu (dengan Gemini 2) dan Februari tahun ini (setelah peningkatan ke Gemini 3). Hasilnya menunjukkan, tingkat akurasi Gemini 2 sekitar 85%, dan Gemini 3 meningkat menjadi 91%.

91% terdengar bagus, tetapi jika diterapkan pada volume Google, ini adalah hal yang berbeda. Google menangani sekitar 5 triliun pencarian setiap tahun, dengan tingkat kesalahan 9%, AI Overviews menghasilkan lebih dari 57 juta jawaban tidak akurat per jam, hampir 1 juta per menit.

Jawaban benar, sumbernya salah

Lebih mengkhawatirkan daripada tingkat akurasi adalah masalah “lepas jangkar” dari sumber kutipan.

Data dari Oumi menunjukkan bahwa pada era Gemini 2, 37% jawaban yang benar mengandung masalah “kutipan tanpa dasar”, yaitu tautan yang disertakan dalam ringkasan AI tidak mendukung informasi yang diberikan. Setelah peningkatan ke Gemini 3, persentasenya malah meningkat menjadi 56%. Dengan kata lain, model semakin jarang “mengumpulkan tugas”.

CEO Oumi Manos Koukoumidis secara langsung menyoroti inti masalah: “Meskipun jawaban itu benar, bagaimana Anda tahu itu benar? Bagaimana Anda memverifikasinya?”

Jumlah kutipan sumber yang berkualitas rendah dalam AI Overviews memperburuk masalah ini. Oumi menemukan bahwa Facebook dan Reddit masing-masing adalah sumber kutipan kedua dan keempat terbesar dalam AI Overviews. Dalam jawaban yang tidak akurat, Facebook dikutip sebanyak 7%, lebih tinggi dari 5% dalam jawaban yang akurat.

Artikel palsu wartawan BBC, berhasil “meracuni” dalam 24 jam

Kelemahan serius lain dari AI Overviews adalah sangat mudah dimanipulasi.

Seorang wartawan BBC menguji dengan sebuah artikel palsu yang sengaja dibuat, dan dalam waktu kurang dari 24 jam, ringkasan AI Google menampilkan informasi palsu tersebut sebagai fakta kepada pengguna.

Ini berarti siapa pun yang memahami mekanisme sistem dapat memanfaatkan penyebaran konten palsu dan meningkatkan trafiknya untuk “meracuni” hasil pencarian AI. Juru bicara Google, Ned Adriance, menanggapi hal ini dengan mengatakan bahwa fitur AI pencarian didasarkan pada mekanisme peringkat dan keamanan yang sama dengan yang digunakan untuk memblokir spam, dan menyebut bahwa “kebanyakan contoh dalam pengujian ini adalah kueri yang tidak realistis dan jarang dicari orang.”

Google membantah: Pengujian itu sendiri bermasalah

Google mengajukan beberapa keberatan terhadap studi Oumi. Juru bicara Google menyatakan bahwa studi tersebut “mengandung celah serius,” termasuk: dasar pengujian SimpleQA sendiri mengandung informasi yang tidak akurat; Oumi menggunakan model AI mereka sendiri, HallOumi, untuk menilai performa AI lain, yang berpotensi menimbulkan kesalahan tambahan; isi pengujian tidak mencerminkan perilaku pencarian pengguna yang sebenarnya.

Pengujian internal Google juga menunjukkan bahwa saat Gemini 3 berjalan secara independen dari kerangka pencarian Google, tingkat keluaran palsu mencapai 28%. Namun, Google menegaskan bahwa AI Overviews menggunakan sistem peringkat pencarian untuk meningkatkan akurasi, dan tampil lebih baik daripada model itu sendiri.

Namun, seperti yang dikomentari PCMag, paradoks logika: jika alasan pembelaan Anda adalah “laporan yang menunjukkan ketidakakuratan AI kami sendiri juga menggunakan AI yang mungkin tidak akurat,” hal ini mungkin tidak akan meningkatkan kepercayaan pengguna terhadap akurasi produk Anda.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan