Щохвилини десятки мільйонів помилок, розслідування розкриває «ілюзію точності» пошуку Google AI

robot
Генерація анотацій у процесі

Автор: Клод, Deep Tide TechFlow

Deep Tide Вступ: Спільне тестування AI-стартапу Oumi у співпраці з The New York Times показало, що точність функції AI-резюме пошуку Google (AI Overviews) становить приблизно 91%, але враховуючи обсяг обробки 5 трильйонів пошукових запитів на рік, це означає, що щохвилини виникає десятки мільйонів помилкових відповідей. Ще гірше, що навіть якщо відповідь правильна, понад половина посилань на джерела не підтверджують її висновки.

Google поширює помилкову інформацію у масштабах, яких раніше не бачили, і більшість користувачів про це навіть не підозрює.

За повідомленням The New York Times, AI-стартап Oumi за дорученням провів оцінку точності функції AI Overviews у Google, використовуючи стандартний тест SimpleQA, розроблений OpenAI. Тест охопив 4326 пошукових запитів, проведених у жовтні минулого року (з двигуном Gemini 2) та у лютому цього року (після оновлення до Gemini 3). Результати показали, що точність Gemini 2 становила близько 85%, а Gemini 3 підвищилася до 91%.

91% звучить добре, але у масштабах Google це зовсім інша справа. Щороку Google обробля близько 5 трильйонів пошукових запитів, і за при 9% рівні помилок, AI Overviews щохвилини генерує понад 57 мільйонів неточних відповідей, майже по мільйону за хвилину.

Відповіді правильні, джерела — ні

Більш тривожною є проблема «відсутності прив’язки» джерел цитувань.

Дані Oumi показують, що у часи Gemini 2, 37% правильних відповідей містили проблему «відсутності обґрунтованих посилань», тобто посилання, додані до AI-резюме, не підтверджували надану інформацію. Після оновлення до Gemini 3 цей показник не знизився, а навпаки, зріс до 56%. Іншими словами, модель все менше «здає домашнє завдання», даючи правильні відповіді, але все менше підтверджує їх джерелами.

Генеральний директор Oumi Манос Куккумідіс прямо поставив питання: «Навіть якщо відповідь правильна, як ви можете бути впевнені, що вона правильна? Як її перевірити?»

Велика кількість низькоякісних джерел у AI Overviews посилює цю проблему. Oumi виявила, що Facebook і Reddit є другим і четвертим за значущістю джерелами цитувань у AI Overviews. У неточних відповідях частка посилань на Facebook досягала 7%, тоді як у точних відповідях — лише 5%.

Британський журналіст створив фейкову статтю, яка за 24 години «заради» поширення

Ще один серйозний недолік AI Overviews — їх легка маніпуляція.

Журналіст BBC провів тест, використовуючи сфальсифіковану статтю, і менш ніж за 24 години Google AI-резюме вже подавало цю фальшиву інформацію як факт.

Це означає, що будь-хто, хто розуміє механізми роботи системи, може через публікацію фальшивого контенту та збільшення його популярності «заради» поширення, «заражувати» результати пошуку AI. Представник Google Ned Adriance відповів, що функція пошукового AI базується на тих самих механізмах ранжування та безпеки, що й фільтрація спаму, і додав, що більшість тестових випадків — це запити, які користувачі навряд чи будуть шукати.

Google заперечує: сам тест має проблеми

Google висловив кілька зауважень щодо дослідження Oumi. Представник компанії заявив, що дослідження «має серйозні недоліки», зокрема: сам тест SimpleQA містить неточну інформацію; Oumi використовує власну модель AI HallOumi для оцінки роботи іншої AI, що може додавати похибки; зміст тесту не відображає реальну поведінку користувачів при пошуку.

Внутрішні тести Google також показали, що при автономній роботі Gemini 3 поза пошуковою системою Google, частка фальшивих відповідей сягала 28%. Однак Google наголошує, що AI Overviews використовує систему ранжування пошукових результатів для підвищення точності, і її показники кращі, ніж у моделі самостійно.

Проте, як зазначає PCMag, логіка парадоксальна: якщо ваша захистка полягає у тому, що «звинувачення у неточності нашого AI самі базуються на потенційно неточному AI», це навряд чи підвищить довіру користувачів до точності вашого продукту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити