Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Щохвилини десятки мільйонів помилок, розслідування розкриває «ілюзію точності» пошуку Google AI
Автор: Клод, Deep Tide TechFlow
Deep Tide Вступ: Спільне тестування AI-стартапу Oumi у співпраці з The New York Times показало, що точність функції AI-резюме пошуку Google (AI Overviews) становить приблизно 91%, але враховуючи обсяг обробки 5 трильйонів пошукових запитів на рік, це означає, що щохвилини виникає десятки мільйонів помилкових відповідей. Ще гірше, що навіть якщо відповідь правильна, понад половина посилань на джерела не підтверджують її висновки.
Google поширює помилкову інформацію у масштабах, яких раніше не бачили, і більшість користувачів про це навіть не підозрює.
За повідомленням The New York Times, AI-стартап Oumi за дорученням провів оцінку точності функції AI Overviews у Google, використовуючи стандартний тест SimpleQA, розроблений OpenAI. Тест охопив 4326 пошукових запитів, проведених у жовтні минулого року (з двигуном Gemini 2) та у лютому цього року (після оновлення до Gemini 3). Результати показали, що точність Gemini 2 становила близько 85%, а Gemini 3 підвищилася до 91%.
91% звучить добре, але у масштабах Google це зовсім інша справа. Щороку Google обробля близько 5 трильйонів пошукових запитів, і за при 9% рівні помилок, AI Overviews щохвилини генерує понад 57 мільйонів неточних відповідей, майже по мільйону за хвилину.
Відповіді правильні, джерела — ні
Більш тривожною є проблема «відсутності прив’язки» джерел цитувань.
Дані Oumi показують, що у часи Gemini 2, 37% правильних відповідей містили проблему «відсутності обґрунтованих посилань», тобто посилання, додані до AI-резюме, не підтверджували надану інформацію. Після оновлення до Gemini 3 цей показник не знизився, а навпаки, зріс до 56%. Іншими словами, модель все менше «здає домашнє завдання», даючи правильні відповіді, але все менше підтверджує їх джерелами.
Генеральний директор Oumi Манос Куккумідіс прямо поставив питання: «Навіть якщо відповідь правильна, як ви можете бути впевнені, що вона правильна? Як її перевірити?»
Велика кількість низькоякісних джерел у AI Overviews посилює цю проблему. Oumi виявила, що Facebook і Reddit є другим і четвертим за значущістю джерелами цитувань у AI Overviews. У неточних відповідях частка посилань на Facebook досягала 7%, тоді як у точних відповідях — лише 5%.
Британський журналіст створив фейкову статтю, яка за 24 години «заради» поширення
Ще один серйозний недолік AI Overviews — їх легка маніпуляція.
Журналіст BBC провів тест, використовуючи сфальсифіковану статтю, і менш ніж за 24 години Google AI-резюме вже подавало цю фальшиву інформацію як факт.
Це означає, що будь-хто, хто розуміє механізми роботи системи, може через публікацію фальшивого контенту та збільшення його популярності «заради» поширення, «заражувати» результати пошуку AI. Представник Google Ned Adriance відповів, що функція пошукового AI базується на тих самих механізмах ранжування та безпеки, що й фільтрація спаму, і додав, що більшість тестових випадків — це запити, які користувачі навряд чи будуть шукати.
Google заперечує: сам тест має проблеми
Google висловив кілька зауважень щодо дослідження Oumi. Представник компанії заявив, що дослідження «має серйозні недоліки», зокрема: сам тест SimpleQA містить неточну інформацію; Oumi використовує власну модель AI HallOumi для оцінки роботи іншої AI, що може додавати похибки; зміст тесту не відображає реальну поведінку користувачів при пошуку.
Внутрішні тести Google також показали, що при автономній роботі Gemini 3 поза пошуковою системою Google, частка фальшивих відповідей сягала 28%. Однак Google наголошує, що AI Overviews використовує систему ранжування пошукових результатів для підвищення точності, і її показники кращі, ніж у моделі самостійно.
Проте, як зазначає PCMag, логіка парадоксальна: якщо ваша захистка полягає у тому, що «звинувачення у неточності нашого AI самі базуються на потенційно неточному AI», це навряд чи підвищить довіру користувачів до точності вашого продукту.