作者:クロード、Deep Tide TechFlowDeep Tideガイド:『ニューヨークタイムズ』とAIスタートアップのOumiによる最新テストによると、Google検索のAI概要機能(AI Overviews)の正確率は約91%だが、Googleが年間処理する5兆回の検索量に換算すると、これは1時間あたり数千万件の誤った回答を生み出していることになる。さらに厄介なのは、回答が正確であっても、引用リンクの半数以上がその結論を裏付けられないことだ。Googleはかつてない規模で誤情報をユーザーに提供しており、多くの人はそれに気付いていない。『ニューヨークタイムズ』によると、AIスタートアップのOumiは委託を受け、OpenAIが開発した業界標準のテスト「SimpleQA」を用いてGoogleのAI Overviewsの正確性を評価した。テストは昨年10月(Gemini 2駆動)と今年2月(Gemini 3にアップグレード)にそれぞれ一回ずつ行われ、合計4326件の検索クエリを対象とした。結果、Gemini 2の正確率は約85%、Gemini 3は91%に向上した。91%は良さそうに聞こえるが、Googleの規模で考えると話は別だ。Googleは年間約5兆回の検索を処理しており、誤り率9%とすると、AI Overviewsは1時間あたり5700万件以上の不正確な回答を生み出し、1分あたり約100万件に達する。回答は正しいが、出典が間違っている正確性以上に不安を覚えるのは、「出典の脱錨(アンカーから外れる)」問題だ。Oumiのデータによると、Gemini 2時代には、正解の37%に「根拠のない引用」が存在し、AIの要約に付随するリンクがその情報を支持していなかった。Gemini 3にアップグレード後、この割合は逆に増加し、56%に跳ね上がった。つまり、モデルは正しい答えを出しながらも、「宿題を提出しなくなる」傾向が強まっている。OumiのCEO、マノス・ククミディスは核心を突く疑問を投げかける。「答えが正しくても、それが本当に正しいとどうやって確認できるのか?どう検証すればいいのか?」AI Overviewsは低品質の出典を大量に引用しており、この問題を悪化させている。Oumiは、FacebookとRedditがAI Overviewsの第2と第4の引用源であることを発見した。不正確な回答の中では、Facebookが引用される頻度は7%であり、正確な回答の5%を上回っている。BBC記者の偽記事、24時間以内に「毒入り」成功AI Overviewsのもう一つの深刻な欠陥は、容易に操作されやすい点だ。あるBBC記者が意図的に作成した虚偽の記事を用いてテストしたところ、24時間も経たないうちに、GoogleのAI要約はその虚偽情報を事実としてユーザーに提示した。これは、システムの仕組みを理解している者なら、虚偽の内容を公開し、その流量を増やすことでAI検索結果に「毒を投じる」ことが可能であることを意味する。Googleの広報担当、ネッド・アドリアンスはこれについて、「検索AI機能はスパム排除と同じランキングとセキュリティメカニズムに基づいており、テスト中の『ほとんどの例は実際に人々が検索しない非現実的なクエリだった』」と述べた。Google反論:テスト自体に問題があるGoogleはOumiの研究に対し、複数の疑問を投げかけている。Googleの広報は、「この研究には重大な欠陥がある」とし、その理由として、SimpleQAのベンチマーク自体に不正確な情報が含まれていること、Oumiが自社のAIモデルHallOumiを用いて他のAIのパフォーマンスを評価しているため誤差が生じる可能性、そしてテスト内容が実際のユーザーの検索行動を反映していないことを挙げている。また、Googleの内部テストでは、Gemini 3がGoogle検索の枠組みから独立して動作した場合、虚偽の出力を生成する割合は28%に達したと示されている。しかし、Googleは、AI Overviewsは検索ランキングシステムを利用して正確性を向上させており、モデル単体よりも優れたパフォーマンスを示していると強調している。しかし、PCMagのコメントが指摘するように、論理的なパラドックスも存在する。もしあなたの弁護理由が「私たちのAIが不正確だと指摘する報告自体も、誤ったAIを使っている可能性がある」なら、それはユーザーに対してあなたの製品の正確性への信頼を高めることにはならないだろう。
毎時間数千万件の誤り、調査が明らかにしたGoogle AI検索の「正確性幻想」
作者:クロード、Deep Tide TechFlow
Deep Tideガイド:『ニューヨークタイムズ』とAIスタートアップのOumiによる最新テストによると、Google検索のAI概要機能(AI Overviews)の正確率は約91%だが、Googleが年間処理する5兆回の検索量に換算すると、これは1時間あたり数千万件の誤った回答を生み出していることになる。さらに厄介なのは、回答が正確であっても、引用リンクの半数以上がその結論を裏付けられないことだ。
Googleはかつてない規模で誤情報をユーザーに提供しており、多くの人はそれに気付いていない。
『ニューヨークタイムズ』によると、AIスタートアップのOumiは委託を受け、OpenAIが開発した業界標準のテスト「SimpleQA」を用いてGoogleのAI Overviewsの正確性を評価した。テストは昨年10月(Gemini 2駆動)と今年2月(Gemini 3にアップグレード)にそれぞれ一回ずつ行われ、合計4326件の検索クエリを対象とした。結果、Gemini 2の正確率は約85%、Gemini 3は91%に向上した。
91%は良さそうに聞こえるが、Googleの規模で考えると話は別だ。Googleは年間約5兆回の検索を処理しており、誤り率9%とすると、AI Overviewsは1時間あたり5700万件以上の不正確な回答を生み出し、1分あたり約100万件に達する。
回答は正しいが、出典が間違っている
正確性以上に不安を覚えるのは、「出典の脱錨(アンカーから外れる)」問題だ。
Oumiのデータによると、Gemini 2時代には、正解の37%に「根拠のない引用」が存在し、AIの要約に付随するリンクがその情報を支持していなかった。Gemini 3にアップグレード後、この割合は逆に増加し、56%に跳ね上がった。つまり、モデルは正しい答えを出しながらも、「宿題を提出しなくなる」傾向が強まっている。
OumiのCEO、マノス・ククミディスは核心を突く疑問を投げかける。「答えが正しくても、それが本当に正しいとどうやって確認できるのか?どう検証すればいいのか?」
AI Overviewsは低品質の出典を大量に引用しており、この問題を悪化させている。Oumiは、FacebookとRedditがAI Overviewsの第2と第4の引用源であることを発見した。不正確な回答の中では、Facebookが引用される頻度は7%であり、正確な回答の5%を上回っている。
BBC記者の偽記事、24時間以内に「毒入り」成功
AI Overviewsのもう一つの深刻な欠陥は、容易に操作されやすい点だ。
あるBBC記者が意図的に作成した虚偽の記事を用いてテストしたところ、24時間も経たないうちに、GoogleのAI要約はその虚偽情報を事実としてユーザーに提示した。
これは、システムの仕組みを理解している者なら、虚偽の内容を公開し、その流量を増やすことでAI検索結果に「毒を投じる」ことが可能であることを意味する。Googleの広報担当、ネッド・アドリアンスはこれについて、「検索AI機能はスパム排除と同じランキングとセキュリティメカニズムに基づいており、テスト中の『ほとんどの例は実際に人々が検索しない非現実的なクエリだった』」と述べた。
Google反論:テスト自体に問題がある
GoogleはOumiの研究に対し、複数の疑問を投げかけている。Googleの広報は、「この研究には重大な欠陥がある」とし、その理由として、SimpleQAのベンチマーク自体に不正確な情報が含まれていること、Oumiが自社のAIモデルHallOumiを用いて他のAIのパフォーマンスを評価しているため誤差が生じる可能性、そしてテスト内容が実際のユーザーの検索行動を反映していないことを挙げている。
また、Googleの内部テストでは、Gemini 3がGoogle検索の枠組みから独立して動作した場合、虚偽の出力を生成する割合は28%に達したと示されている。しかし、Googleは、AI Overviewsは検索ランキングシステムを利用して正確性を向上させており、モデル単体よりも優れたパフォーマンスを示していると強調している。
しかし、PCMagのコメントが指摘するように、論理的なパラドックスも存在する。もしあなたの弁護理由が「私たちのAIが不正確だと指摘する報告自体も、誤ったAIを使っている可能性がある」なら、それはユーザーに対してあなたの製品の正確性への信頼を高めることにはならないだろう。