最新のBMJ Openに発表された研究によると、五大AIチャットボットが医療に関する質問に回答する際、約50％の回答に問題があり、そのうち約20％は「非常に問題がある」と評価されている。ブルームバーグは、この研究がAI医療応用の体系的リスクを明らかにしていると指摘し、特にOpenAIとAnthropicが医療分野の展開を同時に拡大している状況は、非常に皮肉だと述べている。
（前提：チャットボットに自分の病歴を渡すべきではない？ChatGPT Healthの医療野心とプライバシーの賭け）
（背景補足：カリフォルニア大学の研究「AIの霧現象」：14％のサラリーマンがエージェントや自動化に狂わされ、離職意欲が40％増加）

この記事の目次

トグル

Grokのパフォーマンス最悪、ChatGPTも遜色なし
AIが自信を持つほど、リスクは高まる
OpenAIとAnthropic：研究はブレーキ、商業はアクセル
AIを信頼するが、条件付き

毎週2億3千万以上の人がChatGPTに健康や医療の質問をしているが、その回答の約半数は問題がある可能性がある。今週医学誌『BMJ Open』に発表された研究では、米国、カナダ、英国の研究者たちが、ChatGPT、Gemini、Meta AI、Grok、DeepSeekの五つのプラットフォームを体系的に評価し、それぞれのプラットフォームに対して五つの医療カテゴリーにまたがる計10の質問を行った。

結果はあまり楽観的ではなく、約50％の回答が問題と認定され、そのうち約20％は「非常に問題がある」と評価された。

Grokのパフォーマンスが最も悪く、ChatGPTも遜色ない

ブルームバーグの報道によると、各プラットフォームのパフォーマンスには大きな差があるが、いずれも試験をクリアできていない。各プラットフォームの回答率を見ると、Grokは58％でトップに立ち、最も悪いとされるプラットフォームだった。次いでChatGPTは52％、Meta AIは50％だった。

研究者たちは、閉鎖的な質問やワクチン・癌に関する質問では比較的良好なパフォーマンスを示した一方、オープンな質問や幹細胞、栄養などの分野では明らかにパフォーマンスが低下したことを観察している。また、回答拒否は2回だけで、そのすべてがMeta AIからだった（ある意味、自分が答えるべきでないと知っていることが逆に稀有な長所とも言える）。

さらに警戒すべきは、これらAIが出す回答は自信に満ち、断定的な口調で、遠慮がないことだ。研究者たちは特に強調している：どのチャットボットも、どんな質問に対しても、完全で正確な参考文献リストを提供できるものは一つもない。これは、AIが「根拠があるように見える」だけで、その背後の出典はほとんど検証できず、そもそも存在しないことさえあることを意味している。

AIが自信を持つほど、リスクは高まる

研究者たちは論文の中で、これらのシステムが「権威のように聞こえるが、実際には瑕疵のある回答」を生成し得ることを指摘し、AIチャットボットが一般の健康・医療コミュニケーションにおいて「行動上の重大な制約」を持ち、「展開方法の再評価」が必要であることを浮き彫りにしている。

ブルームバーグも、研究チームの警告を引用している：公衆の教育や規制メカニズムが不足したまま、大規模にチャットボットを展開することの最大リスクは、誤った医療情報の拡散と助長にある。

対照的に、JAMAの別の研究では、AIが初期診断のケースで失敗する確率は80％を超えると指摘されている。オックスフォード大学も2026年2月に警鐘を鳴らし、AIチャットボットによる医療提案の体系的リスクに注意を促している。

OpenAIとAnthropic：研究はブレーキ、商業はアクセル

この研究の発表タイミングは非常に劇的だ。数か月前、OpenAIは2026年1月にChatGPT Healthを大々的にリリースした。この機能は、ユーザーが電子カルテやウェアラブルデバイス、健康アプリと連携できるもので、臨床医向けの専門版も提供している。OpenAIは、すでに毎日4,000万人がChatGPTを通じて健康情報を問い合わせていると公表している。

ほぼ同時期に、AnthropicもClaude for Healthcareを発表し、HIPAA準拠の認証を取得して医療市場に本格参入した。

これらのプラットフォームは医療免許も持たず、臨床判断能力も欠如しているにもかかわらず、驚くべきスピードで医療分野への展開を進めている。研究結果と商業拡大の動きの間には、規制の空白地帯が存在していることを示している。AI医療ツールの市場宣伝と実際の医療安全の間には、明確な防護線はまだ引かれていない。

信頼できるAIだが、条件付き

これまでにもAI医療応用が問題視されたことはあったが、そのたびに同じ結論が示されてきた：AIチャットボットは言語モデルであり、「正しそうに聞こえる」ことは得意だが、「確実に正しい」わけではない。特に、ユーザーが真剣な健康不安を抱えて相談する場合、「正しそうに聞こえる」だけで意思決定に大きな影響を与える。

OpenAIやAnthropicなどの企業が医療シーンに深く関わるにつれ、規制や公衆教育のスピードは技術の拡大に追いついていない。明確な規制枠組みが整う前に、この研究は私たちに次のことを警告している：AIは健康情報の入口にはなり得るが、最終地点ではない。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GatePreIPOsLaunchesWithSpaceX
157.15K 人気度
#
Gate13thAnniversaryLive
425.35K 人気度
#
IsraelStrikesIranBTCPlunges
29.97K 人気度
#
US-IranTalksVSTroopBuildup
774.86K 人気度
#
CryptoMarketRecovery
98.31K 人気度

ピン

サイトマップ

研究発見：AIが提供する医療アドバイスのほぼ半数に問題がある、Grokが最悪、OpenAIは依然として医療分野での野心を拡大中

Grokのパフォーマンスが最も悪く、ChatGPTも遜色ない

AIが自信を持つほど、リスクは高まる

OpenAIとAnthropic：研究はブレーキ、商業はアクセル

信頼できるAIだが、条件付き

人気の話題

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

ピン