ChatGPT 健康をリリースしてから6日後、OpenAIは自社の医療健康ベンチマークで逆転されました

作者:Li Yuan

你有没有向 AI アシスタントにあなたの健康問題を尋ねたことがありますか?

もしあなたも私と同じくAIの深いユーザーであれば、おそらく試したことがあるでしょう。

OpenAI自身が出したデータによると、健康はChatGPTの最も一般的な利用シーンの一つとなっており、世界中で毎週2.3億人以上が健康やヘルスケアに関する質問をしています。

そのため、2026年に向けて、ヘルスケア分野もAI分野の必争の地となる兆しが見えています。

1月7日、OpenAIはChatGPTヘルスケアをリリースし、電子医療記録や各種健康アプリと連携できるようにし、よりターゲットを絞った医療回答を提供できるようにしました。一方、1月12日、AnthropicもClaude for Healthcareを即座に発表し、新モデルの医療シナリオ能力を強調しました。

しかし面白いことに、中国企業も遅れずに、むしろリードする勢いです。

1月13日、百川智能は百川M3モデルを発表し、OpenAIが公開した医療・ヘルスケア分野の評価テストセットHealthBenchで、OpenAIのGPT-5.2 Highを上回り、SOTAを獲得しました。

All-in医療に対して多くの疑問が投げかけられた後、百川智能はついに自らの実力を証明したようです。GeekParkも今回は特別に王小川と百川智能が今回のM3モデルの能力やAI医療の最終局面について語り合いました。

01 初めて健康分野のテストセットでOpenAIを超える

今回発表されたM3モデルの最も注目すべき成果の一つは、OpenAIが公開した医療・ヘルスケア分野の評価テストセットHealthBenchで、初めてOpenAIのGPT-5.2 Highを超え、SOTAを獲得したことです。

SOTA On Healthbench、Healthbench Hard and Hallucination Evaluation

Healthbenchは、OpenAIが2025年5月に公開した医療・ヘルスケア分野の評価テストセットで、60か国から集まった262人の医師が共同で構築し、5000の高度にリアルな多輪医療対話を収録しています。これは現在、世界で最も権威があり、臨床現場に近い医療評価セットの一つです。

公開後、OpenAIのモデルは常にトップを維持してきました。

しかし今回、百川智能の新世代オープンソース医療大規模モデルBaichuan-M3は、総合得点65.1点で世界一となり、特に複雑な意思決定能力を試すHealthBench Hardでも優勝し、最高スコアを更新しました。

また、幻覚率のテスト結果も同時に公開されており、幻覚率は3.5%と、世界最低水準です。

注目すべきは、この幻覚率は外部検索ツールに依存せず、純粋なモデル設定下での医療幻覚率であることです。

百川智能は、これら二つの点を達成できたのは、医療に適した強化学習アルゴリズムを導入したことにあると述べています。

百川はM3モデルで初めてFact Aware RL(事実認識強化学習)技術を採用し、モデルが無駄話をせず、乱暴に話さない効果を実現しました。

これは医療分野において非常に重要です。

最適化されていないモデルで医療質問をすると、最も起こりやすい問題は二つあります。一つは、モデルが症状をでっちあげて疾患を臆測すること。もう一つは、意味が曖昧で、最終的に医者に診てもらう必要があると示唆することです。これは医師も患者もあまり役に立ちません。

これは、多くのモデルが純粋な幻覚率を最適化目標としているためであり、その場合、モデルは単純に正しい事実を積み重ねて幻覚率を希釈しようとします。これに対し、百川は語義クラスタリングと重要度加重メカニズムを導入し、クラスタリングによる冗長表現の干渉を排除し、重要な医学的判断により高い重みを付与しています。

また、高重みの幻覚ペナルティだけを導入すると、「少なく話して誤りを避ける」保守的戦略に陥りやすいため、Fact Aware RLのアルゴリズムには、モデルの能力レベルに応じてこの二つの目標を自動的にバランスさせる動的重み調整メカニズムも設計されています。能力構築段階では医療知識の学習と表現に重点を置き(高Task Weight)、能力が成熟した後は事実性の制約を徐々に強化します(Hallucination Weightの向上)。

ネットワーク検索が可能な場合、百川は多輪検索に基づくオンライン検証モジュールや、高効率のキャッシュシステムも導入し、大量の医療知識の整合性を図っています。

02 医師を超える問診レベル、実用段階へ

しかし、HealthbenchでOpenAIを超えたことだけが今回の唯一のハイライトではありません。

より興味深い点は、百川自身が創造的に構築したSCAN-benche評価セットです。OpenAIの評価セットをただ追いかけるのではなく、百川が自ら構築した評価セットは、医療において最適化したい方向性をより明確に示しているかもしれません。

この評価セットのポイントは、「エンドツーエンドの問診能力」の最適化にあります。百川の実験洞察によると、問診の正確さが2%向上するごとに、診療結果の正確さは1%増加します。

つまり、OpenAIのHealthBenchと比べて、依然として「AIが質問に答えられるか」に焦点を当てているのに対し、百川のSCAN-bencheは、「AIが一問一答の中で有効な情報を取得し、正しい診療結果と医療意見を出せるか」を評価したいのです。

一般的に、AIアシスタントに質問する際、「あなたは経験豊富な医師です」とだけ伝えても、良い結果は得られにくいです。なぜなら、実際の医師の問診は非常に規範的だからです。百川はこれを四つの象限のSCAN原則にまとめました:Safety Stratification(安全分層)、Clarity Matters(情報の明確化)、Association & Inquiry(関連付けと追問)、Normative Protocol(規範的出力)。

SCAN原則を軸に、百川は医学教育で長く使われてきたOSCE方式を参考に、150人以上の第一線医師と連携して、SCAN-bench評価体系を構築しました。診療過程を病歴収集、補助検査、正確診断の三段階に分解し、動的かつ多輪の方式で評価を行い、医師の診断から確定までの全過程を模擬します。これらの過程でより良い結果を得ることで、モデルの最適化を図っています。

今回、百川はM3モデルのSCAN-bencheでの評価結果も公開しました。

結果は非常に興味深いものでした。百川はモデルとの比較だけでなく、実在の医師とも比較を行いました。その四つの象限の中で、実在の医師は実際にはモデルの達成可能なレベルにすら遅れをとっていることが判明しました。

GeekParkはこの点について百川チームに質問し、回答は次の通りです:今回の評価は、すべて実在の専門医が専門ケースでモデルと比較したものであり、モデルが勝った理由は、忍耐力があることに加え、より良い学際的知識の習得能力を持っているからです。

例えば、あるケースでは、10歳の子供の反復発熱について触れています。発熱は非常に複合的な医療現象であり、咳や肺の症状だけを尋ねると、関節や泌尿器系の深刻な問題を見落とし、誤診する可能性があります。

人間の医師は通常、科別の症状には比較的得意ですが、複雑な症状には専門医の診断や資料検索が必要となることが多いです。

訓練を受けていない普通のモデルは、こうした質問にうまく答えるのは難しいです。

03 今後の展望:C端製品の段階的開発とより厳格な医療推進

百川智能にとって、医師を超えることは非常に重要な意味を持ちます。これは、AIが実用性の門を越え、実際のシナリオに展開できる段階に入ったことを示しています。

1月13日以降、ユーザーは百小应のウェブサイトやアプリで、M3モデルの回答を体験できるようになっています。

現在のウェブサイトの設計は非常に面白く、M3モデルによる回答を行いますが、医師版と一般ユーザー版に分かれています。医師版は回答がより簡潔で、多くの参考文献を引用し、「人間らしさ」を抑えた内容になっています。一方、一般患者版では、モデルは一度に回答せず、追問を重ねてより明確な診断を行います。

百川智能は、モデルのバックエンドの思考も非常に興味深いと述べています。「私たちはよく、このモデルが思考の連鎖の中で、『この患者は私の質問に理屈をつけて答えないが、この質問は必ずしも避けられない』と述べているのを見ます。極端な例では、『すでに20ラウンドも質問したが、最大ラウンド数を超えているのに、この質問はやめられない』ともあります。これは、訓練過程でモデルが巧みに話すことを学び、報酬を得るためには、十分な重要情報を得て正確な診断をしなければならないからです。これが、他のモデルとの明確な違いです。」

近年、多くのAI企業が医療分野に参入し始めています。これも百川智能が最も異なる点だと考えています――より真剣な医療を目指すことです。

「これは、百川がシナリオ選択において、最もやりやすいものを選ぶのではなく、常に技術力を高め、より難しい課題に挑戦し続けることを意味します」と王小川は語ります。

一例として、将来的には百川は腫瘍科の解決シナリオを優先し、心理療法は後回しにする方針です。

一般的な見解では、AIによる心理療法はより簡単で、実現しやすいと考えられています。しかし、百川の判断は異なります。彼らは、腫瘍分野にはより厳格な科学的根拠があり、AIが真剣な医療効果を出しやすく、人間の医師のレベルに到達または超越する可能性が高いと考えています。一方、心理学分野にはそのような確定的な科学的基準が不足しています。

また、ある企業は医師の分身を作ることを選びましたが、王小川はこれについても、百川が目指す方向ではないと述べています。医師の分身は、医師のレベルを完全に再現できず、超えることもできません。こうしたAIは最終的に、見せかけや集客ツールに過ぎず、真の医療の推進にはつながりません。

この真剣さへのこだわりは、百川の多くのビジネス選択に深く影響しています。

これは、王小川が医療AIの次の段階で根本的に考えている問題に直結します。彼は、現段階で最も重要な課題は、AIの能力を高めることを土台に、より多くの医療供給を段階的に提供していくことだと考えています。

中国では長年、階層化診療と総合診療医制度の推進を試みてきました。目的は、一般市民がまず基層で診療を受け、大病院の予約難や長い待ち時間、混雑を解消することです。

この制度の推進が難しいのは、医療資源の供給不足に起因します。基層の医療機関には高水準の医師が不足しており、風邪程度でも三甲病院に行列を作るのは、基層の診療レベルに不信感があるからです。

これこそ、医療AIが果たすべき重要な役割です。大規模モデルは、最先端の医学知識を規模化して配信できるため、基層の供給ギャップを埋め、地域や家庭ごとに三甲病院の専門医と同等の診療能力を持たせることが可能です。

長期的には、これにより医療の意思決定権が医師からユーザーに徐々に移行する可能性もあります。従来の医療シナリオでは、患者は利益の受益者ですが、意思決定権は医師に集中しています。この権力の非対称性は、コミュニケーションコストや治療の苦痛をもたらすことがあります。

百川はAIを通じて、患者が質の高い医療資源をより簡単に得られるようにしたいと考えています。「多くの人は医療があまりにも複雑すぎて、患者は永遠に理解できないと思っています。でも、私たちが考えているのは、アメリカの司法制度にある陪審制度のようなものです。法律も非常に専門的なもので、陪審員は素人です。だから裁判官や弁護士、検察官が導き、十分な弁論を行い、普通の人が有罪か無罪か判断できるレベルまで話を明確にする。そうすれば、普通の人も論理的に判断できる」と王小川は語ります。

これも、百川智能が単純なシナリオだけにとどまらず、より難易度の高い厳格な診療に向かって進みたい理由の一つです。

高難度の問題解決が商業的に最もリターンが大きいかと尋ねられた際、王小川は深い答えを返しました。

彼は、風邪や発熱といった小さな問題を解決しても、ユーザーの信頼を十分に築くのは難しいと考えています。医療は信頼に非常に依存する業界です。AIが重篤な疾患などの高難度の問題を解決できるようになったとき、初めて信頼の土台が築かれるのです。

ビジネスの観点から見ると、深刻な健康問題に直面した患者は、高品質なAIサービスに対してより多くの支払い意欲を持つようになります。この信頼は、商業的なリターンの前提であるだけでなく、AI医療の規模拡大の核心でもあります。

また、より根本的な意味では、医療は百川智能と王小川本人にとっても、汎用人工知能(AGI)への一つの道筋を示しています。

王小川は、AIは現在、文、理、工、芸などの分野で具体的な解決策を見出しており、医療は非常にユニークな分野だと考えています。人類の医学探究は未だ尽きておらず、AIもこの分野で模索段階にあります。

百川のロードマップは非常に明確です。まずAIを用いて診断効率を向上させ、現在の医療供給不足の問題を解決します。その上で、患者との深い信頼関係を築き、長期的にAIを用いた医療相談を続けることで、AIは長期的に真実で高品質な医療データを蓄積します。

これらのデータの最終的な目標は、生命の数学モデルを構築することです。これは、人間の医師が今まで完全に到達できなかった道であり、将来的にはAIが先に実現する可能性が高いです。生命の本質のモデル化が成功すれば、それは汎用人工知能のさらなる進歩を促す重要な一歩となるでしょう。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン