Vous est-il déjà arrivé de poser des questions sur votre santé à un assistant IA ?
Si vous êtes comme moi un utilisateur avancé d’IA, il y a de fortes chances que oui.
Les données fournies par OpenAI indiquent que la santé est devenue l’un des scénarios d’utilisation les plus courants de ChatGPT, avec plus de 2,3 milliards de personnes dans le monde qui posent chaque semaine des questions liées à la santé et au bien-être.
C’est pourquoi, à l’aube de 2026, le domaine de la santé montre également des signes forts de devenir une zone de compétition incontournable dans le secteur de l’IA.
Le 7 janvier, OpenAI a lancé ChatGPT Santé, permettant aux utilisateurs de connecter leurs dossiers médicaux électroniques et diverses applications de santé, afin d’obtenir des réponses médicales plus ciblées ; et le 12 janvier, Anthropic a immédiatement lancé Claude for Healthcare, en soulignant les capacités du nouveau modèle dans des scénarios médicaux.
Fait intéressant, cette fois, les entreprises chinoises ne sont pas en reste, et semblent même vouloir prendre une avance.
Le 13 janvier, Baichuan Intelligence a annoncé le lancement du modèle Baichuan M3, qui a surpassé le GPT-5.2 High d’OpenAI dans le test d’évaluation du domaine médical HealthBench, obtenant le statut de SOTA.
Après avoir été critiquée pour avoir annoncé que son approche « All-in médical » était sujette à controverse, Baichuan Intelligence semble enfin avoir fait ses preuves. GeekPark a également spécialement interviewé Wang Xiaochuan pour discuter de la façon dont Baichuan perçoit les capacités du modèle M3 et la fin de la médecine assistée par IA.
01 Première fois que le test dans le domaine de la santé dépasse OpenAI
L’un des résultats les plus remarquables du lancement du M3 est qu’il a, pour la première fois, dépassé le GPT-5.2 High d’OpenAI dans le test d’évaluation du domaine médical HealthBench, obtenant le statut de SOTA.
SOTA sur HealthBench, Hard et Hallucination Evaluation
HealthBench est un ensemble d’évaluation du domaine médical publié par OpenAI en mai 2025, construit par 262 médecins de 60 pays, comprenant 5000 dialogues médicaux multi-tours très réalistes. Il s’agit de l’un des ensembles d’évaluation médicale les plus autorisés et proches des scénarios cliniques réels au niveau mondial.
Depuis sa publication, le modèle d’OpenAI domine le classement.
Mais cette fois, le nouveau grand modèle open source de Baichuan, Baichuan-M3, a obtenu un score global de 65,1, la première place mondiale, et a même remporté la première place dans la catégorie HealthBench Hard, qui teste la capacité de prise de décision complexe, battant tous les autres modèles.
Baichuan a également publié un résultat de test sur le taux d’hallucination, qui s’élève à 3,5 %, le plus bas au monde.
Il est important de noter que ce taux d’hallucination est mesuré sans recourir à des outils de recherche externes, uniquement avec le modèle en configuration pure.
Baichuan indique que ces deux performances clés ont été rendues possibles grâce à l’introduction d’algorithmes d’apprentissage par renforcement adaptés au domaine médical.
Pour la première fois, Baichuan a utilisé la technologie Fact Aware RL (apprentissage par renforcement basé sur la conscience des faits) dans le modèle M3, permettant d’éviter que le modèle ne parle en boucle ou ne raconte n’importe quoi.
Ce point est en réalité crucial dans le domaine médical.
Dans un modèle non optimisé, poser une question médicale peut entraîner deux types de problèmes : d’une part, le modèle peut inventer ou extrapoler des symptômes ou une maladie ; d’autre part, la réponse peut être vague, laissant finalement l’utilisateur dans l’incertitude, ce qui n’aide ni le médecin ni le patient.
Cela s’explique par le fait que de nombreux modèles optimisent uniquement le taux d’hallucination, en accumulant des faits simples et corrects pour diluer le taux global d’hallucination. Baichuan a introduit une mécanique de clustering sémantique et de pondération de l’importance — éliminant les redondances par clustering, et renforçant la pondération des conclusions médicales essentielles.
Par ailleurs, si l’on se contente d’introduire une forte pénalité pour hallucination, cela peut pousser le modèle à adopter une stratégie conservatrice de « peu parler, peu se tromper ». C’est pourquoi l’algorithme Fact Aware RL intègre aussi un mécanisme d’ajustement dynamique des poids, qui équilibre ces deux objectifs en fonction du niveau de compétence du modèle — lors de la phase d’apprentissage, en privilégiant l’acquisition et l’expression des connaissances médicales (poids élevé sur la tâche) ; une fois la compétence atteinte, en resserrant progressivement la contrainte sur la factualité (augmentation du poids Hallucination).
Lorsque la connexion Internet est disponible, Baichuan a également intégré un module de vérification en ligne basé sur la recherche multi-tours, avec un système de cache efficace pour aligner une vaste base de connaissances médicales.
02 Niveau de diagnostic supérieur à celui des médecins, entrée en phase opérationnelle
Mais surpasser OpenAI dans HealthBench n’est pas la seule nouveauté de cette annonce.
Un autre point plus intéressant est que Baichuan a créé de manière créative un ensemble d’évaluation appelé SCAN-benche. Plutôt que de se contenter de battre des records sur des ensembles d’évaluation d’OpenAI, cet ensemble construit par Baichuan lui-même pourrait mieux refléter la direction que souhaite prendre Baichuan dans le domaine médical.
Ce nouvel ensemble vise principalement à optimiser « la capacité de diagnostic end-to-end ». Selon leurs expérimentations, une augmentation de 2 % de la précision du diagnostic entraîne une hausse de 1 % de la précision du traitement.
En résumé, par rapport à HealthBench d’OpenAI, qui se concentre principalement sur « l’IA répond-elle à la question », Baichuan veut évaluer si l’IA peut, dans une interaction question-réponse, extraire des informations efficaces tout en fournissant un diagnostic et des conseils médicaux corrects.
En général, lorsqu’on pose une question à un assistant IA, si l’on mentionne simplement « vous êtes un médecin expérimenté », on n’obtient pas forcément un bon résultat. En effet, le processus de consultation chez un vrai médecin est très structuré — Baichuan l’a synthétisé en quatre quadrants selon le principe SCAN : Safety Stratification (sécurité par stratification), Clarity Matters (clarté de l’information), Association & Inquiry (relation et questionnement), et Normative Protocol (normes de sortie).
En s’appuyant sur ces principes, Baichuan s’est inspiré de la méthode OSCE, longtemps utilisée dans la formation médicale, en collaborant avec plus de 150 médecins de première ligne pour construire le système d’évaluation SCAN-bench. La consultation est décomposée en trois phases : collecte de l’anamnèse, examens complémentaires, diagnostic précis. Le tout en mode dynamique et multi-tours, simulant le processus complet du médecin, de la prise en charge à la confirmation du diagnostic, en cherchant à optimiser chaque étape.
Baichuan a également publié les résultats du modèle M3 sur SCAN-bench.
Les résultats sont très intéressants. Non seulement ils ont comparé le modèle à des humains, mais ils ont aussi fait intervenir de vrais médecins pour la comparaison. Dans les quatre quadrants, les médecins réels sont en réalité déjà dépassés par le niveau que le modèle peut atteindre.
GeekPark a posé la question à l’équipe Baichuan, qui a répondu : cette évaluation a été réalisée en comparant des médecins spécialistes sur des cas spécialisés. La supériorité du modèle s’explique d’abord par sa patience, mais surtout par sa meilleure maîtrise des connaissances interdisciplinaires.
Par exemple, dans un cas où un enfant de 10 ans présente des fièvres récurrentes, la fièvre étant un phénomène médical très complexe, se limiter à demander des symptômes respiratoires comme la toux peut faire oublier des problèmes graves au niveau des articulations ou du système urinaire, conduisant à une erreur de diagnostic.
Les médecins humains sont généralement plus compétents pour des cas spécialisés, ce qui explique que les cas complexes nécessitent souvent l’avis d’experts ou que ces derniers doivent consulter des ouvrages pour approfondir.
Un modèle ordinaire, non entraîné spécifiquement, jouant simplement le rôle de médecin, aura souvent du mal à répondre efficacement à ce type de questions.
03 La prochaine étape : commencer à développer des produits pour le grand public et promouvoir une médecine plus sérieuse
Pour Baichuan Intelligence, dépasser le niveau des médecins humains est une étape cruciale : cela signifie que l’IA franchit le seuil de l’utilisabilité et peut être déployée dans des scénarios réels.
Depuis le 13 janvier, les utilisateurs peuvent déjà expérimenter les réponses du modèle M3 sur le site et l’application BaixiaoYing.
Le design du site est très intéressant : même si toutes les réponses sont générées par M3, il y a une distinction entre la version médecin et la version utilisateur. La version médecin fournit des réponses plus concises, cite davantage de références, et est plus « peu bavarde ». La version pour patients, quant à elle, ne donne presque jamais une réponse unique, mais pose davantage de questions pour clarifier le diagnostic.
Baichuan indique que la réflexion en arrière-plan du modèle est très intéressante. « Nous voyons souvent que dans la chaîne de pensée du modèle, il mentionne : ‘Ce patient ne comprend pas ma question, mais je dois la poser.’ Ou même, dans des cas extrêmes, ‘J’ai déjà posé 20 questions au patient, cela dépasse le nombre maximal de tours, mais je dois continuer.’ Cela s’explique par le fait qu’en entraînement, le modèle doit formuler ses réponses de manière convaincante pour être récompensé. Il doit obtenir suffisamment d’informations clés et un diagnostic correct pour recevoir une récompense. C’est une différence claire avec d’autres méthodes d’entraînement. »
De nombreuses entreprises d’IA commencent à s’intéresser au domaine médical. C’est aussi ce qui distingue Baichuan : leur objectif est de faire de la médecine plus sérieuse.
« Cela signifie que Baichuan ne choisit pas ses scénarios en fonction de leur facilité, mais cherche à repousser constamment ses capacités techniques et à relever des défis plus difficiles », explique Wang Xiaochuan.
Un exemple typique est que Baichuan privilégiera à l’avenir la spécialité en oncologie, tandis que la thérapie psychologique sera une priorité moindre.
Dans l’opinion populaire, on pense souvent que la thérapie psychologique par IA est plus simple et plus facile à mettre en œuvre. La logique de Baichuan est différente : ils considèrent que le domaine du cancer repose sur des bases scientifiques plus strictes. Dans ce domaine, l’IA a plus de chances d’obtenir des résultats médicaux sérieux, voire de dépasser le niveau des médecins. En revanche, la psychologie manque de points d’ancrage scientifiques aussi solides.
Par exemple, certaines entreprises proposent de créer des avatars de médecins. Wang Xiaochuan pense que cette voie n’est pas celle que Baichuan souhaite suivre. Un avatar de médecin ne peut pas reproduire intégralement le niveau d’un vrai médecin, ni le dépasser. Une telle IA ne sera qu’un outil de marketing ou de recrutement, sans véritable avancée dans la médecine sérieuse.
Cette exigence de sérieux influence profondément de nombreux choix commerciaux de Baichuan.
Elle est aussi liée à la réflexion de Wang Xiaochuan sur la prochaine étape fondamentale de l’IA médicale. Selon lui, la tâche la plus importante à ce stade est d’améliorer la capacité de l’IA tout en fournissant progressivement plus de services médicaux.
La Chine a longtemps tenté de mettre en place un système de soins hiérarchisé et de médecins généralistes. L’objectif était que la population consulte d’abord dans des établissements de proximité, pour réduire la difficulté d’accès aux grands hôpitaux, les longues files d’attente et la congestion.
Ce système rencontre des difficultés principalement parce que l’offre en ressources médicales est insuffisante. Les établissements de proximité manquent de médecins hautement qualifiés. Même pour un simple rhume, beaucoup préfèrent aller aux hôpitaux de niveau 3, par méfiance envers la qualité des soins locaux.
C’est là que l’IA médicale peut jouer un rôle clé. Les grands modèles peuvent diffuser à grande échelle les connaissances médicales de pointe. Ils comblent le déficit en offre dans les zones rurales, permettant à chaque communauté et à chaque famille de bénéficier d’un niveau de diagnostic comparable à celui d’un spécialiste de niveau 3.
À long terme, cela pourrait aussi transformer la prise de décision médicale, en transférant progressivement le pouvoir de décision des médecins vers les utilisateurs. Dans le cadre traditionnel, le patient est bénéficiaire mais n’a pas le pouvoir de décision. Ce pouvoir est concentré chez le médecin, ce qui peut entraîner des coûts de communication et des souffrances dans le traitement.
Baichuan souhaite utiliser l’IA pour rendre l’accès à des ressources médicales de qualité plus facile pour les patients. « Beaucoup pensent que la médecine est trop complexe, que le patient ne pourra jamais tout comprendre. Mais dans notre système judiciaire américain, il y a un jury. La loi est très spécialisée, et si le jury ne comprend pas, le juge, l’avocat et le procureur doivent mener un débat approfondi pour expliquer clairement, afin qu’un citoyen ordinaire puisse juger de la culpabilité ou de l’innocence. Il faut que la personne ordinaire puisse faire une évaluation logique », explique Wang Xiaochuan.
C’est aussi l’une des raisons pour lesquelles Baichuan ne veut pas se limiter à des scénarios simples, mais souhaite continuer à progresser vers des diagnostics plus complexes et sérieux.
Lorsqu’on lui demande si la résolution de problèmes difficiles est la voie la plus rentable en termes commerciaux, Wang Xiaochuan répond de manière profonde.
Il estime que résoudre des petits problèmes comme le rhume ou la fièvre ne permet pas de gagner la confiance suffisante des utilisateurs. La médecine est un secteur où la confiance est essentielle. Ce n’est qu’en traitant des maladies graves et complexes que l’IA pourra réellement établir une base de confiance.
D’un point de vue commercial, lorsque le problème de santé est sérieux, le patient sera plus disposé à payer pour un service IA de haute qualité. Cette confiance est non seulement la clé du succès commercial, mais aussi le fondement de l’application à grande échelle de l’IA médicale.
Plus fondamentalement, la médecine représente aussi pour Baichuan et Wang Xiaochuan une voie vers une intelligence artificielle générale (AGI).
Wang Xiaochuan pense que l’IA a déjà trouvé des solutions concrètes dans les domaines de la littérature, des sciences, de l’ingénierie et des arts, mais la médecine est un domaine très particulier. La recherche humaine en médecine n’est pas encore achevée, et l’IA en est encore à ses débuts dans ce secteur.
La feuille de route de Baichuan est très claire. D’abord, améliorer l’efficacité du diagnostic grâce à l’IA pour pallier la pénurie de ressources médicales. Ensuite, établir une confiance profonde avec les patients. Lorsqu’un patient accepte d’utiliser l’IA pour des consultations à long terme, celle-ci pourra accumuler des données médicales réelles et de haute qualité.
L’objectif ultime de ces données est de construire un modèle mathématique de la vie. C’est une voie encore inexplorée par les médecins, mais que l’IA pourrait potentiellement ouvrir en premier. Si l’on parvient à modéliser la nature de la vie, cela pourrait devenir une étape clé pour faire progresser l’AGI vers des niveaux supérieurs.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Publication de ChatGPT Santé, 6 jours plus tard, OpenAI est dépassé sur son propre Benchmark en santé médicale
Auteur : Li Yuan
Vous est-il déjà arrivé de poser des questions sur votre santé à un assistant IA ?
Si vous êtes comme moi un utilisateur avancé d’IA, il y a de fortes chances que oui.
Les données fournies par OpenAI indiquent que la santé est devenue l’un des scénarios d’utilisation les plus courants de ChatGPT, avec plus de 2,3 milliards de personnes dans le monde qui posent chaque semaine des questions liées à la santé et au bien-être.
C’est pourquoi, à l’aube de 2026, le domaine de la santé montre également des signes forts de devenir une zone de compétition incontournable dans le secteur de l’IA.
Le 7 janvier, OpenAI a lancé ChatGPT Santé, permettant aux utilisateurs de connecter leurs dossiers médicaux électroniques et diverses applications de santé, afin d’obtenir des réponses médicales plus ciblées ; et le 12 janvier, Anthropic a immédiatement lancé Claude for Healthcare, en soulignant les capacités du nouveau modèle dans des scénarios médicaux.
Fait intéressant, cette fois, les entreprises chinoises ne sont pas en reste, et semblent même vouloir prendre une avance.
Le 13 janvier, Baichuan Intelligence a annoncé le lancement du modèle Baichuan M3, qui a surpassé le GPT-5.2 High d’OpenAI dans le test d’évaluation du domaine médical HealthBench, obtenant le statut de SOTA.
Après avoir été critiquée pour avoir annoncé que son approche « All-in médical » était sujette à controverse, Baichuan Intelligence semble enfin avoir fait ses preuves. GeekPark a également spécialement interviewé Wang Xiaochuan pour discuter de la façon dont Baichuan perçoit les capacités du modèle M3 et la fin de la médecine assistée par IA.
01 Première fois que le test dans le domaine de la santé dépasse OpenAI
L’un des résultats les plus remarquables du lancement du M3 est qu’il a, pour la première fois, dépassé le GPT-5.2 High d’OpenAI dans le test d’évaluation du domaine médical HealthBench, obtenant le statut de SOTA.
SOTA sur HealthBench, Hard et Hallucination Evaluation
HealthBench est un ensemble d’évaluation du domaine médical publié par OpenAI en mai 2025, construit par 262 médecins de 60 pays, comprenant 5000 dialogues médicaux multi-tours très réalistes. Il s’agit de l’un des ensembles d’évaluation médicale les plus autorisés et proches des scénarios cliniques réels au niveau mondial.
Depuis sa publication, le modèle d’OpenAI domine le classement.
Mais cette fois, le nouveau grand modèle open source de Baichuan, Baichuan-M3, a obtenu un score global de 65,1, la première place mondiale, et a même remporté la première place dans la catégorie HealthBench Hard, qui teste la capacité de prise de décision complexe, battant tous les autres modèles.
Baichuan a également publié un résultat de test sur le taux d’hallucination, qui s’élève à 3,5 %, le plus bas au monde.
Il est important de noter que ce taux d’hallucination est mesuré sans recourir à des outils de recherche externes, uniquement avec le modèle en configuration pure.
Baichuan indique que ces deux performances clés ont été rendues possibles grâce à l’introduction d’algorithmes d’apprentissage par renforcement adaptés au domaine médical.
Pour la première fois, Baichuan a utilisé la technologie Fact Aware RL (apprentissage par renforcement basé sur la conscience des faits) dans le modèle M3, permettant d’éviter que le modèle ne parle en boucle ou ne raconte n’importe quoi.
Ce point est en réalité crucial dans le domaine médical.
Dans un modèle non optimisé, poser une question médicale peut entraîner deux types de problèmes : d’une part, le modèle peut inventer ou extrapoler des symptômes ou une maladie ; d’autre part, la réponse peut être vague, laissant finalement l’utilisateur dans l’incertitude, ce qui n’aide ni le médecin ni le patient.
Cela s’explique par le fait que de nombreux modèles optimisent uniquement le taux d’hallucination, en accumulant des faits simples et corrects pour diluer le taux global d’hallucination. Baichuan a introduit une mécanique de clustering sémantique et de pondération de l’importance — éliminant les redondances par clustering, et renforçant la pondération des conclusions médicales essentielles.
Par ailleurs, si l’on se contente d’introduire une forte pénalité pour hallucination, cela peut pousser le modèle à adopter une stratégie conservatrice de « peu parler, peu se tromper ». C’est pourquoi l’algorithme Fact Aware RL intègre aussi un mécanisme d’ajustement dynamique des poids, qui équilibre ces deux objectifs en fonction du niveau de compétence du modèle — lors de la phase d’apprentissage, en privilégiant l’acquisition et l’expression des connaissances médicales (poids élevé sur la tâche) ; une fois la compétence atteinte, en resserrant progressivement la contrainte sur la factualité (augmentation du poids Hallucination).
Lorsque la connexion Internet est disponible, Baichuan a également intégré un module de vérification en ligne basé sur la recherche multi-tours, avec un système de cache efficace pour aligner une vaste base de connaissances médicales.
02 Niveau de diagnostic supérieur à celui des médecins, entrée en phase opérationnelle
Mais surpasser OpenAI dans HealthBench n’est pas la seule nouveauté de cette annonce.
Un autre point plus intéressant est que Baichuan a créé de manière créative un ensemble d’évaluation appelé SCAN-benche. Plutôt que de se contenter de battre des records sur des ensembles d’évaluation d’OpenAI, cet ensemble construit par Baichuan lui-même pourrait mieux refléter la direction que souhaite prendre Baichuan dans le domaine médical.
Ce nouvel ensemble vise principalement à optimiser « la capacité de diagnostic end-to-end ». Selon leurs expérimentations, une augmentation de 2 % de la précision du diagnostic entraîne une hausse de 1 % de la précision du traitement.
En résumé, par rapport à HealthBench d’OpenAI, qui se concentre principalement sur « l’IA répond-elle à la question », Baichuan veut évaluer si l’IA peut, dans une interaction question-réponse, extraire des informations efficaces tout en fournissant un diagnostic et des conseils médicaux corrects.
En général, lorsqu’on pose une question à un assistant IA, si l’on mentionne simplement « vous êtes un médecin expérimenté », on n’obtient pas forcément un bon résultat. En effet, le processus de consultation chez un vrai médecin est très structuré — Baichuan l’a synthétisé en quatre quadrants selon le principe SCAN : Safety Stratification (sécurité par stratification), Clarity Matters (clarté de l’information), Association & Inquiry (relation et questionnement), et Normative Protocol (normes de sortie).
En s’appuyant sur ces principes, Baichuan s’est inspiré de la méthode OSCE, longtemps utilisée dans la formation médicale, en collaborant avec plus de 150 médecins de première ligne pour construire le système d’évaluation SCAN-bench. La consultation est décomposée en trois phases : collecte de l’anamnèse, examens complémentaires, diagnostic précis. Le tout en mode dynamique et multi-tours, simulant le processus complet du médecin, de la prise en charge à la confirmation du diagnostic, en cherchant à optimiser chaque étape.
Baichuan a également publié les résultats du modèle M3 sur SCAN-bench.
Les résultats sont très intéressants. Non seulement ils ont comparé le modèle à des humains, mais ils ont aussi fait intervenir de vrais médecins pour la comparaison. Dans les quatre quadrants, les médecins réels sont en réalité déjà dépassés par le niveau que le modèle peut atteindre.
GeekPark a posé la question à l’équipe Baichuan, qui a répondu : cette évaluation a été réalisée en comparant des médecins spécialistes sur des cas spécialisés. La supériorité du modèle s’explique d’abord par sa patience, mais surtout par sa meilleure maîtrise des connaissances interdisciplinaires.
Par exemple, dans un cas où un enfant de 10 ans présente des fièvres récurrentes, la fièvre étant un phénomène médical très complexe, se limiter à demander des symptômes respiratoires comme la toux peut faire oublier des problèmes graves au niveau des articulations ou du système urinaire, conduisant à une erreur de diagnostic.
Les médecins humains sont généralement plus compétents pour des cas spécialisés, ce qui explique que les cas complexes nécessitent souvent l’avis d’experts ou que ces derniers doivent consulter des ouvrages pour approfondir.
Un modèle ordinaire, non entraîné spécifiquement, jouant simplement le rôle de médecin, aura souvent du mal à répondre efficacement à ce type de questions.
03 La prochaine étape : commencer à développer des produits pour le grand public et promouvoir une médecine plus sérieuse
Pour Baichuan Intelligence, dépasser le niveau des médecins humains est une étape cruciale : cela signifie que l’IA franchit le seuil de l’utilisabilité et peut être déployée dans des scénarios réels.
Depuis le 13 janvier, les utilisateurs peuvent déjà expérimenter les réponses du modèle M3 sur le site et l’application BaixiaoYing.
Le design du site est très intéressant : même si toutes les réponses sont générées par M3, il y a une distinction entre la version médecin et la version utilisateur. La version médecin fournit des réponses plus concises, cite davantage de références, et est plus « peu bavarde ». La version pour patients, quant à elle, ne donne presque jamais une réponse unique, mais pose davantage de questions pour clarifier le diagnostic.
Baichuan indique que la réflexion en arrière-plan du modèle est très intéressante. « Nous voyons souvent que dans la chaîne de pensée du modèle, il mentionne : ‘Ce patient ne comprend pas ma question, mais je dois la poser.’ Ou même, dans des cas extrêmes, ‘J’ai déjà posé 20 questions au patient, cela dépasse le nombre maximal de tours, mais je dois continuer.’ Cela s’explique par le fait qu’en entraînement, le modèle doit formuler ses réponses de manière convaincante pour être récompensé. Il doit obtenir suffisamment d’informations clés et un diagnostic correct pour recevoir une récompense. C’est une différence claire avec d’autres méthodes d’entraînement. »
De nombreuses entreprises d’IA commencent à s’intéresser au domaine médical. C’est aussi ce qui distingue Baichuan : leur objectif est de faire de la médecine plus sérieuse.
« Cela signifie que Baichuan ne choisit pas ses scénarios en fonction de leur facilité, mais cherche à repousser constamment ses capacités techniques et à relever des défis plus difficiles », explique Wang Xiaochuan.
Un exemple typique est que Baichuan privilégiera à l’avenir la spécialité en oncologie, tandis que la thérapie psychologique sera une priorité moindre.
Dans l’opinion populaire, on pense souvent que la thérapie psychologique par IA est plus simple et plus facile à mettre en œuvre. La logique de Baichuan est différente : ils considèrent que le domaine du cancer repose sur des bases scientifiques plus strictes. Dans ce domaine, l’IA a plus de chances d’obtenir des résultats médicaux sérieux, voire de dépasser le niveau des médecins. En revanche, la psychologie manque de points d’ancrage scientifiques aussi solides.
Par exemple, certaines entreprises proposent de créer des avatars de médecins. Wang Xiaochuan pense que cette voie n’est pas celle que Baichuan souhaite suivre. Un avatar de médecin ne peut pas reproduire intégralement le niveau d’un vrai médecin, ni le dépasser. Une telle IA ne sera qu’un outil de marketing ou de recrutement, sans véritable avancée dans la médecine sérieuse.
Cette exigence de sérieux influence profondément de nombreux choix commerciaux de Baichuan.
Elle est aussi liée à la réflexion de Wang Xiaochuan sur la prochaine étape fondamentale de l’IA médicale. Selon lui, la tâche la plus importante à ce stade est d’améliorer la capacité de l’IA tout en fournissant progressivement plus de services médicaux.
La Chine a longtemps tenté de mettre en place un système de soins hiérarchisé et de médecins généralistes. L’objectif était que la population consulte d’abord dans des établissements de proximité, pour réduire la difficulté d’accès aux grands hôpitaux, les longues files d’attente et la congestion.
Ce système rencontre des difficultés principalement parce que l’offre en ressources médicales est insuffisante. Les établissements de proximité manquent de médecins hautement qualifiés. Même pour un simple rhume, beaucoup préfèrent aller aux hôpitaux de niveau 3, par méfiance envers la qualité des soins locaux.
C’est là que l’IA médicale peut jouer un rôle clé. Les grands modèles peuvent diffuser à grande échelle les connaissances médicales de pointe. Ils comblent le déficit en offre dans les zones rurales, permettant à chaque communauté et à chaque famille de bénéficier d’un niveau de diagnostic comparable à celui d’un spécialiste de niveau 3.
À long terme, cela pourrait aussi transformer la prise de décision médicale, en transférant progressivement le pouvoir de décision des médecins vers les utilisateurs. Dans le cadre traditionnel, le patient est bénéficiaire mais n’a pas le pouvoir de décision. Ce pouvoir est concentré chez le médecin, ce qui peut entraîner des coûts de communication et des souffrances dans le traitement.
Baichuan souhaite utiliser l’IA pour rendre l’accès à des ressources médicales de qualité plus facile pour les patients. « Beaucoup pensent que la médecine est trop complexe, que le patient ne pourra jamais tout comprendre. Mais dans notre système judiciaire américain, il y a un jury. La loi est très spécialisée, et si le jury ne comprend pas, le juge, l’avocat et le procureur doivent mener un débat approfondi pour expliquer clairement, afin qu’un citoyen ordinaire puisse juger de la culpabilité ou de l’innocence. Il faut que la personne ordinaire puisse faire une évaluation logique », explique Wang Xiaochuan.
C’est aussi l’une des raisons pour lesquelles Baichuan ne veut pas se limiter à des scénarios simples, mais souhaite continuer à progresser vers des diagnostics plus complexes et sérieux.
Lorsqu’on lui demande si la résolution de problèmes difficiles est la voie la plus rentable en termes commerciaux, Wang Xiaochuan répond de manière profonde.
Il estime que résoudre des petits problèmes comme le rhume ou la fièvre ne permet pas de gagner la confiance suffisante des utilisateurs. La médecine est un secteur où la confiance est essentielle. Ce n’est qu’en traitant des maladies graves et complexes que l’IA pourra réellement établir une base de confiance.
D’un point de vue commercial, lorsque le problème de santé est sérieux, le patient sera plus disposé à payer pour un service IA de haute qualité. Cette confiance est non seulement la clé du succès commercial, mais aussi le fondement de l’application à grande échelle de l’IA médicale.
Plus fondamentalement, la médecine représente aussi pour Baichuan et Wang Xiaochuan une voie vers une intelligence artificielle générale (AGI).
Wang Xiaochuan pense que l’IA a déjà trouvé des solutions concrètes dans les domaines de la littérature, des sciences, de l’ingénierie et des arts, mais la médecine est un domaine très particulier. La recherche humaine en médecine n’est pas encore achevée, et l’IA en est encore à ses débuts dans ce secteur.
La feuille de route de Baichuan est très claire. D’abord, améliorer l’efficacité du diagnostic grâce à l’IA pour pallier la pénurie de ressources médicales. Ensuite, établir une confiance profonde avec les patients. Lorsqu’un patient accepte d’utiliser l’IA pour des consultations à long terme, celle-ci pourra accumuler des données médicales réelles et de haute qualité.
L’objectif ultime de ces données est de construire un modèle mathématique de la vie. C’est une voie encore inexplorée par les médecins, mais que l’IA pourrait potentiellement ouvrir en premier. Si l’on parvient à modéliser la nature de la vie, cela pourrait devenir une étape clé pour faire progresser l’AGI vers des niveaux supérieurs.