Após 6 dias do lançamento do ChatGPT Saúde, a OpenAI foi ultrapassada na sua própria Benchmark de saúde médica

Autor: Li Yuan

Já perguntou ao seu assistente de IA sobre questões de saúde?

Se você é como eu e é um utilizador avançado de IA, provavelmente já experimentou.

Os dados fornecidos pela própria OpenAI indicam que a saúde se tornou um dos cenários de uso mais comuns do ChatGPT, com mais de 2,3 centenas de milhões de pessoas por semana a fazer perguntas relacionadas com saúde e bem-estar em todo o mundo.

Por isso mesmo, à medida que avançamos para 2026, há sinais claros de que o setor da saúde também se tornará uma área de disputa obrigatória no campo da IA.

Em 7 de janeiro, a OpenAI lançou o ChatGPT Saúde, permitindo aos utilizadores conectar registos médicos eletrónicos e várias aplicações de saúde, para obter respostas médicas mais direcionadas; e em 12 de janeiro, a Anthropic lançou imediatamente o Claude for Healthcare, destacando as capacidades do novo modelo em cenários médicos.

Curiosamente, desta vez, as empresas chinesas também não ficaram atrás, até com uma forte vantagem.

Em 13 de janeiro, a BaiChuan Intelligence anunciou o lançamento do modelo BaiChuan M3, que superou o GPT-5.2 High da OpenAI na avaliação do conjunto de testes de saúde e medicina HealthBench, obtendo o estado da arte (SOTA).

Após a controvérsia em torno do anúncio de que o All-in Healthcare foi alvo de várias críticas, a BaiChuan Intelligence parece finalmente ter provado o seu valor. O GeekPark também conversou especialmente com Wang Xiaochuan sobre como a BaiChuan Intelligence vê as capacidades do modelo M3 e o futuro da IA na medicina.

01 Primeira vez a superar a OpenAI em um conjunto de testes na área da saúde

Um dos resultados mais impressionantes do lançamento do modelo M3 foi a sua primeira vez a superar a GPT-5.2 High da OpenAI na avaliação do conjunto de testes de saúde e medicina HealthBench, atingindo o estado da arte (SOTA).

SOTA em HealthBench, Hard e Hallucination Evaluation

O HealthBench é um conjunto de testes de avaliação na área da saúde, lançado pela OpenAI em maio de 2025, desenvolvido por 262 médicos de 60 países, incluindo 5000 diálogos médicos altamente realistas de múltiplas rodadas. É atualmente um dos conjuntos de avaliação médica mais autoritativos e próximos de cenários clínicos reais a nível global.

Desde o seu lançamento, os modelos da OpenAI têm dominado as tabelas de classificação.

Por sua vez, o novo modelo de código aberto da BaiChuan, Baichuan-M3, obteve uma pontuação global de 65,1, ficando em primeiro lugar no mundo, e também conquistou o primeiro lugar na prova mais difícil, o HealthBench Hard, que avalia decisões complexas, batendo recordes de pontuação.

A BaiChuan também divulgou um resultado de teste de taxa de alucinação, que atingiu 3,5%, uma das mais baixas a nível mundial.

Importa notar que esta taxa de alucinação é a porcentagem de erros de alucinação médica, sem depender de ferramentas externas de pesquisa, apenas com o modelo em configuração pura.

A BaiChuan afirma que alcançar esses resultados foi possível graças à introdução de algoritmos de reforço de aprendizagem (RL) específicos para o setor médico.

Na sua versão M3, a BaiChuan utilizou pela primeira vez a tecnologia Fact Aware RL (Reforço de Aprendizagem Sensível a Factos), que evita que o modelo diga coisas vazias ou fale de forma descontrolada.

Isto é especialmente importante na área médica.

Nos modelos sem otimização, ao fazer perguntas médicas, os problemas mais comuns são duas: uma, o modelo inventa sintomas ou doenças; e duas, a ambiguidade semântica, levando a recomendações de consultar um médico, o que pouco ajuda tanto médicos quanto pacientes.

Isto acontece porque muitos modelos otimizam apenas a taxa de alucinação, e, assim, podem simplesmente acumular factos corretos para diminuir a taxa de alucinação geral, sem garantir a precisão semântica.

A BaiChuan introduziu mecanismos de agrupamento semântico e ponderação de importância — agrupando para eliminar redundâncias e dando maior peso às conclusões médicas essenciais.

Ao mesmo tempo, ao introduzir penalizações por alucinação de alta ponderação, o modelo pode ser forçado a adotar uma estratégia conservadora de “falar menos, errar menos”. Assim, o algoritmo Fact Aware RL inclui um mecanismo de ajuste de peso dinâmico, que equilibra esses dois objetivos de forma adaptativa, dependendo do nível de capacidade do modelo: na fase de construção de capacidade, foca na aprendizagem e expressão do conhecimento médico (alto peso na tarefa); na fase de maturidade, reforça as restrições de factualidade (aumentando o peso na alucinação).

Quando conectado à internet, a BaiChuan também integrou um módulo de verificação online baseado em múltiplas rodadas de pesquisa, além de um sistema de cache eficiente para alinhar vasto conhecimento médico.

02 Nível de diagnóstico superior ao de médicos humanos, entrando na fase utilizável

No entanto, superar a OpenAI no HealthBench não foi o único destaque desta vez.

Outro ponto mais interessante foi a criação criativa de um conjunto de avaliação próprio, o SCAN-benche. Em comparação com os conjuntos de avaliação da OpenAI, o conjunto criado pela BaiChuan talvez mostre melhor a direção de otimização desejada pela BaiChuan Intelligence na área médica.

Este conjunto de avaliação foca na melhoria da “capacidade de diagnóstico de ponta a ponta”. Baseia-se na observação de que, em seus experimentos, um aumento de 2% na precisão do diagnóstico leva a um aumento de 1% na precisão do resultado clínico.

Ou seja, em relação ao HealthBench da OpenAI, que se concentra principalmente em “a IA responde às perguntas”, o SCAN-benche da BaiChuan quer avaliar se a IA consegue, numa troca de perguntas e respostas, obter informações eficazes e fornecer diagnósticos e recomendações corretas.

Normalmente, ao perguntar a um assistente de IA, se apenas mencionar “você é um médico experiente”, o resultado costuma ser fraco. Porque um médico de verdade segue um processo rigoroso — a BaiChuan resumiu isso em quatro quadrantes do princípio SCAN: Safety Stratification (Estratificação de Segurança), Clarity Matters (Clareza Importa), Association & Inquiry (Associação e Investigação) e Normative Protocol (Protocolo Normativo).

Baseando-se nesses princípios, a BaiChuan adaptou o método OSCE, amplamente utilizado na formação médica, com a colaboração de mais de 150 médicos de linha de frente, criando o sistema de avaliação SCAN-bench, que divide o processo de diagnóstico em três fases principais: coleta de história clínica, exames auxiliares e diagnóstico preciso. A avaliação é feita de forma dinâmica e em múltiplas rodadas, simulando todo o percurso do médico desde a consulta até o diagnóstico, buscando melhorar os resultados em cada etapa para otimizar o modelo.

A BaiChuan também divulgou os resultados do modelo M3 na avaliação SCAN-bench.

Os resultados são bastante interessantes. Além de comparar com o próprio modelo, a equipe também comparou com médicos reais. E, em todos os quadrantes, os médicos humanos já ficaram atrás do nível que o modelo consegue atingir.

O GeekPark perguntou especificamente à equipe da BaiChuan, e a resposta foi que: nesta avaliação, todos os testes foram feitos por médicos especialistas em casos específicos, comparando-os com o modelo. O modelo venceu porque, além de ser mais paciente, possui uma melhor capacidade de integrar conhecimentos de diferentes disciplinas.

Por exemplo, num caso em que uma criança de 10 anos tem febre recorrente, uma condição médica bastante complexa, se apenas se perguntar sobre tosse ou problemas pulmonares, pode-se negligenciar questões graves nas articulações ou no sistema urinário, levando a um diagnóstico errado de infecção comum.

Médicos humanos geralmente são mais especializados em doenças de uma única especialidade, o que explica por que casos complexos muitas vezes requerem consulta com especialistas ou pesquisa em livros.

Modelos comuns, sem treinamento específico, apenas atuando como médicos, também têm dificuldades em responder bem a esse tipo de questão.

03 Próximos passos: começar a desenvolver produtos para o consumidor final e avançar para uma medicina mais séria

Para a BaiChuan Intelligence, ultrapassar o nível de médicos humanos é um marco muito importante: significa que a IA começou a ultrapassar a barreira de usabilidade e pode ser implantada em cenários reais.

Desde 13 de janeiro, os utilizadores já podem experimentar as respostas do modelo M3 no site e no app da BaiXiaoYing.

O design do site é bastante interessante: embora todas as respostas sejam geradas pelo modelo M3, há uma distinção entre a versão para médicos e a versão para utilizadores comuns. Na versão médica, as respostas são mais concisas, com mais referências, e mais “sem rodeios”. Na versão para pacientes, o modelo quase nunca fornece uma resposta direta de uma só vez, fazendo várias perguntas adicionais para obter um diagnóstico mais claro.

A BaiChuan menciona que o raciocínio do modelo nos bastidores é bastante interessante. “Frequentemente vemos o modelo mencionar na cadeia de raciocínio: ‘Este paciente não respondeu à minha pergunta, mas preciso perguntar.’ Ou até casos extremos, em que o modelo diz: ‘Já perguntei ao paciente 20 rodadas, isso já ultrapassou o limite máximo definido, mas ainda assim preciso perguntar.’ Isso acontece porque, durante o treino, o modelo aprende a falar de forma convincente, o que não é recompensado. Ele precisa obter informações-chave suficientes e chegar a um diagnóstico correto para receber recompensa. Essa é uma diferença clara em relação a outros treinamentos de modelos.”

Recentemente, muitas empresas de IA começaram a atuar na área médica. E a BaiChuan acredita que essa é a sua maior diferença — focar em uma medicina mais séria.

“Isso significa que, ao escolher cenários, a BaiChuan não faz apenas o que é mais fácil, mas busca constantemente avançar a capacidade tecnológica e desafiar problemas mais difíceis”, afirmou Wang Xiaochuan.

Um exemplo típico é que, no futuro, a BaiChuan priorizará soluções na área de oncologia, enquanto a terapia psicológica ficará em uma prioridade mais baixa.

Na visão popular, acredita-se que a IA para terapia psicológica seja mais simples e mais fácil de implementar. A lógica da BaiChuan é diferente. Eles acreditam que a área de oncologia possui fundamentos científicos mais rigorosos. Aqui, a IA tem maior potencial de produzir resultados médicos sérios, atingindo ou superando o nível de médicos humanos. Em contrapartida, a psicologia carece de pontos de referência científicos tão bem estabelecidos.

Outro exemplo é que algumas empresas optam por criar “dublês” de médicos, mas Wang Xiaochuan acredita que essa não é a direção que a BaiChuan deseja seguir. Dublês de médicos, na sua opinião, não podem replicar completamente o nível de um médico real nem superá-lo. Essas IAs acabam sendo apenas uma fachada ou uma ferramenta de captação de clientes, sem promover uma medicina séria de verdade.

Essa insistência na seriedade influencia profundamente muitas decisões comerciais da BaiChuan.

Ela também está relacionada ao pensamento de Wang Xiaochuan sobre o próximo estágio da IA médica. Ele acredita que a tarefa mais importante nesta fase é, com o aprimoramento das capacidades da IA, fornecer cada vez mais recursos médicos.

A China tem tentado há anos implementar um sistema de classificação de cuidados e médicos de atenção primária. O objetivo é que as pessoas procurem primeiro os centros de saúde básicos, resolvendo problemas como dificuldades de agendamento em hospitais grandes, longas filas e congestionamentos.

A dificuldade na implementação desse sistema está na insuficiência de recursos médicos de alta qualidade. Os centros de atenção primária carecem de médicos altamente qualificados. Mesmo para um resfriado comum, muitas pessoas preferem ir ao hospital de nível superior, por desconfiança na capacidade dos centros básicos.

Este é o ponto-chave onde a IA médica pode fazer a diferença. Modelos de grande escala podem distribuir conhecimento médico de ponta de forma massiva, preenchendo a lacuna de oferta nos centros de saúde, permitindo que cada comunidade e cada família tenham acesso a uma capacidade de diagnóstico semelhante à de especialistas de hospitais de nível superior.

No longo prazo, isso pode ter um impacto mais amplo, transferindo gradualmente o poder de decisão na área médica dos médicos para os próprios utilizadores. No cenário tradicional, o paciente é beneficiário, mas geralmente sem poder de decisão. O poder está concentrado no médico, o que pode gerar custos de comunicação e sofrimento no tratamento.

A BaiChuan deseja, por meio da IA, facilitar o acesso dos pacientes a recursos médicos de alta qualidade. “Muita gente acha que a medicina é muito complexa e que os pacientes nunca vão entender. Mas pensamos na analogia do sistema de júri nos Estados Unidos. A lei é uma área muito especializada, e os júris comuns não entendem. Então, é preciso que juízes, advogados e promotores conduzam o debate, expliquem tudo de forma clara, de modo que uma pessoa comum possa julgar se alguém é culpado ou inocente. Assim, uma pessoa comum pode fazer uma avaliação lógica”, explicou Wang Xiaochuan.

Essa é uma das razões pelas quais a BaiChuan não quer se limitar a cenários simples, mas deseja avançar continuamente em direção a diagnósticos mais complexos e sérios.

Quando questionado se resolver problemas de alta complexidade é o caminho mais lucrativo na vertente comercial, Wang Xiaochuan respondeu com uma resposta profunda.

Ele acredita que resolver problemas menores, como resfriados e febres, dificilmente gera confiança suficiente na mente do usuário. A medicina é uma área altamente dependente de confiança. Só quando a IA consegue resolver problemas graves, como doenças crônicas, é que se pode estabelecer uma base de confiança real.

Do ponto de vista comercial, os pacientes estão mais dispostos a pagar por serviços de IA de alta qualidade quando enfrentam problemas sérios de saúde. Essa confiança é não só a base do retorno financeiro, mas também o núcleo para a aplicação em larga escala da IA médica.

E, em um sentido mais profundo, a medicina para a BaiChuan e Wang Xiaochuan ainda representa um caminho em direção à inteligência artificial geral (AGI).

Wang Xiaochuan acredita que a IA já encontrou soluções concretas nas áreas de humanidades, ciências, engenharia e artes, mas a medicina é um campo extremamente único. A exploração humana na medicina ainda não se esgotou, e a IA também está em fase de experimentação nesta área.

O roteiro da BaiChuan é bastante claro. Primeiro, melhorar a eficiência do diagnóstico com IA, resolvendo a escassez atual de recursos médicos. Com base nisso, a BaiChuan busca estabelecer uma relação de confiança profunda com os pacientes. Quando os pacientes estiverem dispostos a usar ferramentas de IA para consultas médicas a longo prazo, a IA poderá acumular dados médicos reais e de alta qualidade ao longo do tempo.

O objetivo final desses dados é construir um modelo matemático da vida. Este é um caminho que os médicos humanos ainda não percorreram completamente, e que provavelmente será liderado pela IA no futuro. Se for possível modelar a essência da vida, isso será um passo fundamental para impulsionar a evolução da inteligência artificial geral.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)