Pesquisa revela: quase metade das recomendações médicas fornecidas por IA têm problemas, Grok é o pior, OpenAI ainda expande suas ambições na área médica

robot
Geração do resumo em andamento

De acordo com um estudo publicado recentemente no BMJ Open, cerca de 50% das respostas de cinco grandes chatbots de IA ao responderem questões médicas apresentam problemas, sendo que quase 20% foram avaliadas como “altamente problemáticas”. A Bloomberg destacou que essa pesquisa revela riscos sistemáticos na aplicação de IA na área médica, especialmente em um momento em que OpenAI e Anthropic expandem simultaneamente suas estratégias no setor de saúde, o que é particularmente irônico.
(Resumindo: Não entregue seu histórico médico para chatbots? O jogo de apostas na privacidade sob a ambição do ChatGPT Health)
(Complemento de contexto: Estudo da Universidade da Califórnia aponta fenômeno de “névoa cerebral” na IA: 14% de trabalhadores ficam loucos com agentes e automações, com intenção de deixar o emprego aumentada em 40%)

Índice deste artigo

Alternar

  • Grok tem o pior desempenho, ChatGPT não fica atrás
  • Quanto mais confiante a IA, maior o risco
  • OpenAI e Anthropic: pesquisa freia, negócios aceleram
  • Confie na IA, mas com condições

Mais de 230 milhões de pessoas por semana consultam ChatGPT sobre questões de saúde e medicina, mas quase metade das respostas pode estar incorreta. Segundo um estudo publicado nesta semana na revista médica BMJ Open, pesquisadores dos Estados Unidos, Canadá e Reino Unido realizaram uma avaliação sistemática de cinco plataformas: ChatGPT, Gemini, Meta AI, Grok e DeepSeek, apresentando cada uma delas com cinco categorias médicas e um total de 10 perguntas.

O resultado não é tão otimista: aproximadamente 50% das respostas foram consideradas problemáticas, com quase 20% avaliadas como “altamente problemáticas”.

Grok tem o pior desempenho, ChatGPT não fica atrás

A Bloomberg destacou que há diferenças consideráveis no desempenho de cada plataforma, mas nenhuma delas passou no teste. Observando a taxa de respostas às perguntas, Grok lidera com 58%, sendo a plataforma com pior desempenho; ChatGPT vem logo atrás, com uma taxa de 52%; Meta AI responde em 50%.

Os pesquisadores notaram que, em perguntas fechadas e temas relacionados a vacinas e câncer, o desempenho dos chatbots foi relativamente melhor; porém, em perguntas abertas e áreas como células-tronco e nutrição, o desempenho caiu significativamente. Além disso, houve apenas duas situações de recusa em responder, ambas provenientes do Meta AI (em certa medida, saber que não deveria responder virou uma espécie de vantagem rara).

Mais preocupante ainda, é que essas respostas de IA frequentemente são carregadas de confiança, com tom afirmativo e sem reservas. Os pesquisadores enfatizaram que nenhum dos chatbots consegue fornecer uma lista completa e precisa de referências em qualquer questão apresentada. Isso significa que, mesmo que a IA pareça “bem fundamentada”, as fontes citadas muitas vezes não podem ser verificadas ou sequer existem.

Quanto mais confiante a IA, maior o risco

Os autores do estudo escreveram que esses sistemas podem gerar respostas que “parecem autoritárias, mas podem conter falhas”, evidenciando as “limitações comportamentais significativas” dos chatbots na comunicação de saúde e medicina ao público, além da necessidade de “reavaliar a forma de implantação”.

A Bloomberg também citou um alerta da equipe de pesquisa: na ausência de educação pública e mecanismos regulatórios, a maior ameaça da implementação em larga escala de chatbots é o aumento na disseminação de informações médicas incorretas.

Para comparação, um estudo na JAMA revelou que a taxa de falha de IA em diagnósticos iniciais ultrapassa 80%; a Universidade de Oxford também emitiu um alerta em fevereiro de 2026, pedindo atenção aos riscos sistemáticos de chatbots na oferta de recomendações médicas.

OpenAI e Anthropic: pesquisa freia, negócios aceleram

O momento de publicação do estudo é bastante dramático. Há poucos meses, em janeiro de 2026, a OpenAI lançou com grande destaque o ChatGPT Health, uma funcionalidade que permite aos usuários conectar registros eletrônicos de saúde, dispositivos vestíveis e aplicativos de saúde, além de oferecer uma versão profissional para médicos. A OpenAI afirmou que, diariamente, 40 milhões de pessoas usam o ChatGPT para consultar informações de saúde.

Quase ao mesmo tempo, a Anthropic anunciou o lançamento do Claude for Healthcare, que, com certificação HIPAA, entrou oficialmente no mercado de saúde.

Essas plataformas não possuem licença médica nem capacidade de julgamento clínico, mas estão se expandindo rapidamente na área médica. A tensão entre os resultados da pesquisa e a expansão comercial revela uma lacuna regulatória: atualmente, não há uma linha clara de proteção entre a promoção de ferramentas de IA na saúde e a segurança real dos pacientes.

Confie na IA, mas com condições

Essa não é a primeira vez que aplicações de IA na saúde são questionadas, mas cada estudo reforça a mesma mensagem: chatbots são modelos de linguagem que “são bons em parecer corretos”, mas não garantem a precisão. O problema é que, quando usuários buscam ajuda com preocupações reais de saúde, a aparência de certeza já pode influenciar suas decisões.

À medida que empresas como OpenAI e Anthropic aprofundam sua atuação na área médica, a velocidade de regulamentação e educação pública claramente não acompanha a expansão tecnológica. Antes de estabelecer barreiras claras, esse estudo pode nos lembrar: a IA pode ser uma porta de entrada para informações de saúde, mas não deve ser o destino final.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar