Publicación de ChatGPT Salud 6 días después, OpenAI es superada en su propio Benchmark de salud médica

Autor: Li Yuan

¿Alguna vez has preguntado a un asistente de IA sobre tu salud?

Si tú y yo somos usuarios avanzados de IA, probablemente también lo hayas probado.

Los datos proporcionados por OpenAI indican que la salud se ha convertido en uno de los escenarios de uso más comunes de ChatGPT, con más de 2.3 cien millones de personas en todo el mundo haciendo preguntas relacionadas con la salud y el bienestar cada semana.

Por ello, a medida que avanzamos hacia 2026, el campo de la salud también muestra signos de convertirse en un territorio codiciado en el ámbito de la IA.

El 7 de enero, OpenAI lanzó ChatGPT Salud, que permite a los usuarios conectar registros médicos electrónicos y diversas aplicaciones de salud, para ofrecer respuestas médicas más específicas; y el 12 de enero, Anthropic también lanzó Claude for Healthcare, destacando las capacidades del nuevo modelo en escenarios médicos.

Lo interesante es que, en esta ocasión, las empresas chinas no se quedaron atrás, incluso con una clara ventaja.

El 13 de enero, Baichuan Intelligence anunció el lanzamiento del modelo Baichuan M3, que en la evaluación de salud HealthBench, un conjunto de pruebas de OpenAI, superó a GPT-5.2 High de OpenAI, logrando el estado del arte (SOTA).

Tras la controversia sobre la apuesta total en el área médica, Baichuan Intelligence parece haber demostrado su valía. GeekPark también conversó con Wang Xiaochuan sobre cómo Baichuan Intelligence percibe las capacidades del M3 y el futuro de la IA en medicina.

01 Primera vez que supera a OpenAI en un conjunto de pruebas en salud

Uno de los logros más destacados del modelo M3 es que, por primera vez, en el conjunto de evaluación de salud HealthBench, desarrollado por OpenAI, superó a GPT-5.2 High, alcanzando el estado del arte (SOTA).

SOTA en HealthBench, Hard y Evaluación de Alucinaciones en HealthBench

HealthBench es un conjunto de pruebas de evaluación en salud lanzado por OpenAI en mayo de 2025, construido por 262 médicos de 60 países, que incluye 5000 diálogos médicos multironda altamente realistas. Es uno de los conjuntos de evaluación médica más autorizados y cercanos a escenarios clínicos reales a nivel mundial.

Desde su lanzamiento, los modelos de OpenAI han dominado las listas de clasificación.

En esta ocasión, el nuevo modelo de código abierto de Baichuan, Baichuan-M3, obtuvo una puntuación global de 65.1, posicionándose en primer lugar a nivel mundial, e incluso en la prueba de complejas decisiones en HealthBench Hard, M3 logró coronarse, estableciendo un nuevo récord.

Baichuan también publicó un resultado de prueba sobre la tasa de alucinaciones, que en este aspecto alcanzó solo un 3.5%, siendo una de las más bajas a nivel mundial.

Cabe destacar que esta tasa de alucinaciones se midió sin depender de herramientas externas de búsqueda, solo con la configuración del modelo.

Baichuan Intelligence afirmó que estos logros clave se deben a la incorporación de algoritmos de aprendizaje reforzado adecuados para el ámbito médico.

Por primera vez, Baichuan utilizó la tecnología Fact Aware RL (aprendizaje reforzado basado en hechos), logrando que el modelo evite tanto el discurso repetitivo como las respuestas erróneas.

Esto es especialmente crucial en el campo médico.

En modelos sin optimización, las preguntas médicas suelen presentar dos problemas: uno, que el modelo inventa síntomas o enfermedades; y otro, que la respuesta es ambigua, sugiriendo que el paciente debe consultar a un médico, lo cual no ayuda mucho ni a médicos ni a pacientes.

Esto sucede porque muchos modelos optimizan solo la tasa de alucinaciones, acumulando hechos correctos y simples para reducirla, pero sin mejorar la coherencia semántica. Baichuan introdujo mecanismos de agrupamiento semántico y ponderación de importancia: agrupando y eliminando redundancias, y ponderando las afirmaciones médicas clave para que tengan mayor peso.

Además, si solo se introduce una penalización por alucinaciones con alto peso, el modelo tiende a adoptar una estrategia conservadora de “decir menos y equivocarse menos”. Por ello, en el algoritmo Fact Aware RL se diseñó un mecanismo de ajuste dinámico de peso, que equilibra estos objetivos de forma adaptativa según la capacidad actual del modelo: en la fase de construcción de capacidades, se prioriza el aprendizaje y la expresión del conocimiento médico (alto Task Weight); en la fase de madurez, se refuerza la restricción de hechos (aumentando Hallucination Weight).

Cuando se conecta a internet, Baichuan también incorporó un módulo de verificación en línea basado en búsquedas multironda, junto con un sistema de caché eficiente para alinear vastos conocimientos médicos.

02 Nivel de consulta superior al de médicos humanos, en fase usable

Pero superar a OpenAI en HealthBench no fue el único punto destacado de esta ocasión.

Un aspecto aún más interesante fue que Baichuan creó de forma innovadora un conjunto de evaluación llamado SCAN-benche. Comparado con los conjuntos de evaluación de OpenAI, el conjunto propio de Baichuan puede reflejar mejor la dirección en la que quieren optimizar en medicina.

Este conjunto, desarrollado por Baichuan, se centra en mejorar la “capacidad de consulta de extremo a extremo”. Basándose en sus propias investigaciones, Baichuan observó que: cada aumento del 2% en la precisión de la consulta incrementa en un 1% la precisión del diagnóstico y tratamiento.

Es decir, en comparación con HealthBench de OpenAI, que se centra principalmente en si la IA responde o no a las preguntas, SCAN-benche busca evaluar si la IA puede, en una interacción de pregunta y respuesta, obtener información efectiva y ofrecer resultados diagnósticos y recomendaciones médicas correctas.

Normalmente, si preguntamos a un asistente de IA “Eres un médico experimentado”, no obtendremos un resultado muy bueno. Porque el proceso de consulta de un médico real es muy estructurado: Baichuan lo resumió en las cuatro cuadrantes del principio SCAN: Safety Stratification (estratificación de seguridad), Clarity Matters (importancia de la claridad), Association & Inquiry (relación y consulta) y Normative Protocol (protocolo normativo).

Basándose en estos principios, Baichuan tomó como referencia el método OSCE, ampliamente utilizado en la formación médica, y colaboró con más de 150 médicos de primera línea para construir el sistema de evaluación SCAN-bench, que descompone el proceso diagnóstico en tres etapas principales: historia clínica, pruebas auxiliares y diagnóstico preciso. A través de evaluaciones dinámicas y multironda, simula todo el proceso desde la atención inicial hasta el diagnóstico final, buscando optimizar el modelo en cada etapa.

Baichuan también publicó los resultados de la evaluación del modelo M3 en SCAN-benche.

Los resultados son muy interesantes. No solo compararon con el modelo, sino que también enfrentaron a médicos reales. En las cuatro cuadrantes, los médicos humanos en realidad ya estaban por detrás del nivel que puede alcanzar el modelo.

GeekPark preguntó específicamente al equipo de Baichuan, y la respuesta fue que: en esta evaluación, todos los médicos especialistas comparados eran en realidad en casos especializados. La victoria del modelo se debe, en parte, a que es más paciente, pero lo más importante, a que tiene una mejor capacidad de conocimiento interdisciplinario.

Por ejemplo, en un caso, se mencionó un niño de 10 años con fiebre recurrente, un fenómeno médico muy complejo. Si solo se pregunta por tos u otros síntomas pulmonares, se pueden pasar por alto problemas graves en articulaciones o sistema urinario, y se puede malinterpretar como una infección común.

Los médicos humanos suelen ser más competentes en casos específicos, por eso los casos complejos a menudo requieren consulta con especialistas o que los expertos revisen literatura.

Un modelo sin entrenamiento especializado, solo simulando ser médico, generalmente también tendrá dificultades para responder bien a este tipo de preguntas.

03 Próximos pasos: comenzar a desarrollar productos para consumidores y promover una medicina más seria

Para Baichuan Intelligence, superar a los médicos humanos tiene un significado muy importante: significa que la IA empieza a superar el umbral de la usabilidad y puede ser desplegada en escenarios reales.

Desde el 13 de enero, los usuarios ya pueden experimentar las respuestas del modelo M3 en el sitio web y la app de BaixiaoYing.

El diseño del sitio es muy interesante: aunque todas las respuestas usan el modelo M3, hay versiones diferenciadas para médicos y para usuarios. En la versión para médicos, las respuestas son más concisas, con más referencias y menos “hablar como persona”. En la versión para pacientes, el modelo casi nunca da respuestas completas de una sola vez, sino que realiza más preguntas para llegar a un diagnóstico más claro.

Baichuan Intelligence mencionó que el proceso de pensamiento del modelo en el backend es muy interesante. “A menudo vemos que en la cadena de pensamiento, el modelo dice: ‘Este paciente no entiende mi pregunta, pero debo preguntarla igual.’ Incluso hemos visto casos extremos en los que dice: ‘Ya le pregunté 20 veces a este paciente, esto supera el número máximo de rondas, pero aún así tengo que preguntar.’ Esto se debe a que durante el entrenamiento, el modelo aprende a ser astuto en su discurso, pero sin recibir recompensas. Solo obtiene recompensas cuando obtiene suficiente información clave y llega a un diagnóstico correcto. Esa es una diferencia clara con otros entrenamientos de modelos.”

Recientemente, muchas empresas de IA han comenzado a incursionar en el campo médico. Baichuan Intelligence también considera que esa es su mayor diferencia: enfocarse en una medicina más seria.

“Esto significa que Baichuan no elige escenarios solo por ser fáciles, sino que insiste en seguir avanzando en capacidades tecnológicas y desafiar problemas más difíciles”, dijo Wang Xiaochuan.

Un ejemplo típico es que en el futuro, Baichuan priorizará soluciones en oncología, mientras que la terapia psicológica tendrá una prioridad menor.

Desde una perspectiva popular, se piensa que la IA para terapia psicológica es más sencilla y más fácil de implementar. La lógica de Baichuan es diferente. Creen que en el campo del cáncer hay bases científicas más estrictas. Aquí, la IA tiene más posibilidades de ofrecer resultados médicos serios que puedan igualar o superar a los médicos humanos. En cambio, en psicología, falta un anclaje científico tan definido.

Por ejemplo, algunas empresas optan por crear “doubles” de médicos, pero Wang Xiaochuan opina que esa no es la dirección que busca Baichuan. Un doble de médico no puede replicar completamente el nivel de un médico ni superarlo. Este tipo de IA solo sería una fachada o una herramienta de captación, sin promover realmente una medicina seria.

La insistencia en la seriedad afecta muchas decisiones comerciales de Baichuan.

Esto está directamente relacionado con la reflexión de Wang Xiaochuan sobre el próximo gran desafío en IA médica. Él cree que la tarea más importante en esta etapa es, sobre la base de potenciar las capacidades de la IA, ofrecer cada vez más servicios médicos.

China ha intentado durante años implementar un sistema de atención médica escalonada y médicos de atención primaria. La idea era que la gente primero consultara en centros básicos, para aliviar la dificultad de conseguir citas en hospitales grandes, las largas filas y la congestión.

El principal obstáculo para esta política es la insuficiencia de recursos médicos. Los centros básicos carecen de médicos de alto nivel. Incluso para un resfriado, la gente prefiere ir a hospitales de nivel 3, por desconfianza en la atención en centros básicos.

Aquí es donde la IA médica puede jugar un papel clave. Los grandes modelos pueden distribuir conocimientos médicos de vanguardia a gran escala. Pueden cubrir la brecha en la oferta en centros básicos, permitiendo que cada comunidad y familia tenga capacidades similares a las de un especialista de hospital de nivel 3.

A largo plazo, esto también puede tener un impacto más amplio, transfiriendo gradualmente la toma de decisiones médicas de los médicos a los usuarios. En los escenarios tradicionales, los pacientes son beneficiarios, pero generalmente no tienen poder de decisión. Ese poder está en manos de los médicos, y esa desigualdad puede generar costos de comunicación y sufrimiento en el tratamiento.

Baichuan espera que, mediante IA, los pacientes puedan acceder más fácilmente a recursos médicos de calidad. “Muchos piensan que la medicina es demasiado compleja y que los pacientes nunca entenderán. Pero en nuestro sistema judicial en EE. UU., hay un jurado. La ley también es muy especializada, y si los jurados no entienden, los jueces, abogados y fiscales deben liderar, debatir y explicar claramente, para que una persona común pueda juzgar si hay culpabilidad o no. Que una persona común pueda juzgar con lógica normal”, explicó Wang Xiaochuan.

Esa es una de las razones por las que Baichuan no quiere limitarse a escenarios simples, sino avanzar continuamente hacia diagnósticos más complejos y serios.

Cuando le preguntaron si resolver problemas de alta dificultad sería la mayor rentabilidad comercial, Wang Xiaochuan dio una respuesta profunda.

Él cree que resolver problemas menores como resfriados y fiebre es difícil para que los usuarios confíen plenamente en la IA. La medicina es un sector que depende mucho de la confianza. Solo cuando la IA pueda resolver enfermedades graves y complejas, podrá establecer una base sólida de confianza.

Desde una lógica comercial, los pacientes están más dispuestos a pagar por servicios de IA de alta calidad cuando enfrentan problemas de salud serios. Esa confianza no solo es la base del retorno comercial, sino también la clave para que la IA médica tenga una aplicación a gran escala.

Y, en un sentido más profundo, la medicina para Baichuan Intelligence y Wang Xiaochuan sigue siendo un camino hacia la inteligencia artificial general (AGI).

Wang Xiaochuan opina que la IA ya ha encontrado soluciones concretas en áreas como humanidades, ciencias, ingeniería y artes, pero la medicina es un campo muy particular. La exploración humana en medicina aún no ha llegado a su fin, y la IA también está en una fase de exploración en este ámbito.

El plan de Baichuan es muy claro. Primero, mediante IA, mejorar la eficiencia en el diagnóstico y resolver la escasez actual de recursos médicos. Sobre esa base, buscan construir una relación de confianza profunda con los pacientes. Cuando los pacientes estén dispuestos a usar herramientas de IA para consultas médicas a largo plazo, la IA podrá acumular datos médicos reales y de alta calidad en esa relación.

El objetivo final de estos datos es construir un modelo matemático de la vida. Es un camino que los médicos humanos aún no han recorrido por completo, y que probablemente será liderado por la IA en el futuro. Si logran modelar la esencia de la vida, esto será un paso clave para impulsar la evolución de la inteligencia artificial general.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)