Публікація ChatGPT Здоров'я через 6 днів OpenAI був обійдений на власному медичному Benchmark

Автор: Li Yuan

Чи питали ви коли-небудь AI-помічника про ваше здоров’я?

Якщо ви, як і я, глибоко користуєтеся AI, швидше за все, ви вже пробували.

Дані від OpenAI свідчать, що здоров’я стало одним із найпоширеніших сценаріїв використання ChatGPT — понад 2.3 мільярди людей щотижня ставлять питання, пов’язані зі здоров’ям і доглядом.

Саме тому, у 2026 році, сфера охорони здоров’я також має всі ознаки того, що стане однією з ключових областей конкуренції у AI.

7 січня OpenAI випустила ChatGPT Health, що дозволяє користувачам підключати електронні медичні записи та різноманітні додатки для здоров’я, щоб отримувати більш цілеспрямовані медичні відповіді; а 12 січня Anthropic одразу ж представила Claude for Healthcare і підкреслила можливості нової моделі у медичних сценаріях.

Цікаво, що цього разу китайські компанії не залишилися осторонь і навіть мають перевагу.

13 січня Baichuan Intelligence оголосила про випуск моделі Baichuan M3, яка у тестовому наборі HealthBench для оцінки у галузі медичного здоров’я, створеному OpenAI, обійшла GPT-5.2 High і здобула статус SOTA.

Після оголошення про повний фокус на медицину, що викликало багато сумнівів, Baichuan Intelligence, здається, нарешті довела свою здатність. Geek Park також спеціально поспілкувався з Ван Сяочуаном щодо того, як Baichuan оцінює можливості моделі M3 і кінцеву мету AI у медицині.

01 Перший раз у тестах у галузі здоров’я перевершено OpenAI

Одним із найяскравіших досягнень нової моделі M3 є те, що вона вперше у тестовому наборі HealthBench, створеному OpenAI, перевищила GPT-5.2 High і здобула статус SOTA.

SOTA на HealthBench, Hard та Hallucination Evaluation

HealthBench — це набір тестів для оцінки у галузі медичного здоров’я, випущений OpenAI у травні 2025 року, створений спільно 262 лікарями з 60 країн. Він містить 5000 високореалістичних багатокругових медичних діалогів і є одним із найавторитетніших та найближчих до реальних клінічних сценаріїв медичних тестів у світі.

Після запуску моделі OpenAI тримала перші місця у рейтингах.

Але цього разу Baichuan Intelligence, новий великий відкритий медичний модельний проект, отримала 65.1 балу, що зробило її світовим лідером, навіть у складних тестах HealthBench Hard, де вона також здобула перемогу і оновила рекорд.

Баїчуан також опублікувала результати тесту на рівень галюцинацій — у цьому показнику модель M3 досягла 3.5%, що є одним із найнижчих у світі.

Варто зазначити, що цей показник галюцинацій — це рівень, який досягається без зовнішніх пошукових інструментів, лише за допомогою чистої моделі.

Baichuan заявила, що досягти цього вдалося завдяки впровадженню у медичну сферу відповідних алгоритмів підкріпленого навчання.

У моделі M3 вперше застосовано технологію Fact Aware RL (фактично-орієнтоване підкріплене навчання), яка дозволяє уникнути зайвих кліше та безпідставних висловлювань.

Це надзвичайно важливо у медичній галузі.

У неоптимізованих моделях при запитах у медичній сфері найчастіше виникають дві проблеми: по-перше, модель може безпідставно вигадати симптоми або хворобу; по-друге, вона може бути нечіткою у сенсі, і в підсумку рекомендує звернутися до лікаря, що не дуже корисно ні для лікаря, ні для пацієнта.

Це пов’язано з тим, що багато моделей орієнтовані на зниження рівня галюцинацій як основної мети, і у процесі можуть просто додавати правильні факти, щоб зменшити цей показник. Baichuan ж застосувала семантичне кластерування та механізми вагового зважування — кластеризація усуває зайві повтори, а ваги забезпечують більшу вагу для ключових медичних висновків.

Крім того, якщо просто застосовувати високі штрафи за галюцинації, модель може опинитися у «обережній» стратегії «менше говорити — менше помилятися», тому алгоритм Fact Aware RL передбачає динамічне регулювання ваг, що дозволяє адаптивно балансувати ці цілі залежно від рівня здатності моделі — на початкових етапах, зосереджуючись на вивченні та передачі медичних знань (високий Task Weight); у міру розвитку, посилюючи обмеження щодо фактів (зростання Hallucination Weight).

Коли можливо підключитися до мережі, Baichuan додала модуль онлайн-перевірки на основі багатократних пошуків, а також впровадила ефективну систему кешування для узгодження великої кількості медичних знань.

02 Питання до лікаря — вище за людського фахівця, і вже у стадії застосування

Але перевищення OpenAI у тесті HealthBench — не єдина новина.

Ще цікавіше, що Baichuan самостійно створила тестовий набір SCAN-benche. У порівнянні з рейтингами OpenAI, цей набір, можливо, краще відображає напрямки, у яких Baichuan хоче покращити свою медичну модель.

Основна ідея — покращити «завершену здатність до діагностики та консультацій». Це випливає з власних досліджень Baichuan: кожне збільшення точності запитів на 2% підвищує точність лікувальних результатів на 1%.

Отже, у порівнянні з HealthBench від OpenAI, що зосереджений здебільшого на тому, чи відповідає AI на питання, SCAN-benche прагне оцінити, чи здатен AI у процесі діалогу отримати корисну інформацію і дати правильний діагноз і рекомендації.

Зазвичай, коли ми ставимо запитання AI-помічнику, фраза «ти досвідчений лікар» не дає особливого результату. Адже справжній лікар дотримується чітких протоколів — Baichuan узагальнила їх у чотири квадранти SCAN: Safety Stratification (безпека та розподіл ризиків), Clarity Matters (ясність і уточнення), Association & Inquiry (зв’язки та додаткові питання) і Normative Protocol (нормативна структура).

На основі цих принципів Baichuan запозичила метод OSCE, широко використовуваний у медичній освіті, і залучила понад 150 лікарів для створення системи оцінювання SCAN-bench. Вона розбиває процес діагностики на три основні етапи: збір анамнезу, допоміжні обстеження та точний діагноз, — і через динамічні багатокругові сценарії імітує весь процес від прийому до постановки діагнозу, оптимізуючи модель у кожному з етапів.

Baichuan також опублікувала результати тестування M3 на SCAN-bench.

Результати дуже цікаві. Baichuan порівняла модель із реальними лікарями. І в усіх чотирьох квадрантах лікарі вже поступаються можливостям моделі.

Geek Park спеціально запитала у Baichuan, у чому причина. Відповідь була такою: у цьому тесті порівнювалися лише спеціалісти-лікарі у вузьких випадках із моделлю. Модель перемогла, бо вона більш терпляча, але головне — вона має кращі міждисциплінарні знання.

Наприклад, у випадку з 10-річною дитиною з повторюваним підвищенням температури, що є складним симптомом, якщо зосередитися лише на кашлі або легеневих симптомах, можна пропустити серйозні проблеми у суглобах або сечовій системі, і неправильно поставити діагноз.

Лікарі зазвичай краще справляються із вузькою спеціалізацією, тому складні симптоми часто вимагають консультації у вузьких фахівців або пошуку інформації у літературі.

А звичайні моделі без спеціальної підготовки, що імітують лікаря, зазвичай не дуже добре відповідають на такі питання.

03 Наступні кроки: поступове створення продуктів для кінцевих користувачів і просування більш серйозної медицини

Для Baichuan Intelligence перевищення людських лікарів — дуже важливий етап: це означає, що AI починає переступати поріг застосовності і може бути впроваджений у реальні сценарії.

З 13 січня користувачі вже можуть у сайті і додатку Baichuan отримувати відповіді від моделі M3.

Дизайн сайту дуже цікавий: хоча відповіді генеруються моделлю M3, є різниця між версією для лікарів і для користувачів. У лікарській версії відповіді коротші, з більшою кількістю посилань і більш «науковими» формулюваннями. У звичайній версії для пацієнтів модель майже не дає одразу готову відповідь, а ставить додаткові питання і уточнює діагноз.

Baichuan зазначила, що процес мислення моделі у бек-енді дуже цікавий. «Ми часто бачимо, що у ланцюжку мислення модель говорить: “Цей пацієнт не відповідає на моє питання, але я маю його задати.” Навіть були випадки, коли вона казала: “Я вже задав пацієнту 20 питань, це перевищує максимальну кількість раундів, але я все одно маю його запитати.” Це тому, що під час тренування модель навчається говорити так, щоб не отримати нагороду, і вона має отримати достатньо ключової інформації і поставити правильний діагноз, щоб отримати нагороду. Це суттєва різниця від інших підходів.»

Останнім часом багато AI-компаній почали входити у медичну сферу. Це також одна з головних відмінностей Baichuan — прагнення до більш серйозної медицини.

«Це означає, що Baichuan не вибирає сценарії за принципом легкості, а постійно підвищує технічний рівень і викликає складніші задачі», — сказав Ван Сяочуан.

Приклад — у майбутньому Baichuan планує зосередитися на онкології, тоді як психологічне лікування буде менш пріоритетним.

Звичайна думка — що AI у психології простіше і легше впроваджується. Але Baichuan має інший підхід. Вони вважають, що у галузі онкології є більш жорсткі наукові підстави. Тут AI має більший потенціал для досягнення серйозних медичних результатів і навіть перевищення рівня лікарів. У психології ж відсутні такі чіткі наукові орієнтири.

Ще один приклад — деякі компанії створюють цифрових двійників лікарів, але Ван Сяочуан вважає, що це не те, чого прагне Baichuan. Створення цифрового двійника не може повністю відтворити рівень лікаря і не здатне його перевищити. Такі AI швидше стануть імітацією і інструментом залучення клієнтів, а не справжнім просуванням серйозної медицини.

Ця прихильність до серйозності глибоко впливає на багато бізнес-рішень Baichuan.

Це безпосередньо пов’язано з роздумами Ван Сяочуана щодо наступного етапу розвитку медичного AI. Він вважає, що найважливіше зараз — посилювати можливості AI і поступово розширювати медичний сервіс.

Китай багато років намагається впровадити систему розподілу навантаження і сімейних лікарів. Спочатку це робиться для того, щоб люди могли спершу звертатися до місцевих лікарів, щоб зменшити навантаження на великі лікарні, уникнути довгих черг і переповненості.

Ця система ускладнюється через недостатність медичних ресурсів. На рівні первинної допомоги бракує висококваліфікованих лікарів. Навіть при простих захворюваннях люди йдуть у великі клініки, бо не довіряють рівню місцевих лікарів.

Саме тут AI у медицині може зіграти ключову роль. Великий модельний підхід здатен масштабовано поширювати найкращі медичні знання. Це допоможе заповнити прогалини у первинній допомозі і зробить доступною високоякісну медицину у кожній громаді і кожній родині.

У довгостроковій перспективі це може змінити баланс — рішення щодо здоров’я все більше перейдуть від лікарів до користувачів. У традиційній системі пацієнти — отримувачі послуг, але не мають реального впливу на рішення. Вони змушені довіряти лікарям, що створює бар’єри у спілкуванні і лікуванні.

Baichuan хоче за допомогою AI зробити доступ до високоякісної медицини більш простим для пацієнтів. «Багато вважають, що медицина дуже складна і пацієнти її не зрозуміють. Але у нашій ідеї є аналогія з системою присяжних у США. Закон — дуже спеціалізована сфера, і прості люди не розуміють її. Тому судді, адвокати і прокурори мають вести процес, щоб пояснити все так, щоб звичайна людина могла зробити логічний висновок — винен чи ні», — сказав Ван Сяочуан.

Це один із мотивів, чому Baichuan не прагне обмежуватися простими сценаріями, а хоче поступово рухатися до складних і серйозних медичних випадків.

Коли його запитали, чи є вирішення складних проблем найвигіднішим у бізнесі, Ван Сяочуан відповів глибоко.

Він вважає, що вирішення дрібних проблем, таких як застуда або підвищена температура, важко викликати довіру користувачів. Медична сфера — це сфера, що дуже залежить від довіри. Лише коли AI зможе ефективно вирішувати серйозні хвороби, з’явиться справжня основа для довіри.

З точки зору бізнесу, пацієнти будуть більш схильні платити за високоякісний AI у разі серйозних проблем зі здоров’ям. Це не лише передумова для комерційного успіху, а й ключ до масштабного застосування AI у медицині.

З більш глибокої точки зору, медицина для Baichuan і Ван Сяочуана залишається шляхом до загального штучного інтелекту (AGI).

Ван Сяочуан вважає, що AI вже знайшов практичні рішення у сферах гуманітарних, технічних, мистецьких і наукових дисциплін, але медицина — дуже унікальна галузь. Людство ще не досліджено до кінця, і AI тут ще у стадії пошуків.

Дорожня карта Baichuan дуже чітка. Спершу — підвищити ефективність діагностики за допомогою AI, щоб вирішити проблему нестачі медичних ресурсів. Потім — побудувати глибоку довіру з пацієнтами. Коли пацієнти почнуть довіряти AI і довгостроково консультуватися, AI зможе накопичити реальні високоякісні медичні дані.

Мета — створити математичну модель життя. Це шлях, яким ще не йшли лікарі, і у майбутньому його може першим пройти саме AI. Якщо вдасться змоделювати сутність життя, це стане ключовим кроком у просуванні до загального штучного інтелекту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити