Дослідження виявили: майже половина медичних рекомендацій, наданих штучним інтелектом, мають проблеми, Grok найгірший, OpenAI все ще розширює свої медичні амбіції

robot
Генерація анотацій у процесі

Згідно з останнім дослідженням, опублікованим у BMJ Open, близько 50% відповідей п’яти провідних чат-ботів штучного інтелекту при відповіді на медичні питання містять проблеми, з яких майже 20% оцінюються як «дуже проблематичні». Bloomberg зазначає, що це дослідження розкриває системні ризики застосування ШІ у медицині, особливо в контексті одночасного розширення присутності OpenAI та Anthropic у цій сфері, що виглядає особливо іронічно.
(Передісторія: Не довіряйте свої медичні записи чат-ботам? Гра з приватністю під час амбіцій ChatGPT Health)
(Додатковий фон: дослідження Каліфорнійського університету про явище «мозкового туману ШІ»: 14% працівників у США та Канаді злітають з роботи через агентів та автоматизацію, 40% мають високий намір звільнитися)

Зміст статті

Перемикач

  • Grok показує найгірші результати, ChatGPT не відстає
  • Чим впевненіше говорить ШІ, тим більший ризик
  • OpenAI та Anthropic: дослідження гальмує, бізнес прискорює
  • Довіряйте ШІ, але з умовами

Щотижня понад 230 мільйонів людей звертаються до ChatGPT з питаннями про здоров’я та медицину, але майже половина відповідей може бути проблематичною. Згідно з дослідженням, опублікованим цього тижня у медичному журналі BMJ Open, дослідники з США, Канади та Великобританії систематично оцінювали п’ять платформ: ChatGPT, Gemini, Meta AI, Grok та DeepSeek, поставивши кожній по п’ять питань у п’яти медичних категоріях.

Результати не такі оптимістичні: близько 50% відповідей визнані проблематичними, з яких майже 20% — «дуже проблематичні».

Grok показує найгірші результати, ChatGPT не відстає

Bloomberg повідомляє, що різниця у показниках між платформами значна, але жодна з них не проходить випробування. За рівнем відповіді на питання Grok має найвищий показник — 58%, і є найгіршою платформою; ChatGPT йде слідом із показником 52%; Meta AI — 50%.

Дослідники зауважили, що у закритих питаннях, а також щодо вакцин та ракових захворювань, чат-боти демонструють кращі результати; натомість у відкритих питаннях, а також у сферах стовбурових клітин та харчування, їхня продуктивність суттєво знижується. Крім того, у дослідженні було лише дві відмови у відповіді, всі — від Meta AI (у певному сенсі, знати, що не слід відповідати, стало рідкісною перевагою).

Ще більш тривожно, що відповіді цих ШІ часто наповнені впевненістю, голосом переконливим і беззастережним. Дослідники особливо підкреслюють: жоден чат-бот не здатен надати повний і точний список посилань у відповідь на будь-яке запитання. Це означає, що навіть якщо ШІ здається «обґрунтованим», джерела, на які він посилається, часто неможливо перевірити або вони навіть не існують.

Чим впевненіше говорить ШІ, тим більший ризик

Дослідники у статті зазначають, що ці системи здатні генерувати «звучать як авторитетні, але насправді потенційно недосконалі відповіді», що підкреслює «значні обмеження у поведінці» ШІ у публічних медичних комунікаціях і «необхідність переоцінки способів їхнього впровадження».

Bloomberg також цитує попередження команди дослідників: без належної громадської освіти та регулювання, масштабне впровадження чат-ботів несе ризик поширення та розповсюдження хибної медичної інформації.

Варто порівняти з дослідженням JAMA, яке показало, що провал у початкових діагнозах ШІ становить понад 80%; а Оксфордський університет у лютому 2026 року попередив про системні ризики у застосуванні ШІ для медичних рекомендацій.

OpenAI та Anthropic: дослідження гальмує, бізнес прискорює

Публікація цього дослідження має досить драматичний контекст. Лише кілька місяців тому, у січні 2026 року, OpenAI гучно запустила ChatGPT Health, функцію, яка дозволяє користувачам підключатися до електронних медичних записів, носимих пристроїв і додатків для здоров’я, а також пропонує професійний інструментарій для лікарів. OpenAI повідомила, що щодня через ChatGPT звертається за медичною інформацією 40 мільйонів користувачів.

Практично одночасно Anthropic оголосила про запуск Claude for Healthcare, який, відповідно до сертифікації HIPAA, офіційно виходить на медичний ринок.

Ці платформи не мають медичних ліцензій і не володіють клінічними навичками, але швидко розширюють свою присутність у медичній сфері. Результати дослідження і напрямки комерційного розвитку створюють напругу, що відкриває вакуум регулювання: наразі між просуванням AI-медичних інструментів і їхньою безпекою немає чіткої межі.

Довіряйте ШІ, але з умовами

Це не перший випадок, коли застосування ШІ у медицині піддається критиці, але кожного разу висновки нагадують одне й те саме: ШІ — це мовна модель, яка добре «виглядає правдоподібною», але не гарантує точності. Проблема у тому, що коли користувачі звертаються з реальними медичними тривогами, «звучати правдоподібно» вже достатньо для впливу на рішення.

Зі зростанням присутності OpenAI, Anthropic та інших компаній у медичних сценаріях, швидкість регулювання та громадської освіти явно не встигає за технологічним розвитком. Поки не буде створено чітких меж і захисних бар’єрів, ця дослідження може нагадати нам: ШІ може слугувати входом до медичної інформації, але не має ставати її кінцем.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити