Đăng ChatGPT Sức khỏe sau 6 ngày, OpenAI bị vượt mặt trên Benchmark y tế sức khỏe của chính mình

Tác giả: Li Yuan

Bạn đã từng hỏi trợ lý AI về vấn đề sức khỏe của mình chưa?

Nếu bạn giống tôi, là một người dùng sâu về AI, khả năng cao bạn đã thử qua rồi.

Dữ liệu do chính OpenAI cung cấp cho thấy, sức khỏe đã trở thành một trong những kịch bản sử dụng phổ biến nhất của ChatGPT, với hơn 2.3 tỷ người trên toàn cầu mỗi tuần đặt câu hỏi liên quan đến sức khỏe và chăm sóc sức khỏe.

Chính vì điều này, bước vào năm 2026, lĩnh vực sức khỏe cũng có dấu hiệu trở thành một trong những lĩnh vực cạnh tranh quyết liệt trong AI.

Vào ngày 7 tháng 1, OpenAI đã phát hành ChatGPT Health, cho phép người dùng kết nối hồ sơ y tế điện tử và các ứng dụng sức khỏe khác, giúp người dùng nhận được phản hồi y tế chính xác hơn; còn vào ngày 12 tháng 1, Anthropic cũng ngay lập tức ra mắt Claude for Healthcare, nhấn mạnh khả năng của mô hình mới trong các kịch bản y học.

Điều thú vị là, lần này, các công ty Trung Quốc không hề thua kém, thậm chí còn có phần dẫn đầu.

Vào ngày 13 tháng 1, Bách Xuyên Trí Tuệ (Baichuan Intelligence) công bố ra mắt mô hình Baichuan M3, vượt qua GPT-5.2 High của OpenAI trong bộ đánh giá thử nghiệm lĩnh vực y tế HealthBench do OpenAI phát hành, đạt vị trí SOTA.

Sau khi công bố toàn lực vào lĩnh vực y tế bị nhiều nghi vấn, Bách Xuyên Trí Tuệ dường như cuối cùng đã chứng minh được năng lực của mình. GeekPark cũng đã đặc biệt trò chuyện với Vương Tiểu Xuyên về cách nhìn nhận của Bách Xuyên về khả năng của mô hình M3 này, cũng như về kết thúc của y học AI.

01 Lần đầu vượt qua OpenAI trong bộ thử nghiệm lĩnh vực sức khỏe

Một trong những thành tích nổi bật của mô hình M3 lần này là lần đầu tiên vượt qua GPT-5.2 High của OpenAI trong bộ đánh giá thử nghiệm lĩnh vực y tế HealthBench do OpenAI phát hành vào tháng 5 năm 2025, đạt vị trí SOTA.

SOTA trên HealthBench, Healthbench Hard và Hallucination Evaluation

HealthBench là bộ đánh giá thử nghiệm lĩnh vực y tế do OpenAI phát hành vào tháng 5 năm 2025, do 262 bác sĩ từ 60 quốc gia cùng xây dựng, gồm 5000 bộ hội thoại y tế đa vòng, chân thực cao, là một trong những bộ đánh giá y tế uy tín nhất thế giới, gần sát thực tế lâm sàng nhất.

Sau khi ra mắt, các mô hình của OpenAI luôn giữ vị trí dẫn đầu.

Lần này, mô hình mới của Bách Xuyên Trí Tuệ, Baichuan-M3, đạt điểm tổng hợp 65.1, đứng đầu toàn cầu, thậm chí còn thắng trong phần thi đòi hỏi khả năng ra quyết định phức tạp của HealthBench Hard, phá vỡ kỷ lục điểm cao nhất.

Bách Xuyên cũng công bố kết quả thử nghiệm tỷ lệ ảo giác, trong đó tỷ lệ ảo giác của mô hình M3 chỉ đạt 3.5%, là mức thấp nhất toàn cầu.

Đáng chú ý là, tỷ lệ ảo giác này không dựa vào công cụ truy xuất bên ngoài, hoàn toàn dựa trên thiết lập của mô hình y tế.

Bách Xuyên Trí Tuệ cho biết, để đạt được hai điểm này, yếu tố then chốt là mô hình đã được nâng cấp bằng cách đưa vào thuật toán học tăng cường phù hợp với y học.

Trong mô hình M3, Bách Xuyên lần đầu tiên sử dụng công nghệ Fact Aware RL (Học tăng cường nhận thức về thực tế), giúp mô hình không nói vòng vo cũng không nói linh tinh.

Điều này thực sự rất quan trọng trong lĩnh vực y tế.

Trong các mô hình chưa tối ưu, hỏi về vấn đề y tế, dễ gặp hai vấn đề: một là mô hình tự bịa ra triệu chứng của bạn, phỏng đoán ra một bệnh; hai là ngữ nghĩa mơ hồ, cuối cùng đều khuyên bạn đi khám bác sĩ, điều này không mang lại nhiều lợi ích cho cả bác sĩ lẫn bệnh nhân.

Nguyên nhân chính là nhiều mô hình tối ưu dựa vào tỷ lệ ảo giác làm mục tiêu, khiến mô hình có thể dễ dàng tích tụ các facts đơn giản đúng để làm giảm tỷ lệ ảo giác tổng thể. Nhưng Bách Xuyên đã đưa vào cơ chế phân cụm ngữ nghĩa và trọng số quan trọng — phân cụm để loại bỏ nhiễu loạn trong diễn đạt, và trọng số để đảm bảo các luận điểm y học cốt lõi được ưu tiên hơn.

Ngoài ra, nếu chỉ đơn thuần dùng hình phạt cao cho ảo giác, dễ khiến mô hình rơi vào chiến lược “ít nói ít sai”, do đó trong thuật toán Fact Aware RL còn có cơ chế điều chỉnh trọng số động, tự thích ứng cân bằng hai mục tiêu này dựa trên khả năng hiện tại của mô hình — trong giai đoạn xây dựng năng lực, tập trung vào học hỏi và thể hiện kiến thức y học (Trọng số nhiệm vụ cao); khi năng lực đã trưởng thành, dần dần thắt chặt các ràng buộc về tính xác thực (tăng Trọng số ảo giác).

Khi có thể kết nối mạng để tìm kiếm, Bách Xuyên còn tích hợp mô-đun kiểm tra trực tuyến dựa trên nhiều vòng tìm kiếm, cùng hệ thống cache hiệu quả để đồng bộ lượng lớn kiến thức y học.

02 Trình độ hỏi bệnh vượt cả bác sĩ, bước vào giai đoạn khả dụng

Tuy nhiên, vượt qua OpenAI trong HealthBench không phải là điểm sáng duy nhất lần này.

Điểm thú vị hơn là, Bách Xuyên đã sáng tạo xây dựng bộ đánh giá SCAN-benche. So với việc xếp hạng các bộ đánh giá của OpenAI, bộ đánh giá do chính Bách Xuyên xây dựng có thể phản ánh rõ hơn hướng tối ưu hóa của họ trong lĩnh vực y tế.

Bộ đánh giá do Bách Xuyên xây dựng tập trung vào tối ưu “năng lực hỏi bệnh từ đầu đến cuối”. Dựa trên các phân tích thực nghiệm của chính họ: mỗi 2% tăng độ chính xác hỏi bệnh, kết quả chẩn đoán sẽ tăng 1%.

Nói cách khác, so với HealthBench của OpenAI, vẫn chủ yếu tập trung vào “AI có trả lời câu hỏi hay không”, thì SCAN-benche của Bách Xuyên muốn đánh giá là: AI có thể trong một cuộc đối thoại, lấy được thông tin hiệu quả, đồng thời đưa ra kết quả chẩn đoán và ý kiến y tế chính xác.

Thông thường, khi hỏi AI trợ lý, nếu chỉ nói “Bạn là bác sĩ giàu kinh nghiệm”, thường sẽ không đạt hiệu quả tốt. Bởi vì, bác sĩ thực thụ, quy trình hỏi bệnh rất chuẩn mực — Bách Xuyên tóm tắt thành bốn nguyên tắc SCAN: Safety Stratification (phân tầng an toàn), Clarity Matters (làm rõ thông tin), Association & Inquiry (liên hệ và hỏi tiếp), Normative Protocol (chuẩn hóa đầu ra).

Xung quanh nguyên tắc SCAN, Bách Xuyên học hỏi phương pháp OSCE lâu dài trong đào tạo y học, hợp tác cùng hơn 150 bác sĩ tuyến đầu, xây dựng hệ thống đánh giá SCAN-bench, phân chia quá trình chẩn đoán thành ba giai đoạn: thu thập tiền sử bệnh, kiểm tra hỗ trợ, chẩn đoán chính xác, qua nhiều vòng, mô phỏng toàn bộ quá trình từ tiếp nhận đến chẩn đoán, đồng thời tối ưu mô hình dựa trên kết quả đạt được trong từng bước.

Lần này, Bách Xuyên cũng công bố kết quả đánh giá của mô hình M3 trên SCAN-benche.

Kết quả rất thú vị. Không chỉ so sánh với mô hình, họ còn so sánh với bác sĩ thật. Trong bốn nguyên tắc, bác sĩ thật thực tế đã thua xa trình độ mà mô hình có thể đạt được.

GeekPark đã hỏi trực tiếp đội ngũ của Bách Xuyên, câu trả lời là: toàn bộ đánh giá này đều do các bác sĩ chuyên khoa thực hiện so sánh với mô hình trong các ca bệnh chuyên khoa. Mô hình thắng, một phần là do nó kiên nhẫn hơn, nhưng quan trọng hơn là nó có khả năng nắm bắt kiến thức liên ngành tốt hơn.

Ví dụ, trong một ca bệnh, đề cập đến trẻ 10 tuổi sốt liên tục, trong đó sốt là hiện tượng y học tổng hợp phức tạp, nếu chỉ hỏi về ho hoặc các vấn đề phổi, dễ bỏ qua các vấn đề nghiêm trọng về khớp hoặc hệ tiết niệu, dẫn đến chẩn đoán sai thành nhiễm trùng thông thường.

Bác sĩ con người thường chỉ giỏi về các bệnh thuộc chuyên khoa, đó là lý do các triệu chứng phức tạp thường cần hội chẩn chuyên gia, hoặc các chuyên gia khó khăn cũng phải tra sách tìm tài liệu.

Còn các mô hình bình thường, không qua đào tạo chuyên sâu, chỉ đóng vai trò bác sĩ, thường rất khó trả lời tốt các câu hỏi kiểu này.

03 Bước tiếp theo: bắt đầu phát triển sản phẩm C-end, thúc đẩy y học nghiêm túc hơn

Đối với Bách Xuyên Trí Tuệ, việc vượt qua bác sĩ con người là một cột mốc rất quan trọng: điều này có nghĩa là AI đã vượt qua ngưỡng khả dụng, bắt đầu có thể triển khai vào các kịch bản thực tế.

Từ ngày 13 tháng 1, người dùng đã có thể bắt đầu trải nghiệm các câu trả lời của mô hình M3 trên website và app của Bách Tiểu Ứng.

Thiết kế website hiện tại rất thú vị, dù đều dùng mô hình M3 để trả lời, nhưng phân biệt giữa phiên bản bác sĩ và người dùng. Phiên bản bác sĩ, câu trả lời ngắn gọn hơn, trích dẫn nhiều tài liệu tham khảo hơn, cũng “ít nói chuyện nhân tạo”. Trong khi đó, phiên bản bệnh nhân thông thường, mô hình gần như không đưa ra câu trả lời ngay lập tức, mà sẽ hỏi thêm nhiều câu hỏi để chẩn đoán rõ ràng hơn.

Bách Xuyên Trí Tuệ nói rằng, quá trình suy nghĩ của mô hình ở phía sau rất thú vị. “Chúng tôi thường thấy mô hình trong chuỗi suy nghĩ đề cập, ‘Bệnh nhân này không quan tâm đến câu hỏi của tôi, nhưng tôi vẫn phải hỏi câu này.’ Thậm chí có những trường hợp cực đoan, nói rằng tôi đã hỏi bệnh nhân 20 vòng rồi, vượt quá số vòng tối đa quy định, nhưng tôi vẫn phải hỏi. Điều này là do trong quá trình huấn luyện, mô hình đã học cách nói sao cho khéo, không thể chỉ dựa vào phần thưởng, mà phải thực sự thu thập đủ thông tin then chốt, để có chẩn đoán chính xác, mới được thưởng. Đây là điểm khác biệt rõ rệt so với các mô hình khác của chúng tôi.”

Gần đây, nhiều công ty AI bắt đầu tham gia lĩnh vực y tế. Đây cũng là điểm khác biệt lớn nhất của Bách Xuyên, họ muốn làm y học nghiêm túc hơn.

“Điều này có nghĩa là Bách Xuyên không chọn làm theo các kịch bản dễ, mà luôn cố gắng nâng cao năng lực công nghệ, thách thức các vấn đề khó hơn,” Vương Tiểu Xuyên nói.

Một ví dụ điển hình là trong tương lai, Bách Xuyên sẽ ưu tiên phát triển các kịch bản chuyên về ung thư, còn các lĩnh vực tâm lý trị liệu sẽ xếp sau.

Trong quan điểm phổ thông, mọi người thường nghĩ rằng AI cung cấp trị liệu tâm lý dễ hơn, dễ ứng dụng hơn. Nhưng lý luận của Bách Xuyên khác. Họ cho rằng lĩnh vực ung thư có nền tảng khoa học chặt chẽ hơn. Ở đó, AI có khả năng đưa ra kết quả y học nghiêm túc, đạt hoặc vượt trình độ bác sĩ. Ngược lại, lĩnh vực tâm lý thiếu các điểm mốc khoa học rõ ràng.

Ví dụ khác, một số công ty chọn tạo ra bản sao của bác sĩ, còn Vương Tiểu Xuyên thì cho rằng hướng này không phải là mục tiêu của Bách Xuyên. Bản sao bác sĩ tự bản chất không thể hoàn toàn tái tạo trình độ của bác sĩ, càng không thể vượt qua trình độ của họ. Loại AI này cuối cùng chỉ là vỏ bọc và công cụ thu hút khách hàng, không thể thúc đẩy y học nghiêm túc thực sự.

Sự kiên trì với tính nghiêm túc này ảnh hưởng sâu sắc đến nhiều lựa chọn kinh doanh của Bách Xuyên.

Điều này liên quan trực tiếp đến suy nghĩ của Vương Tiểu Xuyên về vấn đề cốt lõi của AI y tế trong giai đoạn tiếp theo. Ông cho rằng, nhiệm vụ quan trọng nhất hiện nay là dựa trên khả năng của AI để cung cấp nhiều dịch vụ y tế hơn.

Trên thực tế, Trung Quốc đã nhiều năm cố gắng thúc đẩy phân cấp khám chữa bệnh và hệ thống bác sĩ đa khoa. Mục đích là để người dân khám bệnh tại tuyến cơ sở trước, giảm tình trạng quá tải, khó khăn trong đặt lịch khám tại bệnh viện lớn.

Nguyên nhân chính khiến hệ thống này khó triển khai là do thiếu hụt nguồn lực y tế. Các cơ sở y tế tuyến cơ sở thiếu bác sĩ trình độ cao. Người dân dù chỉ cảm cúm cũng sẵn sàng xếp hàng tại bệnh viện tuyến 3, vì không yên tâm về năng lực khám chữa bệnh ở tuyến dưới.

Đây chính là điểm then chốt để AI y tế phát huy tác dụng. Các mô hình lớn có thể phân phối quy mô kiến thức y học hàng đầu, bù đắp thiếu hụt cung cấp ở tuyến cơ sở, giúp mỗi cộng đồng, mỗi gia đình đều có khả năng chẩn đoán và điều trị như các chuyên gia bệnh viện tuyến 3.

Về lâu dài, điều này còn có thể tạo ra ảnh hưởng rộng lớn hơn, dần chuyển quyền quyết định y tế từ bác sĩ sang người dùng. Trong các kịch bản y tế truyền thống, bệnh nhân là người hưởng lợi, nhưng thường không có quyền quyết định. Quyền quyết định tập trung vào bác sĩ, dẫn đến chi phí giao tiếp và đau đớn trong điều trị.

Bách Xuyên hy vọng qua AI, bệnh nhân dễ dàng tiếp cận nguồn lực y tế chất lượng cao hơn. “Nhiều người nghĩ y học quá phức tạp, bệnh nhân không thể hiểu nổi. Nhưng chúng tôi nghĩ trong hệ thống tư pháp Mỹ có gọi là hệ thống bồi thẩm đoàn. Luật pháp cũng là một lĩnh vực rất chuyên nghiệp, bồi thẩm đoàn là người bình thường không hiểu, nên cần có thẩm phán, luật sư, công tố viên dẫn dắt, tranh luận đầy đủ, làm rõ vấn đề, để người bình thường dựa vào lý luận mà phán đoán đúng sai, có thể dựa vào đó để quyết định,” Vương Tiểu Xuyên nói.

Đây cũng là lý do Bách Xuyên không muốn chỉ làm các kịch bản đơn giản, mà muốn liên tục tiến tới các chẩn đoán nghiêm túc, khó hơn.

Khi được hỏi về việc giải quyết các vấn đề khó, có mang lại lợi nhuận lớn nhất trong kinh doanh không, Vương Tiểu Xuyên đã đưa ra câu trả lời sâu sắc.

Ông cho rằng, giải quyết các vấn đề nhỏ như cảm cúm sốt cao rất khó để xây dựng lòng tin đủ lớn trong người dùng. Y học là ngành rất dựa vào lòng tin. Chỉ khi AI có thể giải quyết các vấn đề nghiêm trọng, khó khăn cao như bệnh nặng, mới có thể thực sự xây dựng nền tảng tin cậy.

Về mặt logic kinh doanh, khi bệnh nhân đối mặt với các vấn đề sức khỏe nghiêm trọng, họ cũng sẵn sàng trả phí cho dịch vụ AI chất lượng cao. Sự tin tưởng này không chỉ là tiền đề cho lợi nhuận, mà còn là cốt lõi để AI y tế có thể mở rộng quy mô ứng dụng.

Về ý nghĩa sâu xa hơn, y học đối với Bách Xuyên và Vương Tiểu Xuyên vẫn là con đường tiến tới trí tuệ nhân tạo chung (AGI).

Vương Tiểu Xuyên cho rằng, AI hiện đã tìm ra các giải pháp thực tế trong các lĩnh vực văn học, khoa học, kỹ thuật, nghệ thuật, còn y học là một lĩnh vực cực kỳ đặc thù. Con người vẫn chưa khám phá hết lĩnh vực y học, AI cũng đang trong giai đoạn mò mẫm.

Lộ trình của Bách Xuyên rất rõ ràng. Trước tiên, nâng cao hiệu quả chẩn đoán bằng AI, giải quyết vấn đề thiếu hụt cung cấp y tế hiện tại. Trên nền tảng đó, họ hướng tới xây dựng lòng tin sâu sắc với bệnh nhân. Khi bệnh nhân sẵn sàng sử dụng công cụ AI để tư vấn y tế lâu dài, AI có thể tích lũy dữ liệu y tế thực tế, chất lượng cao qua thời gian.

Mục tiêu cuối cùng của những dữ liệu này là xây dựng mô hình toán học của sự sống. Đây là con đường mà các bác sĩ vẫn chưa hoàn toàn đi qua, nhưng trong tương lai rất có thể AI sẽ là người tiên phong thực hiện. Nếu có thể hoàn thiện mô hình bản chất của sự sống, đó sẽ là bước đột phá quan trọng thúc đẩy tiến bộ của trí tuệ nhân tạo chung.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim