- Trong nghiên cứu của Harvard, mô hình suy luận o1 của OpenAI cho thấy độ chính xác cao hơn bác sĩ con người trong chẩn đoán phân loại (triage) ban đầu tại phòng cấp cứu, và LLM được đánh giá là đã vượt qua phần lớn các benchmark về suy luận lâm sàng
- Trong thí nghiệm đọc hồ sơ bệnh án điện tử tiêu chuẩn của 76 bệnh nhân đến phòng cấp cứu tại một bệnh viện ở Boston, o1 đưa ra chẩn đoán chính xác hoặc rất gần đúng trong 67% trường hợp, còn 2 bác sĩ con người đạt 50–55%
- Khi được cung cấp thêm chi tiết, độ chính xác của AI tăng lên 82%, còn chuyên gia là con người đạt 70–79%, nhưng chênh lệch này không có ý nghĩa thống kê
- AI cũng vượt qua 46 bác sĩ trong các bài toán về lập kế hoạch điều trị dài hạn như phác đồ kháng sinh hay lập kế hoạch chăm sóc cuối đời; trong 5 ca lâm sàng, AI đạt 89% điểm, còn bác sĩ dùng tài liệu hiện có đạt 34%
- Nghiên cứu chỉ so sánh dữ liệu bệnh nhân có thể truyền tải bằng văn bản và không kiểm tra tín hiệu phi ngôn ngữ, nên giới hạn của nó là gần với vai trò ý kiến thứ hai dựa trên hồ sơ hơn là thay thế bác sĩ thực tế
Kết quả cốt lõi của thí nghiệm phân loại cấp cứu tại Harvard
- Trong nghiên cứu của Harvard, hệ thống AI cho kết quả tốt hơn bác sĩ con người về độ chính xác chẩn đoán trong bối cảnh phân loại (triage) của y học cấp cứu
- Kết quả công bố trên Science đến từ thí nghiệm so sánh phản hồi của hàng trăm bác sĩ với phản hồi của AI, và các chuyên gia độc lập đánh giá AI đã thể hiện “một bước tiến thực sự” trong suy luận lâm sàng
- Các mô hình ngôn ngữ lớn (LLM) được đánh giá là “đã vượt qua phần lớn các benchmark về suy luận lâm sàng”
- Ưu thế của AI đặc biệt nổi bật trong bối cảnh phân loại ban đầu tại phòng cấp cứu, nơi có ít thông tin và cần đưa ra quyết định nhanh
Thí nghiệm chẩn đoán với 76 bệnh nhân cấp cứu
- Trong thí nghiệm với 76 bệnh nhân đến phòng cấp cứu của một bệnh viện tại Boston, AI và 2 bác sĩ con người cùng đọc một bộ hồ sơ bệnh án điện tử tiêu chuẩn để đưa ra chẩn đoán
- Hồ sơ bệnh án điện tử thường bao gồm dấu hiệu sinh tồn, thông tin nhân khẩu học và vài câu do điều dưỡng ghi lại về lý do bệnh nhân đến bệnh viện
- Mô hình suy luận o1 của OpenAI tìm ra chẩn đoán chính xác hoặc rất gần đúng trong 67% trường hợp, trong khi bác sĩ con người đạt độ chính xác 50–55%
- Khi có thêm thông tin chi tiết, độ chính xác chẩn đoán của AI tăng lên 82%, còn chuyên gia là con người đạt 70–79%, nhưng khác biệt này không có ý nghĩa thống kê
Thí nghiệm về kế hoạch điều trị dài hạn
- AI cũng vượt qua một nhóm bác sĩ đông hơn trong các nhiệm vụ xây dựng kế hoạch điều trị dài hạn, như đề xuất phác đồ kháng sinh hoặc lập kế hoạch cho giai đoạn cuối đời
- AI và 46 bác sĩ đã xem xét 5 nghiên cứu tình huống lâm sàng, và AI đưa ra kế hoạch tốt hơn một cách có ý nghĩa so với bác sĩ con người sử dụng tài liệu sẵn có
- Điểm số là 89% cho AI, còn bác sĩ con người dùng tài liệu hiện có như công cụ tìm kiếm đạt 34%
Giới hạn của nghiên cứu và thay đổi vai trò trong thực hành y khoa
- Nghiên cứu này chỉ so sánh con người và AI dựa trên dữ liệu bệnh nhân có thể truyền đạt bằng văn bản
- Khả năng AI đọc các tín hiệu phi ngôn ngữ như mức độ đau đớn của bệnh nhân hay vẻ ngoài trực quan không được kiểm tra
- Vì vậy, AI giống với một bác sĩ lâm sàng đưa ra ý kiến thứ hai dựa trên hồ sơ hơn là thực sự thay thế bác sĩ cấp cứu
- Arjun Manrai, người đứng đầu viện nghiên cứu AI của Harvard Medical School, cho biết kết quả này không có nghĩa AI sẽ thay thế bác sĩ, mà cho thấy một “thay đổi công nghệ rất sâu rộng” đang tái định hình y học
- Adam Rodman, bác sĩ tại Beth Israel Deaconess medical centre ở Boston, nơi nghiên cứu được thực hiện, xem AI LLM là “một trong những công nghệ có ảnh hưởng lớn nhất trong nhiều thập kỷ”
- Rodman cho rằng trong 10 năm tới, thay vì thay thế bác sĩ, AI sẽ tham gia vào một mô hình khám chữa bệnh ba bên mới gồm bác sĩ, bệnh nhân và hệ thống AI
Ca lâm sàng và suy luận của AI
- Trong một trường hợp của nghiên cứu Harvard, bệnh nhân có cục máu đông ở phổi và các triệu chứng đang xấu đi
- Các bác sĩ con người cho rằng thuốc chống đông không còn hiệu quả, nhưng AI phát hiện rằng tiền sử lupus của bệnh nhân có thể gây viêm phổi
- Phán đoán của AI được xác nhận là đúng
Việc sử dụng AI y tế đã bắt đầu lan rộng
- Theo nghiên cứu công bố tháng trước, khoảng 1/5 bác sĩ tại Mỹ đã sử dụng AI để hỗ trợ chẩn đoán
- Tại Anh, 16% bác sĩ dùng AI hằng ngày, và thêm 15% dùng hằng tuần
- Theo khảo sát gần đây của Royal College of Physicians, một trong những mục đích sử dụng phổ biến của bác sĩ tại Anh là ra quyết định lâm sàng
- Mối lo lớn nhất của bác sĩ tại Anh là lỗi của AI và rủi ro trách nhiệm pháp lý
- Dù hàng chục tỷ USD đang được đầu tư vào các công ty AI y tế, các câu hỏi về hậu quả của sai sót AI vẫn còn bỏ ngỏ
- Rodman nói hiện chưa có khung trách nhiệm chính thức nào, và nhấn mạnh rằng bệnh nhân cuối cùng vẫn muốn con người hướng dẫn các quyết định sống còn và những lựa chọn điều trị khó khăn
Đánh giá từ chuyên gia bên ngoài và những điểm cần thận trọng
- Giáo sư Ewen Harrison, đồng giám đốc trung tâm tin học y tế tại University of Edinburgh, đánh giá nghiên cứu này là quan trọng và cho thấy các hệ thống như vậy không còn chỉ dừng ở mức vượt qua các kỳ thi y khoa hay giải các ca kiểm thử nhân tạo
- Harrison cho rằng AI bắt đầu giống một công cụ ý kiến thứ hai hữu ích cho bác sĩ lâm sàng, đặc biệt khi cần xem xét phạm vi chẩn đoán khả dĩ rộng hơn và tránh bỏ sót điều quan trọng
- Tiến sĩ Wei Xing của School of Mathematical and Physical Sciences tại University of Sheffield cho rằng một số kết quả khác gợi ý bác sĩ có thể vô thức làm theo câu trả lời của AI thay vì suy nghĩ độc lập
- Xing nói xu hướng này có thể tăng mạnh hơn khi AI được dùng thường xuyên hơn trong môi trường lâm sàng
- Xing chỉ ra rằng nghiên cứu còn thiếu thông tin về việc AI chẩn đoán kém hơn ở nhóm bệnh nhân nào, chẳng hạn người cao tuổi hay bệnh nhân không dùng tiếng Anh là tiếng mẹ đẻ
- Xing cho rằng nghiên cứu này không chứng minh AI an toàn cho sử dụng lâm sàng hằng ngày, cũng không chứng minh công chúng nên coi các công cụ AI доступ tự do là vật thay thế cho lời khuyên y khoa
1 bình luận
Ý kiến trên Hacker News
Rất khó hoàn toàn tin tưởng những nghiên cứu kiểu này vì quá dễ làm hỏng benchmark
Ví dụ, trong một bài báo gần đây, AI đã đánh bại bác sĩ X quang trong việc đọc X-quang, nhưng bản thân AI lại không hề được tiếp cận ảnh X-quang: https://arxiv.org/pdf/2603.21687
Đó là một benchmark VQA quy mô lớn sẵn có cho “hiểu X-quang ngực tổng quát”, chứ không phải cố tình phá hỏng
Hơn nữa, trong thực tế đọc X-quang thì bác sĩ X quang thật sự nhìn vào ảnh. Nhưng trong bối cảnh bài này, bác sĩ con người khi chẩn đoán bệnh nhân cấp cứu cũng không chỉ nhìn ghi chú rồi phán đoán
Về cơ bản là giao cho con người một nhiệm vụ họ không cần làm, không quen làm, cũng không được đào tạo để làm, rồi nói “AI làm tốt hơn”, nên kể cả khi ghi chú không vô tình làm lộ đáp án theo một đường vòng kỳ quặc nào đó thì điều này cũng chẳng đáng ngạc nhiên
Không có nghĩa nghiên cứu này chắc chắn sai hay cố ý đánh lừa, nhưng tôi sẽ không rút ra kết luận mạnh chỉ từ một nghiên cứu đơn lẻ
Rốt cuộc y học là vấn đề của tri thức, kinh nghiệm, trí tuệ, và có lẽ là nhận diện mẫu hình, mà đây đều là những thứ có vẻ như các mô hình AI hàng đầu, đặc biệt là mô hình chỉ tập trung vào y tế, sẽ vượt xa phần lớn con người, tức là các bác sĩ
Nếu ta đã giả định như vậy với kỹ sư phần mềm thì cũng nên áp dụng cho lĩnh vực này, và thực tế là vài tháng gần đây mỗi lần tôi đi gặp bác sĩ, kể cả hai lần vào phòng cấp cứu, họ đều đang dùng ChatGPT. Không đùa đâu, tôi thực sự bị sốc
Nên tôi thật sự tò mò: bỏ qua trách nhiệm và đạo đức sang một bên, nếu chỉ xét thuần túy năng lực thì đâu là khả năng cụ thể hoặc tổ hợp khả năng khiến người ta tin rằng một AI y tế hàng đầu sẽ vĩnh viễn, hoặc ít nhất trong vài chục năm tới, không thể bắt kịp hay vượt qua một bác sĩ giỏi?
Trong nghiên cứu đó, nó đã sai khoảng một nửa số lần ở phân loại mức độ khẩn cấp tại khoa cấp cứu
Các con số trên tiêu đề là trích từ kết quả chẩn đoán ước đoán chỉ dựa trên ghi chú của điều dưỡng. Tôi đoán là trong các ca được chọn lọc, mô hình ngôn ngữ lớn có thể đoán táo bạo hơn bác sĩ
Đó có vẻ là kết luận rất hợp lý, nhưng lại bỏ qua khả năng khác. Liệu ảnh X-quang có làm kết quả kém chính xác hơn không?
Tôi ngạc nhiên vì cả bài báo lẫn nghiên cứu đều có vẻ bị thổi phồng khá nhiều. Đây là kiểu cho bác sĩ cạnh tranh với mô hình ngôn ngữ lớn theo cách được thiết kế rất có lợi cho mô hình, và không đại diện cho thực hành lâm sàng
Những ca suy luận kiểu này là công cụ học tập chứ không phải benchmark dành cho bác sĩ
Chẩn đoán trước hết phụ thuộc vào việc mô tả bệnh nhân chính xác, và thông tin được thu thập sẽ thay đổi tùy theo chẩn đoán phân biệt
Một phần năng lực của bác sĩ là gom thông tin từ nhiều nguồn và lọc ra điều quan trọng. Có thể bệnh nhân không diễn đạt rõ hoặc không giao tiếp bằng lời, và bác sĩ phải hỏi người chăm sóc hay người thân
Bản thân việc khai thác bệnh sử đã là một kỹ năng, khám thực thể cũng vậy, nhưng ở đây những dữ liệu đó đã được cho sẵn
Đặc biệt với những câu hỏi mà o1 có thể đã gặp trong dữ liệu huấn luyện, việc nó vượt bác sĩ chỉ ở nhận diện mẫu hình văn bản thuần túy không hề đáng ngạc nhiên, nhưng tôi không thấy đây là một so sánh hữu ích về mặt lâm sàng
Việc quyết định làm xét nghiệm gì, có chụp hình ảnh hay không, hay loại bỏ thông tin không cần thiết trong bệnh sử cũng là những năng lực riêng và rất khó tách khỏi việc hình thành chẩn đoán
Trong một số trường hợp, về xác suất thì chọn X có thể lợi hơn, nhưng khác biệt không lớn, và lựa chọn an toàn hơn có thể là loại trừ một khả năng khác trước hoặc bắt đầu điều trị an toàn bao phủ nhiều khả năng
Chỉ đơn giản “điểm cao” trong đánh giá này không nhất thiết đồng nghĩa với chăm sóc y tế tốt
Tôi sẽ không đặt quá nhiều trọng lượng vào nghiên cứu này, nhưng có lẽ nhiều người vẫn có thể đồng ý rằng mô hình ngôn ngữ lớn cho tự chẩn đoán là hữu ích
Ở Mỹ, rất khó nhận được sự quan tâm và chăm sóc từ bác sĩ nên cuối cùng người ta phải tự xoay xở
Mười năm trước bác sĩ còn phàn nàn bệnh nhân mang những gì tìm được trên Google đến, nhưng giờ tôi thấy chẳng còn lựa chọn nào khác
Ví dụ tôi đã đi gặp bác sĩ chuyên khoa bàn chân vì vấn đề ở bàn chân và mắt cá; vấn đề ở bàn chân thì được chẩn đoán bằng X-quang, còn vấn đề ở mắt cá thì họ chỉ nhún vai bảo trên X-quang không thấy gì
Hết 15 phút được phân bổ, tôi ra về mà không biết nguyên nhân cũng như cách khắc phục. Hỏi mô hình ngôn ngữ lớn 5 phút thì tôi lại có được một nguyên nhân ở mắt cá khá hợp lý và còn khớp với chẩn đoán ở bàn chân nữa
Nếu các công ty y tế chọn dùng AI để tăng số bệnh nhân mỗi ngày thay vì cải thiện chăm sóc, thì tình hình có lẽ còn tệ hơn
Việc nói “cho AI và hai bác sĩ con người đọc cùng một hồ sơ bệnh án điện tử tiêu chuẩn” là một điều kiện làm hạn chế năng lực của bác sĩ con người
Chỉ cần quan sát bệnh nhân trong chốc lát là bác sĩ đã có thể thu được nhiều thông tin hơn rất nhiều
https://entropicthoughts.com/arithmetic-models-better-than-y...
AI rà soát hồ sơ và đề xuất các chẩn đoán khả dĩ, sau đó bác sĩ quan sát bệnh nhân rồi xem lại những đề xuất đó
Ngoài ra, bệnh thường gặp thì đúng là thường gặp. Tôi cũng tò mò điều đó rốt cuộc làm thiên lệch cả bác sĩ lẫn mô hình ngôn ngữ lớn tới mức nào
Nếu có người đến với triệu chứng sổ mũi và ho mà chẩn đoán là cúm thì phần lớn trường hợp có lẽ sẽ đúng
Bác sĩ và điều dưỡng thích vì không phải tự gõ, nhưng việc họ có thực sự rà soát kỹ các lỗi phiên âm xuất hiện khá thường xuyên trong hồ sơ hay không thì hoàn toàn rối loạn
Giờ chỉ cần đưa một bản chép sai sót đó vào hệ thống chẩn đoán AI là xong. AI sẽ coi nó như chân lý, còn bác sĩ có thể dừng lại và nghĩ “Khoan, cái này là gì vậy?”
Không chỉ tôi và vợ, tôi còn dùng mô hình ngôn ngữ lớn để chẩn đoán cho cả chó của mình
Tôi tin chắc thú y dựa trên AI có cơ hội rất lớn. Đặc biệt nếu sau đó còn có thể để nó thực hiện luôn việc mời chào giá khám chữa hay phẫu thuật giữa các phòng khám thú y trong khu vực thì càng tốt
Giá ở các phòng khám thú y địa phương có thể chênh nhau hơn 10 lần. Mẹ tôi 80 tuổi và mẹ vợ tôi thường bị các bác sĩ thú y tính quá mức, và vì thú cưng là phần rất lớn trong cuộc sống của họ nên họ cực kỳ dễ bị gây áp lực
Tôi không hiểu phản ứng tiêu cực ở đây. Chỉ riêng việc máy tính có thể đạt được khoảng 30% thôi đã là điều đáng kinh ngạc rồi
Có vẻ sự thù địch với AI và các phòng thí nghiệm tiên phong như OpenAI, hoặc phía Google, là quá lớn và không hợp lý
Theo tôi, điểm mấu chốt là AI được nhận ghi chú ca bệnh, nhưng không trực tiếp nhìn thấy bệnh nhân
Điều này khác với cách bác sĩ được đào tạo và hạn chế không cần thiết những gì bác sĩ có thể làm. Phần lớn giá trị bác sĩ mang lại đến từ việc trò chuyện với bệnh nhân
Tiêu đề nghe như AI sắp thay thế bác sĩ, nhưng thực ra nó gần với ý “AI có thể làm tốt hơn bác sĩ ở nhiệm vụ hẹp này”
Các ghi chú được dùng ban đầu cũng có thể là do bác sĩ viết
Phần thưởng thực sự là tổ hợp bác sĩ+AI phải tốt hơn bác sĩ đơn lẻ. Khi bác sĩ phải đọc ghi chú ca bệnh và đi đến kết luận, giờ họ có thể tận dụng một gợi ý khá ổn từ AI
Càng nhiều tiền cược, thông thường chúng ta phải phê phán nhiều hơn, chứ không phải ít đi
Sự hoài nghi là một công cụ cực kỳ hữu ích, kể cả khi có vẻ quá mức
Tôi 60 tuổi, đã tự làm công cụ hỗ trợ y tế AI [1] và dùng khá rộng cho nhiều triệu chứng, và tôi rất hài lòng
Sau khi phân tích một vài kết quả xét nghiệm, nó còn đề xuất những chỉ số mà ban đầu bác sĩ không nghĩ tới
Nó sẽ không thay thế bác sĩ, nhưng là công cụ rất hữu ích cho tự chẩn đoán các triệu chứng đơn giản và cho ý kiến thứ hai
[1] https://mediconsulta.net (DeepSeek)
Tôi tò mò không biết 33% đó có là tập con của phần 50~45% hay không
Nếu không phải tập con thì mức độ nghiêm trọng của các lỗi đó là thế nào? Có nhiều ca tử vong hơn không? Thời gian hồi phục dài hơn không? Khác biệt đó trên thực tế dẫn đến điều gì?
Bài báo khoa học: https://www.science.org/doi/10.1126/science.adz4433 (ngày 30 tháng 4 năm 2026)
Chênh lệch giữa 67% và 55% thực sự lớn đến mức nào? Nghiên cứu có dùng cùng một nhóm bệnh nhân cho các bác sĩ hay không?
Nếu không đặt cạnh nhau để so sánh mỗi bên đã đánh giá từng tình huống ra sao và vì sao đi đến kết luận khác nhau, thì tôi không rõ về mặt khoa học nó có thể hiệu quả đến đâu
Ai đảm bảo rằng trong 43% còn lại, bác sĩ không thể phát hiện những điểm mù mà AI bỏ lỡ?
Công cụ là để kết hợp nỗ lực chứ không phải thay thế
Việc ném những tỷ lệ phần trăm như thế này ra cho công chúng là khá vô trách nhiệm