- OpenAI đã công bố HealthBench, một benchmark mới nhằm đánh giá hiệu năng của các hệ thống AI trong bối cảnh y tế
- Bộ này được xây dựng dựa trên 262 bác sĩ, kinh nghiệm y khoa từ 60 quốc gia, và 5.000 cuộc hội thoại y tế thực tế, đồng thời sử dụng bộ tiêu chí đánh giá (rubric) do chính bác sĩ trực tiếp soạn cho từng cuộc hội thoại
- Bộ tiêu chí bao gồm độ chính xác, nhận thức ngữ cảnh, chất lượng giao tiếp, tính đầy đủ và được mô hình đánh giá dựa trên GPT-4.1 chấm mức độ đáp ứng tiêu chí
- Các mô hình OpenAI mới nhất cho thấy tiến bộ thực tế như hiệu năng tăng 28% so với trước đây, mô hình nhỏ cũng cải thiện hiệu năng trên chi phí, và cải thiện hiệu năng trong trường hợp tệ nhất (worst-of-n)
- Toàn bộ HealthBench, các bộ Consensus và Hard được phát hành mã nguồn mở cho các nhà nghiên cứu và nhà phát triển, nhằm đóng góp cho nghiên cứu AI y tế và bảo đảm an toàn trong tương lai
Giới thiệu HealthBench
Bối cảnh phát triển
- Cần có một phương pháp đánh giá để tối đa hóa tiềm năng ứng dụng AGI trong chăm sóc sức khỏe, như mở rộng khả năng tiếp cận thông tin y tế, hỗ trợ bác sĩ lâm sàng, và tăng cường quyền sức khỏe cộng đồng
- Các bộ đánh giá y tế trước đây gặp những vấn đề như thiếu tính thực tế, chưa dựa đủ vào phán đoán của chuyên gia, và khó phản ánh dư địa phát triển của mô hình
Đặc điểm chính
- 5.000 kịch bản hội thoại sức khỏe nhiều lượt, đa ngôn ngữ, độ khó cao
- Mỗi câu trả lời được chấm bằng bộ tiêu chí đánh giá tùy biến (rubric) do bác sĩ xây dựng
- Tổng cộng 48.562 tiêu chí đánh giá, cho phép định lượng nhiều năng lực chi tiết khác nhau của mô hình
- Việc chấm điểm được thực hiện bằng hệ thống đánh giá rubric tự động sử dụng GPT-4.1
Các chủ đề và trục đánh giá của HealthBench
7 chủ đề đánh giá
- Emergency referrals: khả năng nhận biết tình huống khẩn cấp và khuyến nghị phản ứng phù hợp
- Expertise-tailored communication: khả năng điều chỉnh thuật ngữ/độ chi tiết theo trình độ của người dùng
- Responding under uncertainty: mức độ phù hợp khi phản hồi trong điều kiện thông tin không chắc chắn
- Response depth: cung cấp độ sâu thông tin phù hợp với tình huống
- Health data tasks: xử lý nghiệp vụ liên quan đến y tế như soạn tài liệu, hỗ trợ kiến thức
- Global health: khả năng điều chỉnh theo nguồn lực/bối cảnh/ngôn ngữ của từng quốc gia
- Context seeking: khả năng chủ động yêu cầu thêm ngữ cảnh cần thiết
Các trục đánh giá (Axes)
- Độ chính xác (Accuracy): có phù hợp với sự thật y khoa và đồng thuận khoa học hay không
- Nhận thức ngữ cảnh (Context awareness): có điều chỉnh phản hồi theo bối cảnh của người dùng hay không
- Tính đầy đủ (Completeness): có bao quát đầy đủ những nội dung cần thiết hay không
- Chất lượng giao tiếp (Communication quality): độ dài, thuật ngữ, cấu trúc và cách nhấn mạnh có phù hợp hay không
- Tuân thủ chỉ dẫn (Instruction following): có làm đúng định dạng và cách thức mà người dùng yêu cầu hay không
Ví dụ đánh giá thực tế
Ví dụ 1: Người hàng xóm 70 tuổi bất tỉnh nhưng vẫn còn thở
- Bao gồm các nội dung như gọi cấp cứu, đặt ở tư thế hồi phục, và nêu rõ điều kiện bắt đầu CPR
- Đạt 71 điểm (77%) trên tổng 92 điểm theo rubric → cung cấp hướng dẫn ứng phó khẩn cấp tốt
Ví dụ 2: Hiệu quả phòng ngừa virus của Quercetin
- Đã truyền đạt rõ ràng việc thiếu bằng chứng, nhưng thiếu thông tin về liều khuyến nghị/dữ liệu lâm sàng, và bỏ sót đề cập đến tác dụng phụ
- Chỉ đạt 1 điểm (4%) trên tổng 25 điểm theo rubric → thể hiện tốt sự bất định khoa học nhưng thiếu tính đầy đủ về thông tin
Ví dụ 3: Soạn ghi chú tiến triển phục hồi chức năng tim
- Có đưa ra mẫu biểu có cấu trúc, nhưng bỏ sót nhiều thông tin lâm sàng cốt lõi
- Đạt 15 điểm (36%) trên tổng 42 điểm theo rubric
So sánh hiệu năng mô hình
Hiệu năng theo mô hình (toàn bộ/theo chủ đề/theo trục)
- o3 ghi nhận hiệu năng cao nhất (0.598) trên mọi chủ đề và trục đánh giá
- GPT-4.1, Claude 3.7 và Gemini 2.5 Pro theo sau
- GPT-3.5 Turbo và Llama 4 có điểm số thấp hơn đáng kể
Hiệu năng trên chi phí
- GPT-4.1 nano rẻ hơn GPT-4o tới 25 lần nhưng vẫn cho hiệu năng cao hơn
- Điều này cho thấy mô hình nhỏ tiếp tục cải thiện và có thể đạt hiệu năng cao với chi phí thấp
Độ tin cậy (hiệu năng worst-of-n)
- o3 và GPT-4.1 cho thấy hiệu năng trong các trường hợp tệ nhất cũng được cải thiện
- Đây là chỉ số quan trọng để bảo đảm độ tin cậy trong các lĩnh vực rủi ro cao
Benchmark mở rộng: Consensus & Hard
- HealthBench Consensus: bộ đánh giá độ tin cậy cao được thiết kế theo tiêu chí đồng thuận của nhiều bác sĩ (3.671 ví dụ)
- Tỷ lệ lỗi gần như tiến về 0
- HealthBench Hard: 1.000 ví dụ độ khó cao mà ngay cả các mô hình mới nhất cũng gặp khó khăn
- Có thể dùng làm bộ đánh giá để kiểm tra dư địa cải thiện của mô hình
So sánh với bác sĩ con người
- Chỉ AI vs bác sĩ (không có tham chiếu) vs bác sĩ (có thể tham chiếu câu trả lời của mô hình)
- So với các mô hình năm 2024: tổ hợp bác sĩ + mô hình vượt trội hơn mô hình đơn lẻ
- Các mô hình mới nhất năm 2025 (o3, GPT‑4.1) đã đạt tới hoặc vượt mức phản hồi của bác sĩ
- Dư địa cải thiện thêm đang thu hẹp lại
Độ tin cậy của đánh giá
- Mức độ nhất quán giữa kết quả chấm của GPT-4.1 và chấm điểm thực tế của bác sĩ là cao
- Tiêu chuẩn chấm của mô hình được căn chỉnh ở mức tương tự với phán đoán của bác sĩ → xác lập tính hiệu lực của hệ thống chấm rubric tự động
Hướng đi sắp tới
- Toàn bộ dữ liệu và công cụ đánh giá được công bố qua GitHub https://github.com/openai/simple-evals
- Khuyến khích đánh giá và cải tiến liên tục dựa trên cộng đồng để thúc đẩy tiến bộ AI có ý nghĩa trong môi trường y tế
- Vẫn cần giải quyết những bài toán còn yếu như yêu cầu thêm ngữ cảnh (Context seeking) và xử lý các trường hợp tệ nhất (Reliability)
1 bình luận
Ý kiến trên Hacker News
Tôi tin rằng nhiều chẩn đoán và điều trị thông thường hoàn toàn có thể được các hệ thống AI được tinh chỉnh kỹ và kiểm chứng phù hợp đảm nhiệm. Gần đây tôi đã khám video với bác sĩ để lấy đơn thuốc ho, nhưng thực ra tôi đã tự tìm hiểu và biết mình nên dùng gì rồi. Mọi người sẽ nói kiểu “bác sĩ học mấy năm, phải tin hơn Google”, nhưng con người cũng mắc sai lầm, và bác sĩ cũng thường tra thông tin ở những nơi như Uptodate. Nếu bạn sẵn sàng chấp nhận rủi ro thì tại sao lại không được tự chịu rủi ro đó? Tôi không hiểu vì sao ngoài tiền thuốc ho (khoảng 44 USD) tôi còn phải trả thêm 93 USD chỉ để một bác sĩ nhìn mặt tôi qua Zoom chưa đến 5 phút rồi kê đơn. Trái với chi phí y tế quá đắt đỏ ở Mỹ, tại quê tôi (Myanmar) có nhiều phòng khám và hiệu thuốc gần nhà, và phần lớn thuốc có thể mua không cần đơn (tất nhiên thuốc chứa opioid thì cần bác sĩ kê đơn). Nếu chỉ muốn xác nhận chẩn đoán, bạn có thể trả 10~20 USD để khám bác sĩ rồi ra hiệu thuốc mua thuốc ngay. Nếu có tiền thì có thể tự do mua thuốc, nên tôi không hiểu tại sao ở Mỹ người ta còn không được tự gánh lấy cả rủi ro đó. Trong bối cảnh chi phí y tế tăng trên toàn cầu, AI sẽ ngày càng đảm nhận các chẩn đoán và điều trị thông thường hơn (dù tôi không kỳ vọng quá lớn), và tôi hy vọng ít nhất một phần chi phí tiết kiệm được sẽ quay lại với bệnh nhân.
Trường hợp của bạn hiệu quả theo cách đó vì đây là một ca đơn giản bất thường. Vấn đề là người trong cuộc không được đào tạo để phân biệt tình huống đơn giản và tình huống không đơn giản. Ho có thể chỉ là ho, nhưng cũng có thể là dấu hiệu của vấn đề nghiêm trọng hơn, nên cần được bác sĩ "thật" khám, và trong một số trường hợp còn cần khám thêm với chuyên gia. Kể câu chuyện của tôi nhé: tôi bị đau tinh hoàn, một bác sĩ không sờ thấy gì, bác sĩ khác thì nói có sờ thấy thứ gì đó nhưng không biết là gì. Cuối cùng tôi đến bác sĩ tiết niệu, và ông ấy chẩn đoán ngay là khối u, thực tế đúng là ung thư. Nhờ phát hiện sớm nên việc điều trị dễ dàng hơn. Điểm mấu chốt là khi tình huống không đơn giản, chuyên môn và kinh nghiệm cực kỳ quan trọng.
Bạn hỏi tại sao phải trả 93 USD cho một buổi khám Zoom chưa đến 5 phút; đó là vì bạn đang trả tiền cho kiến thức của một chuyên gia đã học hơn 10 năm. Các hệ thống AI ngày nay, xét về chẩn đoán y khoa, còn kém đáng tin hơn cả tìm kiếm web. Với tìm kiếm web, ít nhất tôi còn có thể tự chọn lọc thông tin do chuyên gia viết ra để tham khảo, và kể cả khi bác sĩ đi tra cứu, tôi xem đó là trả tiền cho khả năng sàng lọc thông tin đó. Tôi không thấy cơ sở nào để tin rằng AI có thể làm vai trò này tốt hơn con người. Câu chuyện này giống với giai thoại của Henry Ford về “kiến thức biết phải gõ vào đâu mới đáng giá 9999 USD”.
Tôi tò mò không biết bạn ở đâu mà không thể mua thuốc ho không cần đơn. Theo như tôi biết, chỉ những loại có chứa chất bị kiểm soát mới cần đơn thôi.
Bác sĩ tuyệt đối không đủ để tự mình xử lý hết mọi việc như thế này. Tình trạng thiếu hụt đó đang ngày càng trầm trọng hơn từng ngày. Ai cũng muốn có thể được khám chữa rẻ và dễ tiếp cận bất cứ lúc nào, nhưng chúng ta không sống trong một thế giới lý tưởng. Nếu AI thay thế được một phần, đó sẽ là lợi ích rất lớn cho đa số mọi người.
Nếu ai cũng có thể dễ dàng mua và dùng thuốc thì sẽ phát sinh những vấn đề như lạm dụng kháng sinh bừa bãi. Đáng tiếc là hệ thống y tế phải được thiết kế có tính đến cả những hành vi dưới mức trung bình. AI có thể xử lý một phần phân loại đơn giản (triage), nhưng với tình trạng hiện tại của LLM thì độ tin cậy của thông tin bệnh nhân và khả năng phán đoán đa giác quan vẫn còn thiếu, nên chưa thể thay bác sĩ. Một “bác sĩ gia đình AI” thực sự chỉ khả thi khi có dữ liệu sức khỏe hoàn chỉnh và dựa trên lịch sử đầy đủ, nhưng việc thu thập dữ liệu ở mức đó lại kéo theo các thách thức mới như quyền riêng tư.
Nếu trải nghiệm như vậy là cách sử dụng dịch vụ y tế thông thường, thì đây là tình huống đòi hỏi thay đổi mang tính lật tung cả hệ thống. AI có thể chỉ đơn giản làm tăng tỷ suất lợi nhuận cho một vài công ty mà bạn thì chẳng được hưởng lợi gì.
AI cũng sẽ có chi phí riêng. Nó sẽ không miễn phí.
Tôi thấy nếu benchmark cũng do bên làm mô hình tạo ra thì chẳng phải là xung đột lợi ích sao. Tối thiểu phải để một tổ chức phi lợi nhuận riêng hoặc một pháp nhân tách biệt dưới công ty mẹ đảm nhiệm thì mới minh bạch.
Ý tưởng giao thông tin sức khỏe cho một LLM vốn còn không hiểu được ý nghĩa là một sai lầm nghiêm trọng. Nó có thể phần nào hữu ích cho việc tìm mẫu trong dữ liệu, giải trí hoặc sinh mã, nhưng tuyệt đối không đáng tin cho chẩn đoán hay tư vấn y khoa. Chỉ nghĩ đến việc nhân viên y tế lặp lại như con vẹt những gì LLM nói thôi cũng đã đáng sợ. Những rủi ro như vậy cần được quản lý càng sớm càng tốt.
Tôi muốn biết cụ thể vì sao bạn nghĩ khiếm khuyết đó lại nghiêm trọng đến mức chí mạng như vậy. LLM rõ ràng có giới hạn, nhưng con người cũng có giới hạn, và tôi nghĩ kết hợp hai bên có thể cho kết quả tốt hơn.
Ai thực sự hiểu điều gì thì với tất cả chúng ta đều không minh bạch. Ngay cả bài viết này cũng có thể do AI viết mà chúng ta không biết, và không có tiêu chuẩn tuyệt đối nào để xác định ai là người thật sự có hiểu biết. Chuyên môn của con người rốt cuộc cũng chỉ được ước lượng gián tiếp qua các bài kiểm tra đánh giá, và OpenAI hiện đang thử thách điều đó. Điều tôi quan tâm là kết quả. Nếu “điểm số” là 10% thì dù là người hay AI tôi cũng không tin; nếu là 95% thì ngược lại tôi còn thấy có thể hữu ích hơn bác sĩ. Thực tế tôi dự đoán chẳng bao lâu nữa đa số bác sĩ sẽ không đạt điểm tốt bằng các mô hình mới nhất trên những benchmark kiểu này.
Tôi cũng cho rằng giao thông tin sức khỏe cho “loài thú có vú là con người, mệt mỏi và đầy thành kiến” cũng nguy hiểm y như vậy. Tôi thích bác sĩ ở chỗ có sự đồng cảm, trò chuyện ngắn và tiêm chủng cơ bản, nhưng tôi không nghĩ lúc nào một bác sĩ đang quá tải cũng sẽ chính xác hơn các công cụ dữ liệu. Nếu bác sĩ của tôi chỉ đơn giản lặp lại nội dung từ bài trình bày của nhân viên bán hàng hoặc các hướng dẫn lỗi thời, thì điều đó cũng đáng sợ không kém.
Tôi thích việc họ cho thấy “điểm tệ nhất trên k mẫu”, vì trong thực tế 1 trong 100 người thật sự sẽ nhận phải đúng cái “câu trả lời tệ nhất” đó.
Tôi ấn tượng vì Grok làm tốt hơn mong đợi trong các bài test kiểu này. Trên mặt tin tức, Grok có vẻ ít được chú ý hơn so với Gemini hay Llama.
Tôi ngạc nhiên vì Gemini làm khá ổn ngoài dự kiến. Có vẻ Gemini đặc biệt hay né tránh các chủ đề liên quan đến sức khỏe nên điểm bị giảm. Có lẽ những trường hợp bị kiểm duyệt khiến câu trả lời thiếu nội dung đều bị tính là thất bại.
Grok không cho tải xuống trọng số mô hình để chạy cục bộ.
Trong 5 năm gần đây tôi khổ sở vì chấn thương. Tôi đã gặp nhiều bác sĩ chuyên khoa thể thao, chụp chiếu, chườm nóng lạnh, thử cả châm cứu lẫn chiropractor. Các bác sĩ chỉ liên tục đưa ra những chẩn đoán vớ vẩn như “bình thường” hoặc “không biết nguyên nhân”. Chỉ có một bác sĩ đưa ra ý kiến có vẻ thuyết phục, nhưng tôi thất vọng đến mức còn chẳng theo tiếp. Cuối cùng tôi nhập toàn bộ tiền sử vào o3-deep-research, và nó đưa ra đúng cùng nhận định với vị bác sĩ đó (kèm sơ đồ nhóm cơ, cách tập luyện). Tôi vẫn chưa khỏi hẳn, nhưng sau một thời gian dài cuối cùng cũng thấy le lói hy vọng.
Tôi tò mò vì sao bạn lại tin chẩn đoán của LLM hơn lời khuyên của nhiều bác sĩ. Ở Mỹ mà bác sĩ không hề chỉ định vật lý trị liệu hay bài tập thì nghe khá khó hiểu.
Một cách thực tế, bạn cần chấp nhận rằng phần lớn điều trị chấn thương cơ xương khớp là một hành trình rất dài của thử và sai. Chẩn đoán hình ảnh cũng có giới hạn, và có rất nhiều trường hợp triệu chứng và hình ảnh không khớp nhau. Đừng quá nản; nếu tiếp tục thử các phương pháp điều trị có cơ sở khoa học thì cuối cùng phần lớn vẫn là thời gian sẽ giải quyết. Chính vì thế mà cũng rất dễ ngộ nhận rằng một phương pháp điều trị cụ thể nào đó có tác dụng.
Có vẻ thứ bạn thực sự cần không phải là bác sĩ mà là một nhà vật lý trị liệu giỏi.
Rốt cuộc chẳng phải ý kiến của vị bác sĩ đó mới là đúng sao? Dù là AI hay tự chẩn đoán trên mạng thì cũng khó gọi là một chiến thắng đặc biệt.
Có vẻ bạn tin vào những liệu pháp lang băm như châm cứu hay nắn chỉnh xương khớp, lại không tin bác sĩ, rồi tiếp theo còn tin cả AI vốn nổi tiếng nói dối. Có lẽ bạn nên xem lại tiêu chuẩn đánh giá bên trong của mình.
Tôi hy vọng các đợt cắt giảm ngân sách khoa học của chính phủ gần đây đã làm giảm bớt số người quá coi trọng an toàn, những người cản trở việc thử nghiệm và học hỏi các cách tiếp cận mới như thế này. Việc những mô hình này bị chặn chỉ để trả lời kiểu “Tôi không thể đưa ra tư vấn y khoa” thật sự là một tổn thất.
Tôi thấy nghiên cứu lần này rất chín chắn và hữu ích. Việc hiệu năng mô hình gần như tăng gấp đôi chỉ trong một năm cũng rất ấn tượng. o3 và deep-research thực sự đã giúp ích nhiều cho việc chăm sóc sức khỏe của tôi. Ví dụ một tháng trước tôi bị va đập mạnh ở vùng ngực (gần tim), và tôi đã cung cấp cho o3 các triệu chứng cũng như dữ liệu nhịp tim/SpO2 từ Apple Watch. Nó cũng đã biết tiền sử sức khỏe của tôi từ các cuộc trò chuyện trước. Nó hướng dẫn rất chính xác về diễn tiến dự kiến và cách xử lý, và thực tế tôi hồi phục đúng 100% như vậy. Bình thường tôi đã chuẩn bị sẵn một prompt chi tiết gồm chiều cao, cân nặng, thuốc đang dùng, thông tin sức khỏe... để khi có triệu chứng là nhập ngay cho o3 tư vấn, thấy rất hữu ích.
Dữ liệu độ bão hòa oxy SpO2 từ Apple Watch hay các thiết bị đeo cổ tay nhìn chung khá thiếu chính xác cho mục đích chẩn đoán. Máy đo SpO2 chuyên dụng kẹp ngón tay chính xác hơn nhiều.
Tôi tò mò không biết nó thể hiện mức tự tin thế nào với chẩn đoán đó, và cũng muốn biết bạn có thực sự tin vào mức tự tin ấy không. Tôi hỏi vợ tôi là bác sĩ, và cô ấy nói tràn dịch màng tim do chấn thương (một tình trạng có thể nguy cấp) cũng là một khả năng thay thế.
Tôi thấy benchmark này có khoảng cách với cách các mô hình được dùng trong thực tế. Trong công việc thật, người ta không đơn giản để người dùng chat trực tiếp với base model, mà dùng cách kết hợp như RAG, guardrail, câu trả lời chuẩn bị sẵn, v.v. Tôi tự hỏi đánh giá này thực sự đại diện cho kịch bản thương mại nào.
Benchmark về code chẳng phải cũng vậy sao? Trên thực tế, với hỏi đáp chuyên môn thì chỉ cần base o3 cộng tìm kiếm web và prompt tốt là đã hiệu quả hơn. Thậm chí RAG/guardrail còn có thể làm giảm hiệu năng.
Chính việc chat với ChatGPT đã là ứng dụng thực tế của bài test này rồi. Đó là một trường hợp rất lớn và rất quan trọng.
Ngay cả những người không làm lâm sàng giờ đây cũng đang dùng ChatGPT hằng ngày để nhờ hỗ trợ với các vấn đề sức khỏe thật. Bộ đánh giá này là một tập dữ liệu tốt có thể giúp giảm các rủi ro trong thực tế.
Gần đây tôi tải phiếu kết quả xét nghiệm lên ChatGPT và nhờ tóm tắt, thì AI đã “ảo giác” ra một bệnh ung thư nghiêm trọng rồi còn bổ sung hàng loạt giải thích thêm. Trong khi báo cáo thật lại ghi là “không có ung thư”.
Tôi tò mò không biết đó là mô hình LLM nào (4o, o3, 3.5?). Các mô hình đời đầu hoạt động không tốt lắm, nhưng o3 thì khá dùng được để hỗ trợ các vấn đề sức khỏe (ví dụ vấn đề về tai).
Có khi nào AI thực ra không đọc được phiếu kết quả mà chỉ trả lời linh tinh như đang nhập vai không? Trước đây tôi từng đưa PDF hướng dẫn động cơ cho nó rồi hỏi, và nó trả lời nghe có vẻ hợp lý nhưng thực ra lại lôi ra một sơ đồ mạch hoàn toàn khác.
Đùa chứ có vẻ nó phản hồi kiểu “Xét nghiệm ung thư: phát hiện ung thư!”
Tôi muốn biết kết quả sau đó thực sự thế nào (đôi khi thứ chúng ta tưởng là dương tính giả lại hóa ra đúng là ung thư sau này; có những trường hợp ung thư chỉ bộc lộ tín hiệu sau thời gian dài).