Xác minh lại bài báo "AI frontier đánh bại công cụ y tế chuyên biệt" — mức độ đồng thuận giữa giám khảo chỉ 0.10, giám khảo cũng chính là thí sinh
(flamehaven.space)Tóm tắt ngắn gọn
- Bài báo "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" đăng trên Nature Medicine ngày 12 tháng 6 năm 2026 công bố rằng các mô hình frontier đa dụng như GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 vượt trội hơn các công cụ AI y tế chuyên dụng như OpenEvidence và UpToDate AI
- OpenEvidence và UpToDate AI là các công cụ hỗ trợ quyết định lâm sàng, được bác sĩ dùng để tra cứu bằng chứng theo thời gian thực trong khi khám chữa bệnh, và đã là sản phẩm đang được dùng tại bệnh viện
- Ngay sau khi bài báo được công bố, nó lan truyền rộng rãi; sau đó xuất hiện nghi vấn xung đột lợi ích khi tác giả đang trực tiếp vận hành một AI y tế cạnh tranh và từng bị OpenEvidence từ chối yêu cầu truy cập API
- Tác giả bài viết đã tự mình tái kiểm chứng phương pháp luận và xác nhận có nhiều lỗi thống kê khiến bản thân bảng xếp hạng khó có thể được hậu thuẫn
Cấu trúc bài báo và kết luận bề mặt
- Đánh giá theo ba giai đoạn
- Đánh giá kiến thức y khoa bằng 500 câu MedQA
- Đánh giá mức độ căn chỉnh lâm sàng bằng 500 câu HealthBench
- Với 100 truy vấn lâm sàng thực tế (RCQ), 12 bác sĩ lâm sàng tại Mỹ thực hiện tổng cộng 1.800 lượt đánh giá
- Kết luận là các mô hình frontier dẫn trước công cụ lâm sàng chuyên biệt ở cả ba phép đánh giá, và quy mô mô hình cùng phương pháp căn chỉnh có thể là yếu tố quan trọng hơn tinh chỉnh đặc thù miền
Vấn đề về độ tin cậy của chấm điểm
- Krippendorff's alpha, chỉ số thể hiện mức độ đồng thuận giữa các giám khảo, ở RCQ chỉ đạt 0.10~0.20
- Chỉ số này có nghĩa là 0 tương đương mức trùng khớp ngẫu nhiên, còn 1 là đồng thuận hoàn hảo; để dùng cho xếp hạng thì thông thường cần từ 0.67 trở lên
- Hình quan trọng nhất của bài báo (Figure 2c), dùng để cho thấy mô hình nào vượt mô hình nào, lại được tạo từ trung bình của các điểm số thiếu đồng thuận như vậy
Cấu trúc mà ban giám khảo cũng chính là đối tượng được đánh giá
- Đánh giá HealthBench dùng cách để LLM chấm câu trả lời của LLM khác, nhưng ban giám khảo chỉ gồm đúng ba mô hình là GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 — cũng chính là các đối tượng được đánh giá
- Các công cụ chuyên dụng cho lâm sàng bị loại khỏi ban giám khảo
- HealthBench là benchmark do OpenAI tạo ra, và GPT-5.2 của chính OpenAI lại được đánh giá trên benchmark đó
- Self-preference bias, tức xu hướng tự chấm rộng tay cho chính mình hoặc các mô hình cùng họ, đã là hiện tượng được biết đến; cấu trúc này không có cơ chế để loại bỏ thiên lệch đó
Vấn đề giống như đã xem trước đề thi
- MedQA và HealthBench là các bộ dữ liệu đã được công khai trên internet từ lâu
- Vì các mô hình frontier được huấn luyện trên lượng văn bản internet khổng lồ, có khả năng chúng đã gặp các câu hỏi và đáp án này ngay trong quá trình huấn luyện
- Bài báo cũng thừa nhận khả năng đó, nhưng không tính toán cụ thể nó đã ảnh hưởng đến kết quả ở mức nào
Vấn đề xử lý thống kê
- Bài báo xử lý 1.704 quan sát, trong đó nhiều mô hình và nhiều giám khảo cùng chấm trên cùng một câu hỏi, như thể tất cả đều độc lập với nhau
- Các điểm số sinh ra từ cùng một câu hỏi thực ra có liên hệ với nhau do độ khó của chính câu hỏi đó; nếu bỏ qua điều này sẽ dẫn đến
pseudoreplication, khiến kết quả trông có vẻ chắc chắn về mặt thống kê hơn thực tế - Ngoài ra, kết quả Fisher's exact test so sánh tỷ lệ từ chối của UpToDate là 19% với Google AI Overview là 6% được bài báo ghi là P=0.10
- Nhưng nếu tự tính trực tiếp từ dữ liệu gốc (19/100 so với 6/100), giá trị p ra khoảng 0.009. Theo ngưỡng ý nghĩa 0.05 mà bài báo công bố, đây là khác biệt có ý nghĩa thống kê; nếu không công bố cách hiệu chỉnh thì sự chênh lệch này cần được giải thích
Vấn đề là ngay cả điều kiện đánh giá cũng khác nhau
- Các mô hình frontier được đánh giá bằng API quyết định luận với temperature 0
- Các công cụ lâm sàng được đánh giá qua giao diện trình duyệt. Kết quả có thể khác nhau mỗi lần và prompt nội bộ cũng không được công khai
- Các phản hồi từ chối bị loại khỏi tổng hợp. UpToDate từ chối 19%, nên chỉ còn điểm ở những câu hỏi tương đối dễ hơn; trong khi các mô hình frontier chỉ từ chối 1~3%, nên điểm của chúng vẫn phản ánh toàn bộ phân bố câu hỏi
Dùng benchmark khác thì ra kết quả khác
- Một nghiên cứu medRxiv riêng biệt đã áp dụng cho OpenEvidence chính benchmark phân luồng cấp cứu từng cho thấy ChatGPT Health đánh giá thấp mức độ nghiêm trọng (
undertriage) ở 51.6% các tình huống khẩn cấp thực tế - Tỷ lệ đánh giá thấp của OpenEvidence là 12.5%, chỉ bằng một phần tư của ChatGPT Health
- Ngay cả với cùng một công cụ, kết quả cũng có thể thay đổi lớn tùy benchmark được dùng để đánh giá. Bản thân việc chọn benchmark là biến số quyết định kết luận
Vì sao bài báo này quan trọng ngay lúc này
- OpenEvidence đã là công cụ được nhiều bác sĩ tại Mỹ sử dụng hằng ngày trong quá trình khám chữa bệnh. So sánh này không chỉ là câu hỏi học thuật mà là câu hỏi hôm nay bệnh viện sẽ quyết định triển khai công cụ nào
- Năm 2026 là thời điểm bệnh viện và công ty bảo hiểm bắt đầu thực sự ký hợp đồng mua sắm AI y tế. Một bài benchmark duy nhất có thể lập tức được dùng làm căn cứ cho quyết định ký hợp đồng và triển khai
- Bài báo đăng trên Nature Medicine có uy tín ngay khi công bố và lan truyền rất nhanh. Bài tái thẩm định chỉ ra lỗi cấu trúc xuất hiện vài ngày sau đó, nhưng các bác sĩ lâm sàng thì ngay trong ngày đã thay đổi nội dung đào tạo
- Một khi đã được phản ánh vào quyết định mua sắm hoặc hướng dẫn lâm sàng, thì ngay cả khi lỗi bị phát hiện, việc đảo ngược hợp đồng và thói quen thực hành cũng tốn thời gian và chi phí
- Benchmark AI y tế tiếp tục xuất hiện dồn dập, nhưng hạ tầng và nhân lực để tái kiểm chứng độc lập lại không theo kịp tốc độ đó. Đây không phải vấn đề của riêng một bài báo mà là vấn đề của một cấu trúc sẽ lặp lại
Kết luận
- Bài viết này không khẳng định hướng đi của bài báo là sai
- Tuy nhiên, việc ban giám khảo tự chấm, mức độ đồng thuận giữa giám khảo thấp, khả năng nhiễm dữ liệu huấn luyện và lỗi xử lý thống kê cùng chồng lên nhau. Các hợp đồng mua sắm và hướng dẫn lâm sàng không nên bị chi phối bởi một kết quả tích lũy quá nhiều khiếm khuyết như vậy
- Bài báo thể hiện sự chắc chắn trong phần kết luận, nhưng dữ liệu lại không nâng đỡ được mức độ chắc chắn đó. Vấn đề không nằm ở ý đồ của tác giả mà ở cấu trúc nơi sự chắc chắn được lưu thông trước cả khi có kiểm chứng
- Trong lúc AI y tế đang đi vào bệnh viện, thứ cần có trước không phải là thêm một bài benchmark nữa mà là một cơ chế kiểm toán độc lập để thẩm định chính các bài báo đó. Nếu tốc độ của tuyên bố vẫn vượt tốc độ kiểm chứng như hiện nay, điều tương tự sẽ lặp lại ở bài báo tiếp theo
Chưa có bình luận nào.