- Trong 20 hệ thống AI Scribe được Ontario phê duyệt cho nhà cung cấp dịch vụ y tế, đã phát hiện tình trạng thiếu thông tin cốt lõi, chèn thông tin sai lệch và tạo ra nội dung không hề được nói ra
- Việc đánh giá mua sắm được thực hiện bằng cách đối chiếu bản ghi âm mô phỏng giữa bác sĩ và bệnh nhân với ghi chú khám bệnh do AI tạo ra bởi các chuyên gia y tế, và 9 hệ thống còn bịa thêm cả đề xuất kế hoạch điều trị
- 12 hệ thống đã chèn thông tin thuốc sai và 17 hệ thống bỏ sót các chi tiết cốt lõi về sức khỏe tâm thần của bệnh nhân có trong bản ghi âm
- OntarioMD khuyến nghị bác sĩ phải rà soát thủ công các ghi chú do AI tạo ra, nhưng trong các hệ thống đã được phê duyệt không có hệ thống nào có tính năng bắt buộc xác nhận độ chính xác
- Trong điểm đánh giá, sự hiện diện nội địa chiếm 30%, trong khi độ chính xác của ghi chú y khoa chỉ chiếm 4%, còn kiểm soát thiên lệch và đánh giá rủi ro/quyền riêng tư mỗi mục chỉ 2%
Báo cáo kiểm toán và phương thức đánh giá
- Báo cáo về tình hình sử dụng AI trong dịch vụ công do Office of the Auditor General of Ontario của Canada công bố có bao gồm phần đánh giá về chương trình AI Scribe của Ontario Ministry of Health
- Chương trình này xử lý việc mua sắm các công cụ AI ghi chú dành cho bác sĩ, y tá thực hành nâng cao và các chuyên gia y tế khác
- Trong quá trình mua sắm, họ sử dụng bản ghi âm mô phỏng giữa bác sĩ và bệnh nhân, và các chuyên gia y tế đánh giá độ chính xác bằng cách đối chiếu bản ghi âm gốc với ghi chú khám bệnh do AI tạo ra
Các lỗi được xác nhận
- Trong 20 hệ thống, có 9 hệ thống bịa ra những nội dung không hề được đề cập trong bản ghi âm và tạo thêm các đề xuất kế hoạch điều trị cho bệnh nhân
- Các báo cáo mẫu chứa thông tin sai lệch có thể nghiêm trọng, chẳng hạn như “không phát hiện khối u” hoặc “bệnh nhân cảm thấy lo âu”, dù những nội dung này không hề được thảo luận trong bản ghi âm
- Trong 20 hệ thống, 12 hệ thống đã chèn thông tin thuốc sai vào ghi chú bệnh nhân
- Trong 20 hệ thống, 17 hệ thống đã bỏ sót các chi tiết cốt lõi liên quan đến sức khỏe tâm thần của bệnh nhân có trong bản ghi âm
- 6 hệ thống đã bỏ qua toàn bộ hoặc một phần các vấn đề sức khỏe tâm thần của bệnh nhân, hoặc làm thiếu các chi tiết then chốt
Rà soát thủ công và biện pháp an toàn
- OntarioMD, đơn vị hỗ trợ bác sĩ áp dụng công nghệ mới và tham gia vào quy trình mua sắm AI Scribe, khuyến nghị các bác sĩ rà soát thủ công độ chính xác của các ghi chú do AI tạo ra
- Theo báo cáo kiểm toán, không hệ thống AI Scribe nào được phê duyệt có tính năng xác nhận bắt buộc rằng bác sĩ đã kiểm tra độ chính xác
Vấn đề về trọng số đánh giá
- Phần lớn hiệu năng thấp có liên quan đến vấn đề trọng số đánh giá
- 30% điểm đánh giá nền tảng được phân cho việc có hiện diện nội địa tại Ontario, còn độ chính xác của ghi chú y khoa chỉ chiếm 4% tổng điểm
- Kiểm soát thiên lệch chiếm 2% tổng điểm đánh giá, đánh giá mối đe dọa/rủi ro/quyền riêng tư chiếm 2%, và tuân thủ SOC 2 Type 2 chiếm 4%
- Các trọng số này có thể dẫn tới việc lựa chọn những nhà cung cấp có thể tạo ra hồ sơ y tế không chính xác hoặc thiên lệch, hoặc không có đủ biện pháp để bảo vệ thông tin sức khỏe cá nhân nhạy cảm
Phản ứng của Bộ Y tế Ontario
- The Register đã hỏi Ontario Health Ministry về quan điểm đối với báo cáo và liệu cơ quan này có kế hoạch làm theo các khuyến nghị của chương trình AI Scribe hay không, nhưng chưa nhận được phản hồi ngay lập tức
- Một phát ngôn viên của bộ nói với CBC vào thứ Tư rằng hơn 5.000 bác sĩ tại Ontario đang tham gia chương trình AI Scribe, và chưa ghi nhận báo cáo nào về thiệt hại cho bệnh nhân liên quan đến công nghệ này
1 bình luận
Ý kiến trên Hacker News
Hiện tại tôi nhìn về tương lai của công nghệ AI nói chung đã chuyển từ bi quan sang lạc quan, nhưng điều vẫn khiến tôi rất vướng bận là các lỗi sai sự thật cơ bản vẫn tiếp diễn ngay cả khi mô hình đã tiến bộ rất nhiều
Dùng Claude Opus để tạo công thức nấu ăn theo sở thích và hương vị thì có lúc như phép màu, nhưng đến khi nó sai cả phép đổi đơn vị cơ bản như thìa canh với thìa cà phê thì hứng thú tụt hẳn
Nó giống cảm giác một nhân vật trong phim hành xử gần như bình thường nhưng có gì đó lạ lạ rồi hóa ra là zombie; trường hợp trình ghi chú này cũng vậy, hoạt động gần như ổn nhưng lại thất bại ở những chi tiết quan trọng
Nhìn những thất bại như vậy, tôi ngày càng nghi ngờ rằng AI thế hệ hiện tại, dù có thể làm được nhiều việc tuyệt vời nếu được quản lý tốt, liệu có thực sự đang đi đúng hướng tới trí tuệ thật sự hay không
Có vẻ ngành AI cứ tiếp tục lảng tránh chuyện năng lực và độ tin cậy là hai thuộc tính khác nhau về bản chất. Người ta thường dùng “chính xác” và “đáng tin cậy” như thể đồng nghĩa, nhưng một mô hình có vượt benchmark tốt đến đâu thì trong môi trường vận hành thực tế vẫn có thể là rủi ro
Kết quả mới nhất của METR cũng được nhắc nhiều vì cho thấy năng lực tăng lên, nhưng ít ai nói rằng phép đo đó dựa trên mức tỷ lệ thành công 50%. Chỉ số phụ ở mức 80% thành công cho ra khoảng thời gian tác vụ ngắn hơn rất nhiều: https://metr.org/
Tôi triển khai hệ thống AI cho doanh nghiệp, và chưa từng thấy công ty nào chấp nhận độ tin cậy 50%, chứ đừng nói 80%
Khi nhìn LLM về cơ bản có thể tự thiết kế prompt và ngữ cảnh cho chính nó, tôi không nghĩ nó sẽ mãi mãi cần con người dẫn dắt
Với các tác vụ đơn giản, dựa trên sự kiện cụ thể và có phương pháp rõ ràng, LLM không phải công cụ phù hợp; nếu không nhận ra các tác vụ đó rồi chuyển sang công cụ hoạt động chắc chắn hơn thì đó là thất bại của phần harness
Khi cần, phải dùng “kỹ năng”; tức là có những việc nên chuyển sang công cụ hoặc “bộ não” chuyên biệt
AGI đầu tiên nhiều khả năng sẽ không phải một bộ não đơn lẻ mà là một hệ thống tổng hợp gồm nhiều LLM, harness, kỹ năng và các hệ thống con chuyên biệt theo miền và tác vụ đan xen với nhau
Thìa canh kiểu Úc là 4 thìa cà phê/20mL còn kiểu Mỹ là 3 thìa cà phê/15mL, nên lỗi này phần nào có thể giải thích bằng độ phức tạp của thế giới thực
Dĩ nhiên nếu nó bảo là 3.14 thìa cà phê hay 2 thìa cà phê thì lại là chuyện khác
Giờ chuyện đó gần như đã được giải quyết, và ngày nay chúng còn tạo được cả video rất khó phân biệt với thật
Vì vậy tôi tin những lỗi tinh vi kiểu này cũng sẽ tiếp tục giảm đi và cuối cùng gần như khó phát hiện trong hầu hết mọi tác vụ
Tôi có lấy được cảm hứng, nhưng nó cũng hiểu sai cả những điều rất cơ bản. Có thể là do cách tôi dùng chưa tốt nên tôi không dám chắc
Ở chỗ làm tôi dùng một trình ghi chú LLM cho các cuộc họp, và gần đây CIO đã cực kỳ tức giận, nói nhà cung cấp đã hứa rồi không thực hiện nên tôi phải vào xử lý
CIO không có mặt trong cuộc họp mà cái “lời hứa” đó được cho là đã đưa ra, còn tôi thì có; thực tế là chẳng có gì được hứa cả, và cuộc thảo luận tinh tế hơn nhiều so với bản tóm tắt chi tiết của LLM
Tôi cũng thấy nó trật hướng khi thảo luận không diễn ra theo tuyến tính. Ví dụ khi trao đổi qua lại với đội SOC về các cảnh báo/sự cố gần đây, nó nắm được ý chung nhưng nếu dựa vào độ chính xác thì sai rất nặng
Nó có thể phù hợp với kiểu ghi nhận ban đầu do điều dưỡng thực hiện ở bệnh viện như triệu chứng chính, cân nặng, chiều cao, tóm tắt thay đổi gần đây, nhưng với phần hỏi đáp chi tiết và mang tính kỹ thuật với bác sĩ thì tôi sẽ không tin
Xét về tuân thủ quy định nữa, tôi có cảm giác bệnh viện có lẽ sẽ muốn chỉ dùng bản ghi âm lời nói thay vì viết lại hồ sơ, nhưng tôi không chắc
Tối đó mẹ gọi lại, nói chuyện một chút rồi dè dặt hỏi: “Vậy... con có chuyện gì rất cần nói với mẹ à?” và tôi hoàn toàn ngơ ngác
Hóa ra bản tóm tắt LLM trong thông báo cuộc gọi đã biến một tin nhắn thoại mà 75% là những câu đệm mang tính xã giao, duy trì quan hệ, thành một câu văn kiểu công việc cứng nhắc và quá trang trọng, tạo cảm giác có điềm chẳng lành
Nó gán ý nghĩa quá lớn cho từng cụm như “muốn nói chuyện”, “hỏi thời gian thuận tiện”, khiến cả tin nhắn trông như một lời nhắn dài dòng về một việc quan trọng nhưng mơ hồ và gấp gáp
Kết quả là mẹ tôi hơi lo, còn tôi thì bực vì một lời hỏi thăm cuối cùng lại ra như vậy. Có vẻ giờ người ta phải nhét tóm tắt LLM nửa sống nửa chín vào mọi thứ
Luôn kiểm tra ngay bản ghi tóm tắt, và nếu có vấn đề thì hãy liên hệ bác sĩ càng sớm càng tốt
Thường thì bác sĩ có thể tự sửa được, và tốt nhất là làm khi mọi người vẫn còn nhớ chuyện đó
Đặc biệt nếu bản ghi dài sẽ còn được tham chiếu liên tục, con người có thể đánh dấu thủ công các đoạn tóm tắt đặt song song ở nơi họ thấy cần
Theo kinh nghiệm của tôi, những tương tác kiểu này thường không có quá nhiều nhiễu để có thể lọc qua loa, và chi tiết thì khá quan trọng
Ở phía “quá tốt”, vấn đề là trong nhiều môi trường thương mại, việc ghi âm liên tục bị cấm. Một số chi tiết cụ thể rất dễ trở thành hồ sơ phải cung cấp khi discovery, từ đó thành rủi ro kinh doanh
Biên bản họp hay bản tóm tắt có thể bỏ các thảo luận nhạy cảm hoặc chỉ trình bày sự đồng thuận mà không nêu chi tiết, và còn tạo ra khả năng phòng thủ diễn giải với “sự mơ hồ chiến lược”
Ở phía “chưa đủ tốt”, vấn đề là nhận dạng giọng nói vẫn có tính xác suất. Đầu ra đánh giá thực tế có thể chứa dữ liệu về các từ/cụm từ thay thế cũng nhiều như các từ được chọn, nên vẫn có dư địa để biểu đạt những từ chưa từng được nói hoặc tạo ra ấn tượng khác
Việc mọi người xem bản ghi nhận dạng giọng nói như hồ sơ có thẩm quyền càng làm vấn đề này tệ hơn
Nếu chồng thêm suy luận sinh sinh như tóm tắt lên trên, cả hai vấn đề đều lớn hơn. Từ góc nhìn tư vấn pháp lý, người ta có thể dễ chấp nhận bản tóm tắt hơn vì nó chứa ít từ khóa dễ tra cứu hơn và làm mờ trách nhiệm cùng tính cụ thể
Tôi mới gặp chuyện này gần đây. Tôi được chẩn đoán runner’s knee, nhưng bản tóm tắt AI lại ghi là bị loãng xương, đau hông và khó đi lại, dù những điều đó hoàn toàn không hề được nói tới hay ngụ ý
Luôn phải kiểm tra bản ghi chép. Đặc biệt các bộ chuyển lời nói bằng LLM khá hay tự thêm những triệu chứng phổ biến vốn không có thật, hoặc khẳng định một chẩn đoán phổ biến nào đó đúng ở vài chi tiết nhưng sai ở phần còn lại
Hồ sơ sai có thể ảnh hưởng mạnh tới các lần điều trị sau và cả chi phí, nên bắt buộc phải sửa
Ngoài một vài trường hợp đơn giản và phổ biến, khoảng 50% các bản tóm tắt “AI” tôi nhận được đều sai ở đâu đó. Thường là ghi thêm triệu chứng không có, còn đôi khi là bịa đặt nghiêm trọng hơn như lần này
LLM không phải phần mềm speech-to-text thông thường và không nên đối xử như vậy. Chúng thực sự có thể chèn cả những câu chưa từng tồn tại, và trong hồ sơ y tế thì điều đó tuyệt đối không chấp nhận được
Một người khác vắng mặt trong cuộc họp đọc bản tóm tắt đó về sau, rồi nổ ra tranh cãi lớn vì chủ đề ấy nhạy cảm với người đó do một cuộc tranh luận đang diễn ra trong công ty
Tất cả người tham dự đều xác nhận đó là lỗi, nhưng thời điểm lại trùng hợp ngẫu nhiên nên người đó rất khó chấp nhận. Bởi bản tóm tắt LLM trình bày nội dung theo cách như thể xác nhận những lo ngại mà trước đó một số người tham dự từng xem nhẹ
Cuối cùng vụ việc lớn đến mức ban quản lý phải lập chính sách không được tin đầu ra sinh sinh nếu không có xác minh độc lập, nên ít nhất cũng rút ra được bài học
Nhưng con người thì chính xác đến mức nào? Tôi đã xin toàn bộ bản in hồ sơ y tế của 5 năm qua, và nó dày như một quyển sách
Tôi không nghĩ con người có thể đọc hết rồi làm điều gì có ý nghĩa với tất cả số đó
Nếu để công cụ AI rà qua thì đúng là nó có thể sai hoặc nhảy tới kết luận không có căn cứ, nhưng việc nhanh chóng kiểm tra, phản bác những chỗ kỳ lạ rồi tiến tới câu trả lời đúng có thể vẫn nhanh hơn bất kỳ buổi làm việc nào với điều dưỡng hay bác sĩ
Thay vì chỉ chỉ ra chỗ chưa hoàn hảo, có lẽ nên tập trung vào cách dùng các công cụ này và cách phản bác những phần lạ hoặc sai để làm được nhiều việc hơn
Trình ghi chú AI tôi dùng ở chỗ làm cũng ghi âm cuộc họp, và đính kèm liên kết dấu thời gian tới đúng vị trí trong bản ghi cho từng ghi chú để có thể kiểm tra trực tiếp
Trong môi trường HIPAA thì giải pháp này có thể phức tạp hơn, nhưng với lĩnh vực quan trọng như y tế thì kiểu làm này là bắt buộc
Đây là yếu tố cốt lõi cho niềm tin, độ tin cậy, tuân thủ và nhiều thứ khác
Nếu một hệ thống phần mềm chứa các đầu ra LLM như vậy mà lại không cho thấy nguồn gốc của đầu ra để con người có thể đánh giá và xác minh, thì cùng lắm đó cũng là trải nghiệm người dùng tệ, còn tệ nhất thì là nguy hiểm
Nếu muốn chính xác thì cuối cùng vẫn phải nghe hết
Hoặc ai đó phải nghe toàn bộ bản ghi cuộc họp và kiểm tra mọi ghi chú, rất tốn thời gian và nhân lực; hoặc người tham dự phải kiểm tra ghi chú bằng trí nhớ của mình, dễ dính lỗi; hoặc người tham dự phải đối chiếu với ghi chú riêng của họ, làm mất ý nghĩa của trình ghi chú AI
Thực tế thì trong bất kỳ bối cảnh nào mà độ chính xác quan trọng, việc dùng AI dưới bất kỳ hình thức nào cũng không thể chấp nhận được, nhưng rất khó khiến người ta thừa nhận điều đó
Là người Canada, tôi có hy vọng vào khả năng AI giúp giải phóng thời gian cho bác sĩ và giảm gánh nặng cho hệ thống y tế, nhưng chuyện này đáng sợ
Chúng ta vẫn chưa tới mức đó. Có lẽ sắp tới sẽ cần đào tạo AI cho bác sĩ
Một số khu condo thậm chí đã có iPad thuộc sở hữu cơ sở y tế để khám bác sĩ online, giúp lách bớt sự phiền toái của quy trình đặt lịch với bác sĩ gia đình
Tôi nghĩ hướng đổi mới là đúng, nhưng cần thời gian. Đôi lúc tôi có cảm giác AI đã bị tung ra quá sớm
Lấy ví dụ về việc giải phóng thời gian cho bác sĩ: mỗi lần bệnh nhân đến khám thường rất rời rạc, bệnh nhân nói nhiều vấn đề cùng lúc, còn bác sĩ thì chịu áp lực thời gian và nghĩa vụ giải thích theo quy định về những gì ảnh hưởng tới điều trị
Dù có bản ghi chép hoàn hảo thì cấu trúc đó vẫn khiến tất cả cùng thiệt, còn LLM thì không thể hoàn hảo; nó chỉ là tự động hoàn thành mà thôi
Tôi hình dung bệnh nhân có thể tương tác với một AI tiếp nhận để nó lắng nghe hàng giờ nói lan man hoặc cơn hoảng loạn, rồi cung cấp cho bác sĩ một bản tóm tắt nhu cầu đã được người giám hộ xác nhận cùng các thông tin sàng lọc liên quan để bác sĩ xem
Đến lúc đó, những thông tin hữu ích như khả năng tiếp cận thuốc hoặc chính sách bảo hiểm cũng có thể được đưa ra sau khi bác sĩ xác nhận, còn bệnh nhân thì có thể hệ thống hóa và bổ sung sự hiểu biết của mình mà không bị áp lực thời gian
Đây là hướng nâng chất lượng đối thoại để bác sĩ tập trung hơn vào bệnh nhân, đồng thời nhu cầu trò chuyện của bệnh nhân không lấn át việc điều trị. Trong y tế có rất nhiều biểu mẫu và checklist, và tôi nghĩ tự động hoàn thành có thể giúp hiệu quả hơn trong cách thực hiện chúng
Tôi ở Toronto, và bác sĩ của tôi lúc nào cũng hỏi có được dùng trình ghi chú AI không, còn tôi thì đồng ý
Sau khi khám xong, bác sĩ sẽ lướt lại và chỉnh các ghi chú, đồng thời thường phàn nàn rằng phải nói với máy tính còn nhiều hơn nói với tôi
May là bác sĩ này tốt nên vẫn làm bước kiểm tra sau cùng đó, nhưng nó tạo cảm giác như thứ này đang bị ép nhồi vào hệ thống dù bác sĩ không hề muốn
Dạo này bất kỳ ai tham gia họp cũng nên nói to thế này: “Lưu ý: phát biểu được AI diễn giải trong cuộc họp này có thể không chính xác”
Tôi làm vậy trong mọi cuộc họp
Bản báo cáo được liên kết trông gần như vô dụng. Nó không nói gì về tỷ lệ lỗi hay cỡ mẫu, nên không biết chuyện 9 trong 20 hệ thống “thao túng thông tin và đưa vào kế hoạch chăm sóc bệnh nhân” xảy ra mười trên mười lần hay một trên một nghìn lần
Ngay cả nếu giả sử tỷ lệ lỗi hệ thống là cao, tôi vẫn thắc mắc vì sao chúng được triển khai
Việc kiểm thử có vẻ rất dễ, nên nếu chúng tệ hại như vậy thì bác sĩ, bệnh viện và chính quyền dường như chẳng có lý do gì để bị lừa mua cả
Độ chính xác thực tế không phải trọng tâm của đánh giá, và có vẻ Ontario cũng chẳng quan tâm
Có vẻ họ đang nói cụ thể về chương trình AI Scribe do Ontario Ministry of Health khởi động dành cho bác sĩ, điều dưỡng hành nghề nâng cao và các chuyên gia y tế khác trong toàn ngành y tế, điều này khiến tôi tự hỏi bộ sẽ thúc đẩy loại phần mềm chất lượng ra sao
Có lẽ phần lớn chỉ là các yêu cầu kiểu SOC
Danh sách nhà cung cấp được phê duyệt có vẻ ở liên kết này: https://www.supplyontario.ca/vor/software/tender-20123-artif...