- Sau khi chụp MRI vì đau vai phải, tôi bắt đầu nghi ngờ chẩn đoán rách bán phần độ III và kế hoạch điều trị quá nhanh của bệnh viện, nên đã thử đọc lại hình ảnh bằng Opus 4.8
- Bệnh viện cho rằng có rách bán phần với bề rộng vượt quá 50% tại vùng “apical insertion” của gân cơ dưới vai, nhưng Opus 4.8 đánh giá gân vẫn nguyên vẹn, khiến kết luận khác biệt lớn
- GPT 5.5 Pro đặt dấu hỏi về cơ sở của liệu pháp sóng xung kích và tiêm Traumeel trong quá trình điều trị tại bệnh viện, làm tăng thêm động lực để tự xem lại chính chẩn đoán này
- Trong môi trường Claude Code, Opus 4.8 đã phân tích hàng trăm tệp DICOM MRI khoảng 266MB bằng cách cài gói và chạy mã, rồi tiếp tục thực hiện phân tích đối chiếu sau khi được cung cấp cả báo cáo của con người và cuộc trò chuyện với ChatGPT
- Kết quả đối chiếu cuối cùng nghiêng về “bệnh gân bám tận nhẹ, không có rách bán phần hay toàn phần rõ ràng”, nhưng sự không chắc chắn về việc nên tin chuyên gia y tế hay AI vẫn còn đó
Chẩn đoán và điều trị MRI diễn ra quá nhanh
- Tôi bị đau vai phải trong vài tuần, và dù triệu chứng có vẻ đang đỡ hơn, tôi vẫn hỏi ý kiến bác sĩ chỉnh hình
- Bác sĩ khuyên chụp MRI, và vì có thể chụp ngay tại phòng khám nên tôi tiến hành kiểm tra
- Kết quả MRI dẫn tới chẩn đoán có Grade III (>50%-width) partial-thickness tear ở vùng “apical insertion” của gân cơ dưới vai
- Chỉ vài phút sau khi có MRI, bệnh viện đã bắt đầu điều trị và còn lên kế hoạch lặp lại cùng liệu trình 3 lần
- Vì cảm thấy mọi thứ diễn ra quá nhanh, tôi đã yêu cầu một bản sao kết quả MRI cùng danh sách các điều trị đã thực hiện và được đề xuất khi rời phòng khám
Vấn đề về cơ sở điều trị mà GPT 5.5 Pro chỉ ra
- Khi tôi đưa kết quả MRI và danh sách điều trị cho GPT 5.5 Pro, hai điểm lập tức hiện ra
- Bệnh viện đã dùng liệu pháp sóng xung kích cho vai, nhưng các hướng dẫn lâm sàng gần đây nói rằng không nên dùng hoặc khuyến nghị liệu pháp này cho bệnh gân chóp xoay không có vôi hóa
- Trong lúc siêu âm, tôi được nói là không có vôi hóa
- Bệnh viện đã tiêm Traumeel, một thuốc vi lượng đồng căn được đăng ký tại Đức với trạng thái “không có chỉ định điều trị”
- Điều này càng làm giảm niềm tin của tôi vào chẩn đoán và điều trị của bệnh viện, và khiến tôi muốn tự phân tích chính MRI đó
Phân tích MRI bằng Opus 4.8 trong Claude Code
- Gói MRI là một DICOM export tiêu chuẩn gồm hàng trăm tệp không có phần mở rộng, với tổng dung lượng khoảng 266MB
- Việc phân tích được thực hiện bằng Opus 4.8 (xhigh) trong Claude Code
- Tôi chọn Claude Code vì có thể chạy mã và cài đặt gói
- Tôi yêu cầu cài sẵn các gói cần cho việc phân tích
- Tôi cho rằng ngay cả khi dùng cùng một mô hình, sự khác biệt giữa Claude Code và chat Claude.ai là rất lớn
- Vì tôi không có kiến thức về MRI, tôi thiết lập để Claude trước tiên lập một kế hoạch chi tiết rồi mới thực thi
- Bối cảnh y khoa ban đầu tôi cung cấp chỉ là “đau vai phải 2–3 tuần”, và theo tôi thì còn ít thông tin hơn những gì bác sĩ con người đã có
Sự khác biệt về việc có rách hay không ở lần phân tích đầu tiên
- Sau khoảng 1 giờ, Opus 4.8 trả về báo cáo
- Kết quả đọc của bệnh viện và Opus 4.8 gần như trái ngược nhau
- Bệnh viện thấy rách bán phần độ III ở vùng apical insertion của gân cơ dưới vai
- Opus 4.8 đánh giá gân đó là intact tendon
- Tôi từng nghĩ khác biệt có lẽ chỉ nằm ở mức độ rách thấp hơn, nhưng thực tế lại khác ngay từ việc có rách hay không
Đối chiếu lại giữa kết quả đọc của con người và AI
- Để điều hòa hai kết quả, tôi yêu cầu Opus 4.8 thực hiện lại một phân tích so sánh
- Lần này tôi không chỉ cung cấp báo cáo MRI của con người mà còn cả cuộc trò chuyện với ChatGPT 5.5 Pro
- Cuộc trò chuyện đó có gồm các động tác và tư thế để thử nhằm ước lượng chẩn đoán
- Opus tiếp cận bằng cách dùng nhiều sub-agent để có được một phân tích mới ít bị thiên lệch bởi ngữ cảnh trước đó hơn
- Sau thêm khoảng 1 giờ, một báo cáo mới được tạo ra
- Kết luận đối chiếu cho rằng bằng chứng nghiêng về phía Reader A, được tóm tắt với mức “moderate-to-high confidence”
- Bệnh gân bám tận nhẹ
- Bao gồm cả vùng apical insertion, không có rách bán phần hoặc rách toàn phần rõ ràng
- Họ nói một số điểm tranh cãi giữa hai báo cáo không thể giải quyết hoàn toàn, nhưng với mục này thì kết luận khá dứt khoát
- Bệnh gân bám tận nhẹ
Những lựa chọn còn lại sau ý kiến thứ hai từ AI
- Khi giao cho một chuyên gia mình tin tưởng, ta có cảm giác yên tâm, nhưng ý kiến thứ hai dựa trên AI có thể khiến cảm giác đó bị lung lay khó chịu
- Sau khi xem phân tích của AI, chẩn đoán và kế hoạch điều trị trước đó có vẻ vội vàng và can thiệp nhiều hơn mức mà dữ kiện thực sự cho thấy, nhưng bản thân AI cũng khó để tin hoàn toàn
- Những lựa chọn còn lại là tìm một bác sĩ khác, hoặc chờ xem vai có cải thiện nhờ phục hồi chức năng hiện tại hay không
- Tôi hy vọng vài thế hệ nữa, việc nhờ AI xem lại MRI sẽ đáng tin như việc chỉnh sửa email
- Tôi không nêu tên phòng khám hay bác sĩ, và trải nghiệm này không phải lời khuyên y khoa mà là một trường hợp tò mò kỹ thuật về việc thử lấy ý kiến thứ hai bằng AI
1 bình luận
Các ý kiến trên Hacker News
Là bác sĩ chẩn đoán hình ảnh, nhưng nếu không xem toàn bộ bộ dữ liệu MRI 3D thì rất khó đánh giá. Siêu âm không phải là phương pháp tốt để đánh giá tình trạng vôi hóa; nó có thể phát hiện các vôi hóa lớn nhưng rất dễ bỏ sót các vôi hóa nhỏ
Chụp X-quang thường sẽ hữu ích hơn, và trên MRI cũng có thể đã nhìn thấy. Dù sao thì khi không có vôi hóa, liệu pháp sóng xung kích không có hại, chỉ là không giúp ích mà thôi
Trong báo cáo chẩn đoán hình ảnh, khi viết “không có”, luôn ngầm kèm theo điều kiện “không có trong phạm vi phương thức chụp đó và vùng hình ảnh thu được”. Vì vậy, việc báo cáo siêu âm nói không có vôi hóa, còn báo cáo X-quang thường nói có vôi hóa, không nhất thiết là mâu thuẫn
Với bệnh nhân hoặc người không quen thuật ngữ y khoa, điều này hiển nhiên gây bối rối, nhưng nếu viết hết các điều kiện đó vào báo cáo thì tài liệu sẽ còn nhiều cách diễn đạt có điều kiện hơn hiện nay và càng khó chịu khi đọc
Tôi nhớ đến giai thoại có người hỏi Babbage rằng “nếu đưa một câu hỏi sai vào máy tính toán thì nó có cho ra câu trả lời đúng không”. Ông đại ý đáp rằng “tôi hoàn toàn không thể hiểu nổi logic của một đầu óc có thể nghĩ ra câu hỏi như vậy”
Nếu là AI thì ít nhất cũng nên chỉ ra rằng canxi được thấy rõ hơn trên X-quang/CT so với siêu âm
Dành cho những ai quan tâm, chúng tôi đang cung cấp dịch vụ ý kiến thứ hai do bác sĩ chẩn đoán hình ảnh con người có chứng nhận thực hiện: https://expert.med
Trọng tâm thật sự là đây. Tôi biết không thể tin AI, nhưng đồng thời việc yêu cầu AI giải thích thêm hoặc phản biện lại nó dễ hơn rất nhiều. Không phải đặt lịch theo giờ và cũng không tốn chi phí theo giờ, đó là điểm rất lớn. Nhưng nhiều thông tin hơn không nhất thiết có ích
Tôi từng mang chiếc Civic 11 năm tuổi chạy 150.000 dặm của mình đến nhiều gara để chơi trò “ý kiến thứ hai”. Tôi định so sánh khuyến nghị của từng nơi để quyết định nên làm gì
Kết quả là 3 khuyến nghị hoàn toàn không liên quan đến nhau, trong đó có một điều tôi biết chắc là sai. Tôi cảm thấy còn tệ hơn trước khi bắt đầu
Lời giải cho thông tin bất định không phải là nhiều thông tin hơn mà AI có thể cung cấp, mà là thông tin tốt hơn; hiện tại AI chưa cung cấp được điều đó
Nhìn số lượng câu trả lời khác nhau và mâu thuẫn nhau xuất hiện thì khá lộ rõ vấn đề. Phần lớn đều được trình bày rất tự tin
Lần gần nhất tôi đưa câu hỏi y tế vào Claude, tôi còn không nhận được câu trả lời nhất quán giữa các phiên
Điều đáng sợ hơn là tôi có thể dễ dàng dẫn dắt từng LLM đến câu trả lời mà tôi đã nghĩ sẵn. Khi tôi bắt đầu hỏi về các lựa chọn do LLM khác đưa ra, mỗi phiên lại trôi theo hướng giải thích đó
Bí ẩn thì tệ hơn. Mỗi khi thêm một mảnh dữ liệu, mục tiêu lại xa hơn. Mọi thứ ngày càng rối rắm hơn
Đây là sự phân biệt được Malcolm Gladwell phổ biến
Tôi biết xin ý kiến thợ sửa xe thì tốn thời gian. Nhưng AI thì không
Vài năm trước, trước cơn sốt AI, tôi từng bị chẩn đoán nhầm là lao. Tôi bị ho mạn tính, và một bác sĩ chẩn đoán hình ảnh thuê ngoài của một phòng khám đã phát hiện dấu hiệu lao. Theo luật, kết quả đó được gửi đến bệnh viện lao của thành phố, và các bác sĩ ở đó chấp nhận nguyên xi kết luận của bác sĩ chẩn đoán hình ảnh, yêu cầu tôi ở lại bệnh viện với chế độ nghiêm ngặt như nhà tù trong ít nhất 8 tháng
Tôi cũng không có cách nào từ chối. Tôi bị xem như một dạng nguy cơ sinh học và về mặt pháp lý phải tuân theo
Trước khi nhập viện, tôi vội tìm một bác sĩ chẩn đoán hình ảnh khác, và ông ấy chẩn đoán là viêm phổi. Tôi gửi báo cáo đó cho bác sĩ điều trị ở bệnh viện lao, và sau khi xem xét họ kết luận rằng kết quả đọc phim ban đầu là sai. Hóa ra cấu trúc ở đó là các bác sĩ hoàn toàn không biết đọc hình ảnh, mà chỉ tin những gì bác sĩ chẩn đoán hình ảnh nói
Điều buồn cười là họ đã đưa tôi vào sổ đăng ký lao chính thức và không muốn thừa nhận sai lầm. Thay vào đó, họ cấp cho tôi một giấy tờ khác nói rằng “bệnh lao đã được chữa khỏi trong 7 ngày tại bệnh viện đó”. Có lẽ tôi là người duy nhất ở quốc gia ấy đánh bại bệnh lao trong một tuần
Nếu khó tin bác sĩ chẩn đoán hình ảnh hay bác sĩ, khi chi phí cho phép thì nên tìm một bác sĩ khác. Bạn có thể so sánh các kết luận xem có trùng khớp không. Nếu hai bác sĩ hoặc bác sĩ chẩn đoán hình ảnh không liên quan với nhau nói cùng một điều, khả năng khá cao là nó gần với sự thật
Tuy nhiên tôi cũng không chắc nên tin ai hơn giữa AI và con người. AI thì ảo giác, nhưng bản thân tôi cũng từng bị con người chẩn đoán sai nhiều lần
Tôi nghĩ nên có một nơi tập trung để các chuyên gia hàng đầu xem hình ảnh, thay vì để từng bác sĩ tự xem một mình
Tôi thấy thú vị khi mọi người ở đây kỳ vọng cơ thể người như một hàm tất định, rằng đầu vào X thì phải cho ra đầu ra Y. Kỳ vọng đó cũng kéo sang chẩn đoán, khiến họ nghĩ rằng nhiều bác sĩ chuyên khoa khác nhau sẽ đưa ra cùng một chẩn đoán cho cùng một vấn đề
Xét đến độ phức tạp của cơ thể người, chẩn đoán là kết quả tổng hợp của kinh nghiệm tích lũy trong suốt sự nghiệp, kiến thức, phương pháp chẩn đoán và thiết bị. Một chức danh như “bác sĩ” là chứng nhận của nhà nước rằng “người này đã vượt qua kỳ thi nên an toàn để hành nghề”, nhưng không có nghĩa là tất cả đều khám chữa bệnh giống hệt nhau
Có bác sĩ chuyên khoa cập nhật kiến thức hằng tháng, có người hằng năm, có người thì hoàn toàn không. Có quá nhiều biến số như khu vực, chính trị, thậm chí cả thời tiết
Vì vậy việc chọn bác sĩ chuyên khoa thực sự rất quan trọng. Bạn cần tìm hiểu danh tiếng của người đó về cách hành nghề và lĩnh vực chuyên môn. Bạn chỉ có thể tối đa hóa xác suất nhận được chẩn đoán đúng, chứ không nên kỳ vọng rằng ai đó đúng chỉ vì họ được gọi là bác sĩ
Tôi đã thấy nhiều bạn bè và người thân gần như lập tức được khuyên phẫu thuật vì đau vai. Với những người làm nghề phẫu thuật, chuyện phẫu thuật trở thành phương án mặc định là khá phổ biến
Có thời điểm vai tôi cũng đau khá nhiều và cơn đau không giảm trong vài tháng. Tôi không muốn phẫu thuật nên thử massage và châm cứu, nhưng hoàn toàn không giúp gì
Thứ giải quyết được là tôi thật sự tập trung vào kéo xà. Ban đầu tôi không làm nổi cái nào, nên bắt đầu từ treo người và scapular pull-up, rồi dần chuyển sang kéo xà bình thường. Sau khi có thể làm được vài cái mỗi hiệp, tôi tập theo phương pháp “grease-the-groove”
Khi tôi làm được khoảng 17 cái mỗi hiệp thì ngừng lịch tập đó, và hiện giờ tôi chia ra trong ngày, tập 3 lần mỗi tuần, 6 hiệp mỗi lần 7–8 cái. Tôi cũng tập các bài tăng độ linh hoạt của vai https://www.youtube.com/watch?v=vP8YmmRMz6I
Nếu tôi lười và bỏ tập thì cảm giác khó chịu chắc chắn quay lại, nhưng khi tập tăng cường trở lại thì nó biến mất
Có vẻ nếu bệnh nhân đi tìm một giải pháp nhanh, họ sẽ được đề xuất kiểu giải pháp đó. Nếu tự tìm hiểu một chút rồi đi tìm giải pháp tốt nhất cho mình, thường thì họ sẽ nhận được điều đó
Khoảng 2 năm trước, tôi đã dùng “deep research” của ChatGPT để tìm hiểu về viêm xoang mạn tính mà mình đã vật lộn gần 3 năm. Sau khi gặp 3 bác sĩ đa khoa và 3 lần khám tai mũi họng, tôi đưa toàn bộ các quan sát của mình vào AI
Đặc biệt, bác sĩ tai mũi họng đã soi nội soi xoang của tôi và thấy bằng chứng phản ứng dị ứng, nhưng sau đó, sau khi làm xét nghiệm dị ứng, lại kết luận rằng không thể điều trị bằng thuốc dị ứng, mà không giải thích được lý do. Tôi hỏi vài lần nhưng ông ấy không trả lời
ChatGPT tìm ra một nghiên cứu của NIH nói rằng 20% người có phản ứng dị ứng chỉ khu trú ở một bộ phận cụ thể của cơ thể, và có thể không biểu hiện qua xét nghiệm lẩy da trên vai. Khi tôi hỏi ông ấy, ông ấy chỉ nói “dị ứng không hoạt động như vậy”. Thế là hết. Ông ấy thậm chí không nghĩ đến việc xem xét nghiên cứu đó
Ông ấy kê CPAP và điều trị bằng máy khí dung định kỳ. Ngoài lề, công ty CPAP nhắn tin cho tôi, nhưng tôi không thể biết có phải lừa đảo không; tôi hỏi họ là ai nhưng không nhận được câu trả lời
Vì vậy tôi quyết định cứ thử uống thuốc dị ứng thế hệ 2 hằng ngày
Viêm xoang biến mất. Trước đó ít nhất mỗi quý tôi lại bị một đợt viêm xoang nặng. Có thể đúng như lời bác sĩ đó, dị ứng không hoạt động theo cách ấy, nhưng thuốc dị ứng đã giải quyết hoàn toàn vấn đề của tôi
Tôi biết ơn vì điều đó. Bởi vài năm trước tôi đã thử dùng CPAP nghiêm túc trong một tháng, nhưng hoàn toàn không quen được và giấc ngủ thì tệ hại
Tiếp theo là trách nhiệm và thời gian. Đặc biệt trong một lĩnh vực có stakes cao như y tế, nếu bạn yêu cầu ai đó xem xét lại một quyết định, chẳng ai có thời gian hay động lực để mở cái đống rắc rối đó ra
Nếu thật sự muốn thành công, bạn phải đề xuất xét nghiệm mà nghiên cứu nêu ra trước khi vòng chẩn đoán khép lại, trước khi các bác sĩ đã đóng khung ca bệnh của bạn. Khi đó khả năng họ nhìn thấy thứ cần nhìn là cao nhất
Tốt hơn là cứ thành thật nói rằng bạn mang đến một giả thuyết nào đó. Các bác sĩ nhận ra rất nhanh khi họ đang bị dẫn dắt, nhưng nhận ra muộn hơn nhiều khi bệnh nhân thực sự đúng. Trong một hệ thống nơi những người quá tải đang cố làm hết sức, bạn phải vận động theo cách đó
Với tư cách bác sĩ chẩn đoán hình ảnh, tôi thấy Claude và ChatGPT thực sự rất tệ trong việc đọc MRI, và tôi sẽ không tin chúng chút nào. Chúng có điểm mạnh khi nghiên cứu tài liệu dạng văn bản, nhưng vẫn chưa diễn giải hình ảnh X-quang đủ tốt
Hiện tại phần mềm MR Deep Resolve của Siemens tạo thêm tín hiệu (khoảng 50%), rồi tạo ra một trong hai pixel, và trong chuỗi 3D thì tạo ra một trong hai lát cắt. Nó giảm khoảng 59% thời gian của mỗi sequence, và thật sự rất, rất tốt
Tôi là kỹ thuật viên MR
Thật ra tôi tò mò ELO của ChatGPT 5.5 là bao nhiêu. Nhờ lượng nội dung nó đã hấp thụ, tôi sẽ không quá ngạc nhiên nếu chỉ với hiểu biết cơ bản về nguyên lý cờ vua mà nó đạt trên 2000
Tôi không hiểu phản ứng tiêu cực. Y tế hiện nay vận hành được là nhờ cả bác sĩ lẫn bệnh nhân đều phải động não. Gần như chưa từng có chuyện bác sĩ đưa ra chẩn đoán còn tôi chỉ tiếp tục một ngày của mình. Khi có những trường hợp như vậy thì thường là vì tôi đã chắc chắn vấn đề là gì và biết mình cần gì. Bác sĩ là rào cản ngăn tiếp cận điều trị
Dr. GPT là một công cụ brainstorm tốt. Nó tổng hợp thông tin theo cách khó làm nếu chỉ dựa vào tài liệu gốc. Tuy vậy, cũng phải buộc nó nói “điều này vô lý”
Tôi cho rằng luận điểm “bác sĩ không biết kiến thức mới nhất” có cơ sở yếu. Nghĩ đến mật độ token trong quá trình tiền huấn luyện và cách cấu thành dataset hậu huấn luyện, nó sẽ mất rất lâu để thích ứng với những thay đổi căn bản. Nếu chúng ta đã quên cách chữa bệnh scorbut, thì cần bao nhiêu bài báo để thích ứng với phát hiện mới?
Về hình ảnh thì tôi sẽ không tin AI. Nhưng có một lần, chỉ nhìn vào phần văn bản của báo cáo MRI, ChatGPT nói rằng báo cáo rất có khả năng sai nghiêm trọng và đề xuất một chẩn đoán khác. Nó khẳng định khá mạnh nên tôi đi tìm bác sĩ khác và làm xét nghiệm lại. Nói ngắn gọn thì ChatGPT đã đúng
Xin nhắc lại, đây chỉ là một trải nghiệm đơn lẻ của một người nên không có nhiều ý nghĩa
Tôi không hiểu vì sao các bác sĩ không thử prompt LLM trước khi nói điều sai. Vì sĩ diện à?
Tôi hiểu rằng chẩn đoán hình ảnh cần mạng nơ-ron tích chập chuyên biệt, nhưng với các vấn đề gần với nền tảng tri thức thì càng nên làm vậy
Có vẻ sẽ xuất hiện nhiều VLM chuyên biệt mang lại giá trị thực sự
Những món đồ chơi này hoàn toàn không đáng tin. Không có nghĩa là chúng vô dụng, nhưng không thể tin được