2 điểm bởi GN⁺ 10 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Sau khi chụp MRI vì đau vai phải, tôi bắt đầu nghi ngờ chẩn đoán rách bán phần độ III và kế hoạch điều trị quá nhanh của bệnh viện, nên đã thử đọc lại hình ảnh bằng Opus 4.8
  • Bệnh viện cho rằng có rách bán phần với bề rộng vượt quá 50% tại vùng “apical insertion” của gân cơ dưới vai, nhưng Opus 4.8 đánh giá gân vẫn nguyên vẹn, khiến kết luận khác biệt lớn
  • GPT 5.5 Pro đặt dấu hỏi về cơ sở của liệu pháp sóng xung kíchtiêm Traumeel trong quá trình điều trị tại bệnh viện, làm tăng thêm động lực để tự xem lại chính chẩn đoán này
  • Trong môi trường Claude Code, Opus 4.8 đã phân tích hàng trăm tệp DICOM MRI khoảng 266MB bằng cách cài gói và chạy mã, rồi tiếp tục thực hiện phân tích đối chiếu sau khi được cung cấp cả báo cáo của con người và cuộc trò chuyện với ChatGPT
  • Kết quả đối chiếu cuối cùng nghiêng về “bệnh gân bám tận nhẹ, không có rách bán phần hay toàn phần rõ ràng”, nhưng sự không chắc chắn về việc nên tin chuyên gia y tế hay AI vẫn còn đó

Chẩn đoán và điều trị MRI diễn ra quá nhanh

  • Tôi bị đau vai phải trong vài tuần, và dù triệu chứng có vẻ đang đỡ hơn, tôi vẫn hỏi ý kiến bác sĩ chỉnh hình
  • Bác sĩ khuyên chụp MRI, và vì có thể chụp ngay tại phòng khám nên tôi tiến hành kiểm tra
  • Kết quả MRI dẫn tới chẩn đoán có Grade III (>50%-width) partial-thickness tear ở vùng “apical insertion” của gân cơ dưới vai
  • Chỉ vài phút sau khi có MRI, bệnh viện đã bắt đầu điều trị và còn lên kế hoạch lặp lại cùng liệu trình 3 lần
  • Vì cảm thấy mọi thứ diễn ra quá nhanh, tôi đã yêu cầu một bản sao kết quả MRI cùng danh sách các điều trị đã thực hiện và được đề xuất khi rời phòng khám

Vấn đề về cơ sở điều trị mà GPT 5.5 Pro chỉ ra

  • Khi tôi đưa kết quả MRI và danh sách điều trị cho GPT 5.5 Pro, hai điểm lập tức hiện ra
    • Bệnh viện đã dùng liệu pháp sóng xung kích cho vai, nhưng các hướng dẫn lâm sàng gần đây nói rằng không nên dùng hoặc khuyến nghị liệu pháp này cho bệnh gân chóp xoay không có vôi hóa
    • Trong lúc siêu âm, tôi được nói là không có vôi hóa
    • Bệnh viện đã tiêm Traumeel, một thuốc vi lượng đồng căn được đăng ký tại Đức với trạng thái “không có chỉ định điều trị”
  • Điều này càng làm giảm niềm tin của tôi vào chẩn đoán và điều trị của bệnh viện, và khiến tôi muốn tự phân tích chính MRI đó

Phân tích MRI bằng Opus 4.8 trong Claude Code

  • Gói MRI là một DICOM export tiêu chuẩn gồm hàng trăm tệp không có phần mở rộng, với tổng dung lượng khoảng 266MB
  • Việc phân tích được thực hiện bằng Opus 4.8 (xhigh) trong Claude Code
    • Tôi chọn Claude Code vì có thể chạy mã và cài đặt gói
    • Tôi yêu cầu cài sẵn các gói cần cho việc phân tích
  • Tôi cho rằng ngay cả khi dùng cùng một mô hình, sự khác biệt giữa Claude Code và chat Claude.ai là rất lớn
  • Vì tôi không có kiến thức về MRI, tôi thiết lập để Claude trước tiên lập một kế hoạch chi tiết rồi mới thực thi
  • Bối cảnh y khoa ban đầu tôi cung cấp chỉ là “đau vai phải 2–3 tuần”, và theo tôi thì còn ít thông tin hơn những gì bác sĩ con người đã có

Sự khác biệt về việc có rách hay không ở lần phân tích đầu tiên

  • Sau khoảng 1 giờ, Opus 4.8 trả về báo cáo
  • Kết quả đọc của bệnh viện và Opus 4.8 gần như trái ngược nhau
    • Bệnh viện thấy rách bán phần độ III ở vùng apical insertion của gân cơ dưới vai
    • Opus 4.8 đánh giá gân đó là intact tendon
  • Tôi từng nghĩ khác biệt có lẽ chỉ nằm ở mức độ rách thấp hơn, nhưng thực tế lại khác ngay từ việc có rách hay không

Đối chiếu lại giữa kết quả đọc của con người và AI

  • Để điều hòa hai kết quả, tôi yêu cầu Opus 4.8 thực hiện lại một phân tích so sánh
  • Lần này tôi không chỉ cung cấp báo cáo MRI của con người mà còn cả cuộc trò chuyện với ChatGPT 5.5 Pro
    • Cuộc trò chuyện đó có gồm các động tác và tư thế để thử nhằm ước lượng chẩn đoán
  • Opus tiếp cận bằng cách dùng nhiều sub-agent để có được một phân tích mới ít bị thiên lệch bởi ngữ cảnh trước đó hơn
  • Sau thêm khoảng 1 giờ, một báo cáo mới được tạo ra
  • Kết luận đối chiếu cho rằng bằng chứng nghiêng về phía Reader A, được tóm tắt với mức “moderate-to-high confidence”
    • Bệnh gân bám tận nhẹ
      • Bao gồm cả vùng apical insertion, không có rách bán phần hoặc rách toàn phần rõ ràng
      • Họ nói một số điểm tranh cãi giữa hai báo cáo không thể giải quyết hoàn toàn, nhưng với mục này thì kết luận khá dứt khoát

Những lựa chọn còn lại sau ý kiến thứ hai từ AI

  • Khi giao cho một chuyên gia mình tin tưởng, ta có cảm giác yên tâm, nhưng ý kiến thứ hai dựa trên AI có thể khiến cảm giác đó bị lung lay khó chịu
  • Sau khi xem phân tích của AI, chẩn đoán và kế hoạch điều trị trước đó có vẻ vội vàng và can thiệp nhiều hơn mức mà dữ kiện thực sự cho thấy, nhưng bản thân AI cũng khó để tin hoàn toàn
  • Những lựa chọn còn lại là tìm một bác sĩ khác, hoặc chờ xem vai có cải thiện nhờ phục hồi chức năng hiện tại hay không
  • Tôi hy vọng vài thế hệ nữa, việc nhờ AI xem lại MRI sẽ đáng tin như việc chỉnh sửa email
  • Tôi không nêu tên phòng khám hay bác sĩ, và trải nghiệm này không phải lời khuyên y khoa mà là một trường hợp tò mò kỹ thuật về việc thử lấy ý kiến thứ hai bằng AI

1 bình luận

 
Các ý kiến trên Hacker News
  • Là bác sĩ chẩn đoán hình ảnh, nhưng nếu không xem toàn bộ bộ dữ liệu MRI 3D thì rất khó đánh giá. Siêu âm không phải là phương pháp tốt để đánh giá tình trạng vôi hóa; nó có thể phát hiện các vôi hóa lớn nhưng rất dễ bỏ sót các vôi hóa nhỏ
    Chụp X-quang thường sẽ hữu ích hơn, và trên MRI cũng có thể đã nhìn thấy. Dù sao thì khi không có vôi hóa, liệu pháp sóng xung kích không có hại, chỉ là không giúp ích mà thôi
    Trong báo cáo chẩn đoán hình ảnh, khi viết “không có”, luôn ngầm kèm theo điều kiện “không có trong phạm vi phương thức chụp đó và vùng hình ảnh thu được”. Vì vậy, việc báo cáo siêu âm nói không có vôi hóa, còn báo cáo X-quang thường nói có vôi hóa, không nhất thiết là mâu thuẫn
    Với bệnh nhân hoặc người không quen thuật ngữ y khoa, điều này hiển nhiên gây bối rối, nhưng nếu viết hết các điều kiện đó vào báo cáo thì tài liệu sẽ còn nhiều cách diễn đạt có điều kiện hơn hiện nay và càng khó chịu khi đọc

    • Cách nói này có vẻ quá nhẹ nhàng. Nếu không hiểu được điều đó thì chỉ khi giả định mọi thiết bị chẩn đoán đều có độ phân giải vô hạn và luôn đúng, người ta mới thấy khó hiểu
      Tôi nhớ đến giai thoại có người hỏi Babbage rằng “nếu đưa một câu hỏi sai vào máy tính toán thì nó có cho ra câu trả lời đúng không”. Ông đại ý đáp rằng “tôi hoàn toàn không thể hiểu nổi logic của một đầu óc có thể nghĩ ra câu hỏi như vậy”
    • Từ góc nhìn của kỹ thuật viên X-quang, tôi muốn nói “đúng vậy, thưa bác sĩ!”. Tôi từng thấy việc dùng AI có ích trong việc giúp bệnh nhân hiểu tình trạng của mình hoặc nắm được các chỉ số xét nghiệm máu cơ bản, nhưng nó thật sự tệ khi quá chiều theo người dùng và kéo họ xuống cái hố thỏ y khoa như bài gốc
      Nếu là AI thì ít nhất cũng nên chỉ ra rằng canxi được thấy rõ hơn trên X-quang/CT so với siêu âm
    • Tôi đồng ý. Tôi không phải bác sĩ chẩn đoán hình ảnh nhưng làm khá nhiều nghiên cứu về MRI. Chuyên gia và người thường rất có thể có tỷ lệ thành công khác nhau khi cố rút ra chẩn đoán đúng từ các mô hình tuyến đầu, và chỉ những khác biệt tinh tế trong prompt cũng có thể dẫn đến chẩn đoán khác https://www.nature.com/articles/s41591-026-04501-8
    • Đọc rồi tra các thuật ngữ ở đây, tôi thấy chúng quá giống triệu chứng ở vai phải của mình. Cảm giác như một hố thỏ khổng lồ vừa mở ra bên cạnh bàn làm việc
    • Tôi thắc mắc vì sao khoa chỉnh hình không dùng siêu âm chẩn đoán nhiều hơn. Ngày nào người ta cũng nhìn tim và các cơ quan của thai nhi, vậy tại sao lại không được với vai? Có vẻ rẻ và nhanh hơn nhiều
  • Dành cho những ai quan tâm, chúng tôi đang cung cấp dịch vụ ý kiến thứ hai do bác sĩ chẩn đoán hình ảnh con người có chứng nhận thực hiện: https://expert.med

    • Cần có phiên bản nha khoa của dịch vụ này
  • Trọng tâm thật sự là đây. Tôi biết không thể tin AI, nhưng đồng thời việc yêu cầu AI giải thích thêm hoặc phản biện lại nó dễ hơn rất nhiều. Không phải đặt lịch theo giờ và cũng không tốn chi phí theo giờ, đó là điểm rất lớn. Nhưng nhiều thông tin hơn không nhất thiết có ích
    Tôi từng mang chiếc Civic 11 năm tuổi chạy 150.000 dặm của mình đến nhiều gara để chơi trò “ý kiến thứ hai”. Tôi định so sánh khuyến nghị của từng nơi để quyết định nên làm gì
    Kết quả là 3 khuyến nghị hoàn toàn không liên quan đến nhau, trong đó có một điều tôi biết chắc là sai. Tôi cảm thấy còn tệ hơn trước khi bắt đầu
    Lời giải cho thông tin bất định không phải là nhiều thông tin hơn mà AI có thể cung cấp, mà là thông tin tốt hơn; hiện tại AI chưa cung cấp được điều đó

    • Tôi đăng ký nhiều LLM cùng lúc và dùng cả các mô hình chạy cục bộ. Khi hỏi những vấn đề ngoài chuyên môn của mình, tôi hỏi tất cả LLM mà tôi có thể truy cập, rồi tạo các phiên riêng để đặt cùng một câu hỏi theo nhiều cách
      Nhìn số lượng câu trả lời khác nhau và mâu thuẫn nhau xuất hiện thì khá lộ rõ vấn đề. Phần lớn đều được trình bày rất tự tin
      Lần gần nhất tôi đưa câu hỏi y tế vào Claude, tôi còn không nhận được câu trả lời nhất quán giữa các phiên
      Điều đáng sợ hơn là tôi có thể dễ dàng dẫn dắt từng LLM đến câu trả lời mà tôi đã nghĩ sẵn. Khi tôi bắt đầu hỏi về các lựa chọn do LLM khác đưa ra, mỗi phiên lại trôi theo hướng giải thích đó
    • Có sự khác biệt lớn giữa câu đốbí ẩn. Với câu đố, trạng thái mục tiêu đã được biết, và càng có nhiều mảnh ghép, tức dữ liệu, thì càng tiến gần đến mục tiêu. Ta cũng biết còn cách mục tiêu bao xa
      Bí ẩn thì tệ hơn. Mỗi khi thêm một mảnh dữ liệu, mục tiêu lại xa hơn. Mọi thứ ngày càng rối rắm hơn
      Đây là sự phân biệt được Malcolm Gladwell phổ biến
    • Tôi nghĩ AI hiện nay có thể cung cấp thông tin tốt hơn. Chỉ là nó không làm được điều đó một cách đáng tin cậy, và người không chuyên không thể phân biệt được khác biệt đó nên càng nguy hiểm hơn
    • Cái giọng dịu dàng của ChatGPT dỗ dành rằng chúng ta đúng đắn và thông minh biết bao… làm sao nó có thể ảo giác được chứ, nhất là nếu là 5.5 thì lại càng không
    • Về xe hơi mà chỉ lấy có 3 ý kiến thôi sao? Sao không lấy 50 ý kiến? Nếu gom nhiều thông tin hơn, có thể anh đã tìm được tín hiệu hữu ích hơn
      Tôi biết xin ý kiến thợ sửa xe thì tốn thời gian. Nhưng AI thì không
  • Vài năm trước, trước cơn sốt AI, tôi từng bị chẩn đoán nhầm là lao. Tôi bị ho mạn tính, và một bác sĩ chẩn đoán hình ảnh thuê ngoài của một phòng khám đã phát hiện dấu hiệu lao. Theo luật, kết quả đó được gửi đến bệnh viện lao của thành phố, và các bác sĩ ở đó chấp nhận nguyên xi kết luận của bác sĩ chẩn đoán hình ảnh, yêu cầu tôi ở lại bệnh viện với chế độ nghiêm ngặt như nhà tù trong ít nhất 8 tháng
    Tôi cũng không có cách nào từ chối. Tôi bị xem như một dạng nguy cơ sinh học và về mặt pháp lý phải tuân theo
    Trước khi nhập viện, tôi vội tìm một bác sĩ chẩn đoán hình ảnh khác, và ông ấy chẩn đoán là viêm phổi. Tôi gửi báo cáo đó cho bác sĩ điều trị ở bệnh viện lao, và sau khi xem xét họ kết luận rằng kết quả đọc phim ban đầu là sai. Hóa ra cấu trúc ở đó là các bác sĩ hoàn toàn không biết đọc hình ảnh, mà chỉ tin những gì bác sĩ chẩn đoán hình ảnh nói
    Điều buồn cười là họ đã đưa tôi vào sổ đăng ký lao chính thức và không muốn thừa nhận sai lầm. Thay vào đó, họ cấp cho tôi một giấy tờ khác nói rằng “bệnh lao đã được chữa khỏi trong 7 ngày tại bệnh viện đó”. Có lẽ tôi là người duy nhất ở quốc gia ấy đánh bại bệnh lao trong một tuần
    Nếu khó tin bác sĩ chẩn đoán hình ảnh hay bác sĩ, khi chi phí cho phép thì nên tìm một bác sĩ khác. Bạn có thể so sánh các kết luận xem có trùng khớp không. Nếu hai bác sĩ hoặc bác sĩ chẩn đoán hình ảnh không liên quan với nhau nói cùng một điều, khả năng khá cao là nó gần với sự thật
    Tuy nhiên tôi cũng không chắc nên tin ai hơn giữa AI và con người. AI thì ảo giác, nhưng bản thân tôi cũng từng bị con người chẩn đoán sai nhiều lần

    • Sao lại có thể như vậy? Không thể chẩn đoán lao chỉ bằng hình ảnh, và nếu là bệnh viện lao thì họ phải biết điều đó
    • Tôi cũng từng gặp chuyện tương tự. Con trai tôi bị viêm phổi, uống kháng sinh 10 ngày mà vẫn đau. Tôi mang phim X-quang đến cho ba bác sĩ xem, nhưng chỉ một người đưa ra chẩn đoán đúng là tràn dịch màng phổi
      Tôi nghĩ nên có một nơi tập trung để các chuyên gia hàng đầu xem hình ảnh, thay vì để từng bác sĩ tự xem một mình
  • Tôi thấy thú vị khi mọi người ở đây kỳ vọng cơ thể người như một hàm tất định, rằng đầu vào X thì phải cho ra đầu ra Y. Kỳ vọng đó cũng kéo sang chẩn đoán, khiến họ nghĩ rằng nhiều bác sĩ chuyên khoa khác nhau sẽ đưa ra cùng một chẩn đoán cho cùng một vấn đề
    Xét đến độ phức tạp của cơ thể người, chẩn đoán là kết quả tổng hợp của kinh nghiệm tích lũy trong suốt sự nghiệp, kiến thức, phương pháp chẩn đoán và thiết bị. Một chức danh như “bác sĩ” là chứng nhận của nhà nước rằng “người này đã vượt qua kỳ thi nên an toàn để hành nghề”, nhưng không có nghĩa là tất cả đều khám chữa bệnh giống hệt nhau
    Có bác sĩ chuyên khoa cập nhật kiến thức hằng tháng, có người hằng năm, có người thì hoàn toàn không. Có quá nhiều biến số như khu vực, chính trị, thậm chí cả thời tiết
    Vì vậy việc chọn bác sĩ chuyên khoa thực sự rất quan trọng. Bạn cần tìm hiểu danh tiếng của người đó về cách hành nghề và lĩnh vực chuyên môn. Bạn chỉ có thể tối đa hóa xác suất nhận được chẩn đoán đúng, chứ không nên kỳ vọng rằng ai đó đúng chỉ vì họ được gọi là bác sĩ

    • Nếu đây là một cộng đồng chủ yếu gồm những người làm công việc tạo ra các hàm như vậy, thì việc họ kỳ vọng cơ thể người cũng như một hàm tất định là điều có thể đoán trước
    • Tôi không hiểu rõ ý chính. Ý là y học vốn dĩ có sai sót, nên AI, đặc biệt là một tập hợp gồm nhiều AI chuyên môn, có khả năng đưa ra chẩn đoán tốt hơn sao?
  • Tôi đã thấy nhiều bạn bè và người thân gần như lập tức được khuyên phẫu thuật vì đau vai. Với những người làm nghề phẫu thuật, chuyện phẫu thuật trở thành phương án mặc định là khá phổ biến
    Có thời điểm vai tôi cũng đau khá nhiều và cơn đau không giảm trong vài tháng. Tôi không muốn phẫu thuật nên thử massage và châm cứu, nhưng hoàn toàn không giúp gì
    Thứ giải quyết được là tôi thật sự tập trung vào kéo xà. Ban đầu tôi không làm nổi cái nào, nên bắt đầu từ treo người và scapular pull-up, rồi dần chuyển sang kéo xà bình thường. Sau khi có thể làm được vài cái mỗi hiệp, tôi tập theo phương pháp “grease-the-groove”
    Khi tôi làm được khoảng 17 cái mỗi hiệp thì ngừng lịch tập đó, và hiện giờ tôi chia ra trong ngày, tập 3 lần mỗi tuần, 6 hiệp mỗi lần 7–8 cái. Tôi cũng tập các bài tăng độ linh hoạt của vai https://www.youtube.com/watch?v=vP8YmmRMz6I
    Nếu tôi lười và bỏ tập thì cảm giác khó chịu chắc chắn quay lại, nhưng khi tập tăng cường trở lại thì nó biến mất

    • Tôi từng có vấn đề ở vai trong vài năm. Tôi đã thử vật lý trị liệu và các bài kéo/đẩy, nhưng hễ tập những bài đó thì đau nặng hơn. Nếu không tập các bài dùng vai thì trạng thái “ổn”
    • Ngược lại, khi tôi gặp vấn đề với rotator cuff, bác sĩ phẫu thuật khuyên tôi vật lý trị liệu trong vài tháng trước khi đụng dao kéo. Việc đó có hiệu quả. Tôi duy trì tập tạ đều đặn, tập trung vào chuyển động vai đúng, nên cơn đau cũng không quay lại
      Có vẻ nếu bệnh nhân đi tìm một giải pháp nhanh, họ sẽ được đề xuất kiểu giải pháp đó. Nếu tự tìm hiểu một chút rồi đi tìm giải pháp tốt nhất cho mình, thường thì họ sẽ nhận được điều đó
  • Khoảng 2 năm trước, tôi đã dùng “deep research” của ChatGPT để tìm hiểu về viêm xoang mạn tính mà mình đã vật lộn gần 3 năm. Sau khi gặp 3 bác sĩ đa khoa và 3 lần khám tai mũi họng, tôi đưa toàn bộ các quan sát của mình vào AI
    Đặc biệt, bác sĩ tai mũi họng đã soi nội soi xoang của tôi và thấy bằng chứng phản ứng dị ứng, nhưng sau đó, sau khi làm xét nghiệm dị ứng, lại kết luận rằng không thể điều trị bằng thuốc dị ứng, mà không giải thích được lý do. Tôi hỏi vài lần nhưng ông ấy không trả lời
    ChatGPT tìm ra một nghiên cứu của NIH nói rằng 20% người có phản ứng dị ứng chỉ khu trú ở một bộ phận cụ thể của cơ thể, và có thể không biểu hiện qua xét nghiệm lẩy da trên vai. Khi tôi hỏi ông ấy, ông ấy chỉ nói “dị ứng không hoạt động như vậy”. Thế là hết. Ông ấy thậm chí không nghĩ đến việc xem xét nghiên cứu đó
    Ông ấy kê CPAP và điều trị bằng máy khí dung định kỳ. Ngoài lề, công ty CPAP nhắn tin cho tôi, nhưng tôi không thể biết có phải lừa đảo không; tôi hỏi họ là ai nhưng không nhận được câu trả lời
    Vì vậy tôi quyết định cứ thử uống thuốc dị ứng thế hệ 2 hằng ngày
    Viêm xoang biến mất. Trước đó ít nhất mỗi quý tôi lại bị một đợt viêm xoang nặng. Có thể đúng như lời bác sĩ đó, dị ứng không hoạt động theo cách ấy, nhưng thuốc dị ứng đã giải quyết hoàn toàn vấn đề của tôi
    Tôi biết ơn vì điều đó. Bởi vài năm trước tôi đã thử dùng CPAP nghiêm túc trong một tháng, nhưng hoàn toàn không quen được và giấc ngủ thì tệ hại

    • Có rất nhiều thứ để phân tích ở đây, và ngay từ đầu tình thế đã bất lợi. Trước hết, khi một xét nghiệm nào đó nói là X, việc phủ định X thật sự rất khó. Đây không chỉ là vấn đề riêng của ngành y mà là vấn đề của con người nói chung. Chúng ta kém trong việc xem lại hoặc sửa đổi quyết định, và còn kém hơn trong việc cân nhắc khả năng đảo ngược nó
      Tiếp theo là trách nhiệm và thời gian. Đặc biệt trong một lĩnh vực có stakes cao như y tế, nếu bạn yêu cầu ai đó xem xét lại một quyết định, chẳng ai có thời gian hay động lực để mở cái đống rắc rối đó ra
      Nếu thật sự muốn thành công, bạn phải đề xuất xét nghiệm mà nghiên cứu nêu ra trước khi vòng chẩn đoán khép lại, trước khi các bác sĩ đã đóng khung ca bệnh của bạn. Khi đó khả năng họ nhìn thấy thứ cần nhìn là cao nhất
      Tốt hơn là cứ thành thật nói rằng bạn mang đến một giả thuyết nào đó. Các bác sĩ nhận ra rất nhanh khi họ đang bị dẫn dắt, nhưng nhận ra muộn hơn nhiều khi bệnh nhân thực sự đúng. Trong một hệ thống nơi những người quá tải đang cố làm hết sức, bạn phải vận động theo cách đó
    • Thuốc dị ứng uống hằng ngày có liên quan đến nguy cơ Alzheimer khởi phát sớm tăng đáng kể. Mừng là bạn đã tìm được thứ có hiệu quả, nhưng cũng có thể nên thử tiêm giải mẫn cảm với dị nguyên
  • Với tư cách bác sĩ chẩn đoán hình ảnh, tôi thấy Claude và ChatGPT thực sự rất tệ trong việc đọc MRI, và tôi sẽ không tin chúng chút nào. Chúng có điểm mạnh khi nghiên cứu tài liệu dạng văn bản, nhưng vẫn chưa diễn giải hình ảnh X-quang đủ tốt

    • AI bù đắp ở hướng nâng cao chất lượng hình ảnh thay vì báo cáo
      Hiện tại phần mềm MR Deep Resolve của Siemens tạo thêm tín hiệu (khoảng 50%), rồi tạo ra một trong hai pixel, và trong chuỗi 3D thì tạo ra một trong hai lát cắt. Nó giảm khoảng 59% thời gian của mỗi sequence, và thật sự rất, rất tốt
      Tôi là kỹ thuật viên MR
    • Điều này giống như việc mọi người kỳ vọng ChatGPT sẽ chơi cờ vua cực giỏi. Các engine cờ vua có hiệu năng siêu nhân đã tồn tại từ nhiều thập kỷ trước, nên họ nghĩ một LLM frontier mới nhất được huấn luyện bằng hàng tỷ đô la thì đương nhiên việc đó phải dễ
      Thật ra tôi tò mò ELO của ChatGPT 5.5 là bao nhiêu. Nhờ lượng nội dung nó đã hấp thụ, tôi sẽ không quá ngạc nhiên nếu chỉ với hiểu biết cơ bản về nguyên lý cờ vua mà nó đạt trên 2000
  • Tôi không hiểu phản ứng tiêu cực. Y tế hiện nay vận hành được là nhờ cả bác sĩ lẫn bệnh nhân đều phải động não. Gần như chưa từng có chuyện bác sĩ đưa ra chẩn đoán còn tôi chỉ tiếp tục một ngày của mình. Khi có những trường hợp như vậy thì thường là vì tôi đã chắc chắn vấn đề là gì và biết mình cần gì. Bác sĩ là rào cản ngăn tiếp cận điều trị
    Dr. GPT là một công cụ brainstorm tốt. Nó tổng hợp thông tin theo cách khó làm nếu chỉ dựa vào tài liệu gốc. Tuy vậy, cũng phải buộc nó nói “điều này vô lý”
    Tôi cho rằng luận điểm “bác sĩ không biết kiến thức mới nhất” có cơ sở yếu. Nghĩ đến mật độ token trong quá trình tiền huấn luyện và cách cấu thành dataset hậu huấn luyện, nó sẽ mất rất lâu để thích ứng với những thay đổi căn bản. Nếu chúng ta đã quên cách chữa bệnh scorbut, thì cần bao nhiêu bài báo để thích ứng với phát hiện mới?

  • Về hình ảnh thì tôi sẽ không tin AI. Nhưng có một lần, chỉ nhìn vào phần văn bản của báo cáo MRI, ChatGPT nói rằng báo cáo rất có khả năng sai nghiêm trọng và đề xuất một chẩn đoán khác. Nó khẳng định khá mạnh nên tôi đi tìm bác sĩ khác và làm xét nghiệm lại. Nói ngắn gọn thì ChatGPT đã đúng
    Xin nhắc lại, đây chỉ là một trải nghiệm đơn lẻ của một người nên không có nhiều ý nghĩa

    • Chỉ là giai thoại, nhưng tôi từng đưa hình ảnh của một bệnh nhân zona thần kinh mà bác sĩ nói là bệnh khác vào Gemini Pro; nó đưa ra chẩn đoán đúng, nhờ đó bệnh nhân được điều trị đúng và khỏi
      Tôi không hiểu vì sao các bác sĩ không thử prompt LLM trước khi nói điều sai. Vì sĩ diện à?
      Tôi hiểu rằng chẩn đoán hình ảnh cần mạng nơ-ron tích chập chuyên biệt, nhưng với các vấn đề gần với nền tảng tri thức thì càng nên làm vậy
    • Tôi nghĩ phần lớn khoảng cách về thị giác là do việc cần chú ý vào đâu trong ảnh ít được cấu trúc hơn. Theo giai thoại, các mô hình qwen nhỏ đã fine-tune, chẳng hạn dưới 10 tỷ tham số, cũng có thể kéo độ chính xác từ dưới 30% của mô hình nền lên 90%. Tôi từng bán các mô hình như vậy cho công việc back-office tính theo hiệu quả
      Có vẻ sẽ xuất hiện nhiều VLM chuyên biệt mang lại giá trị thực sự
    • Vài ngày trước ChatGPT Enterprise nói kernel 7.0.2 cũ hơn 6.69
      Những món đồ chơi này hoàn toàn không đáng tin. Không có nghĩa là chúng vô dụng, nhưng không thể tin được