Câu trả lời của AI có thể chứa sai sót

(os2museum.com)

2 điểm bởi GN⁺ 2025-06-02 | 2 bình luận | Chia sẻ qua WhatsApp

Tóm tắt tìm kiếm bằng AI không phải lúc nào cũng chính xác
Nhiều thông tin về PS/2 Model 280 được cung cấp khác nhau mỗi lần truy vấn lặp lại
Xuất hiện vấn đề ảo giác của AI khi mô tả rất thuyết phục cả những số model không hề tồn tại
Xác suất nhận được câu trả lời đúng ở mức rất thấp
Người không có chuyên môn có nguy cơ cao dễ hiểu nhầm thông tin sai là sự thật

Trải nghiệm về vấn đề độ tin cậy của tóm tắt tìm kiếm bằng AI

Thử tìm model IBM PS/2

Đã tìm trên Google một model cụ thể của hệ thống PS/2 Server phát hành năm 1992
Thông tin xuất hiện trong kết quả tìm kiếm không khớp với chiếc máy đang cần tìm, trong khi model gốc có đặc điểm dùng bộ xử lý 486 (số nhiều) và Microchannel (MCA)

Kết quả lặp lại và câu trả lời không nhất quán

Dù chạy lại cùng một truy vấn, kết quả tóm tắt AI lại hiển thị khác nhau mỗi lần
Ví dụ, nó liên tục lặp lại khẳng định rằng PS/2 Model 280 là một hệ thống ISA dựa trên 286
Ngay cả thông tin về dung lượng và thông số RAM cũng thay đổi giữa từng câu trả lời, cho thấy dữ liệu được đưa ra thiếu nhất quán

Mô tả mang tính ảo giác về một model không tồn tại

Sau nhiều lần truy vấn, AI còn tạo ra cả những thông tin bất khả thi về mặt kỹ thuật, như tuyên bố rằng hệ thống 286 có thể mở rộng tới 128MB
Thậm chí còn xuất hiện mô tả rằng PS/2 Model 280 là một bước phát triển quan trọng của dòng IBM PC
Trên thực tế, bản thân PS/2 Model 280 không hề tồn tại, nhưng AI vẫn đưa ra lời giải thích vô căn cứ một cách rất thuyết phục

Tần suất thấp của câu trả lời đúng

Chỉ sau nhiều lần thử truy vấn mới thỉnh thoảng xuất hiện câu trả lời đúng rằng “Model 280 thực tế không tồn tại trong dòng PS/2”
Tỷ lệ xuất hiện câu trả lời chính xác là rất thấp, và trong phần lớn trường hợp, AI bịa ra thông tin không có căn cứ
Các câu trả lời bị ảo giác không có giá trị như thông tin, trái lại còn tạo ra sự tự tin sai lệch

Cảnh giác với việc tin mù quáng vào tóm tắt tìm kiếm bằng AI

Tìm kiếm Internet dựa trên AI có thể trông rất thuyết phục đối với người không có chuyên môn
Chuyên gia có thể nhanh chóng nhận ra sai sót, nhưng với người dùng thiếu khả năng kiểm chứng thông tin, họ rất dễ bị thông tin giả đánh lừa
Cảnh báo rằng AI “có thể mắc sai lầm” tuyệt đối không phải chuyện có thể xem nhẹ, và việc phụ thuộc vào câu trả lời của AI mà không có quy trình kiểm chứng đáng tin cậy là rất nguy hiểm
Nhấn mạnh rằng nghe có vẻ thuyết phục không có nghĩa là dựa trên sự thật
Cần luôn ghi nhớ sự cần thiết của hoài nghi và kiểm chứng sự thật đối với các bản tóm tắt hoặc kết quả tìm kiếm dựa trên AI

2 bình luận

ndrgrd 2025-06-03

Có lẽ chỉ nên dùng LLM để tóm tắt. Nhất định phải có quá trình tìm nguồn dữ liệu và kiểm chứng.

GN⁺ 2025-06-02

Ý kiến Hacker News

Có nhắc đến đặc tính confabulation của Google Gemini: bịa ra câu trả lời sao cho trông như phù hợp với truy vấn tìm kiếm, bị chỉ ra là không quan tâm đến ngữ cảnh và độ chính xác; chia sẻ trải nghiệm rằng chỉ có thể dùng nó như công cụ hỗ trợ ghi nhớ khi đã biết trước kết quả, còn nếu không thì hoàn toàn không thể tin cậy; kết quả của Google Veo cũng có rất nhiều lỗ hổng; câu chuyện là AI rõ ràng cho thấy không hề có logic hay suy luận trong đầu ra; đồng thời chia sẻ ví dụ Veo cho ra kết quả lạc quẻ và liên kết bài báo về tai nạn do Tesla FSD hành xử bất thường
[Tính hiện thực của video AI] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[Tin tức tai nạn Tesla FSD] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)
- Một bầu không khí đang hình thành trong đó đầu ra chất lượng kiểu này dần được chấp nhận như là “bình thường”, “có thể chấp nhận được”; điều rất đáng lo là hầu như chẳng ai coi đó là vấn đề; thắc mắc vì sao trước đây thứ này chắc chắn không thể chấp nhận nổi, còn bây giờ kết quả thiếu chính xác lại ngày càng được dung thứ
- Chia sẻ trải nghiệm đã Google một tính năng liên quan đến ô tô; trước đây Google Search xử lý kiểu truy vấn này rất tốt, nhưng giờ thì 90% trang kết quả bị phủ kín bởi đầu ra AI trộn lẫn thông tin sai về đời xe, mẫu xe và thương hiệu; thứ duy nhất hơi có ích là một video YouTube, và câu trả lời đúng lại nằm khuất tận cuối trang trong một car forum cũ, nên gửi lời cảm ơn tới CamaroZ28.com
- Đây là hiện tượng gây hoang mang hơn bất kỳ công nghệ nào khác; không hiểu vì sao Google lại đặt cược mảng kinh doanh cốt lõi của mình vào cú rẽ sang một công nghệ lỗi nghiêm trọng như vậy; cũng cho rằng những lời hứa kiểu “nó sẽ tốt lên” như Ben Evans nói chỉ là lời suông; chia sẻ trường hợp thực tế khi tìm kiếm một sự kiện tưởng niệm diễn ra hôm qua ở Đức thì AI Overview lại lấy tên của một nhạc sĩ Ý đã qua đời rồi bịa ra rằng địa điểm đó là tác phẩm hay nhất của người nhạc sĩ ấy; sau đó dán câu trả lời đó vào ChatGPT thì còn nhận được một phản hồi vừa nhẹ nhàng vừa sắc bén chế giễu lỗi của AI Overview, thành ra khá buồn cười
- Cảm giác AI bề ngoài thì làm như thông minh nhất lịch sử, nhưng logic hay suy luận bên trong lại không theo kịp, tạo nên một kiểu “uncanny valley” rất kỳ quái
- Thành thật mà nói rất khó hiểu những người dùng LLM để thay thế tìm kiếm đang dùng nó theo cách nào; các chatbot luôn chỉ đưa ra dữ liệu nằm gần thứ mình muốn (ví dụ hỏi nguồn thì chỉ đưa trích dẫn), chứ không phải đúng thông tin cần; tự hỏi có phải mình dùng tìm kiếm sai cách không
Dù hiểu rõ giới hạn và tính xác suất của LLM, nhưng khi nhìn người thân hay bạn bè tin tưởng LLM rồi dùng nó cho những việc không phù hợp thì cảm thấy như chỉ mình là kẻ hoài nghi AI; họ còn dùng AI để chia số như chia tiền ăn chẳng hạn, và có vấn đề ở chỗ tin vô điều kiện vào kết quả LLM
- Một ví dụ kinh điển của việc dùng công nghệ cao để giải quyết vấn đề công nghệ thấp; mỉa mai chuyện ngay cả phép tính số học đơn giản cũng nhất quyết giao cho máy
- Phần khó ở đây là trong sử dụng hằng ngày, kết quả thường “đúng đủ dùng”, nên mọi người dần phụ thuộc theo thói quen
- Bắt LLM làm các phép tính đơn giản thật ra khá buồn cười; còn đùa rằng tốt hơn nên bảo nó viết Python cho các biến đó
- Ví việc sử dụng LLM tự nó cũng gây hại cho người xung quanh, giống như hút thuốc trong nhà
- Về hiện tượng “bảo AI tính toán, tìm thông tin rồi tin 100% kết quả”, có ý kiến cho rằng với những mục đích cơ học đơn giản thế này thì chatbot hiện tại chẳng phải đều làm đúng được sao; đã có thể xử lý nhiều chức năng cùng lúc thì tại sao còn phải chuyển đổi giữa từng app theo từng tình huống; rốt cuộc tính dễ dùng (Usability) mới là động lực mạnh nhất
Chỉ ra rằng những dòng đơn giản như “Câu trả lời AI có thể có lỗi” hay cảnh báo ở cuối ChatGPT hiện đã là quá thiếu; dù người ta đã cảnh báo về hallucination của LLM suốt nhiều năm, mọi người vẫn tiếp tục mắc sai lầm; vì vậy các bên cung cấp LLM cần giáo dục người dùng về giới hạn của chúng theo cách quyết liệt hơn, dù điều đó có làm trải nghiệm người dùng kém thuận tiện đi nữa thì vẫn là cần thiết
- Có người cho rằng trong cuộc thảo luận này, điều duy nhất có thể làm thêm là quy trách nhiệm cho nhà cung cấp mô hình, hoặc tiếp tục giữ cơ chế cảnh báo trước hạn chế như hiện nay; AI model và dịch vụ cloud hiện đã có nhiều tầng lọc và kiểm duyệt; ma sát nhiều hơn nữa rốt cuộc cũng chỉ là mấy thứ nhỏ như thêm popup; nếu bắt đầu truy trách nhiệm nhà cung cấp mô hình thì ngay lúc đó mô hình mở sẽ không thể kinh doanh được nữa, các công ty sẽ chỉ dùng qua hợp đồng cấp phép riêng với nhau và việc công khai API cho công chúng sẽ trở nên bất khả thi; cùng lắm chỉ có thể kỳ vọng về sau không khí xã hội đổi khác để các hạn chế được nới dần
- Đối với lập luận rằng “cần giáo dục người dùng hiệu quả hơn”, có ý kiến cho rằng đây rốt cuộc là vấn đề con người chỉ học được qua trải nghiệm, kiểu “phải tự vấp mới thấm”; không có dòng cảnh báo nào hiệu quả bằng việc thực sự bị thiệt hại
- Có góc nhìn cho rằng vì LLM vốn được quảng bá như công cụ thay thế lao động tri thức của con người, nên nhà cung cấp không thể chủ động nhấn mạnh giới hạn của nó; điều này bị xem là mâu thuẫn với những phát biểu lặp đi lặp lại như của CEO Anthropic rằng thất nghiệp quy mô lớn là điều không tránh khỏi
- Nhắc lại thời kỳ Apple Maps hay Google Maps từng phải xử lý khủng hoảng PR vì chỉ đường sai; còn bây giờ thì có cảm giác chỉ cần gắn cảnh báo là coi như không vấn đề gì; bày tỏ thất vọng vì công nghệ mới đang được hưởng quá nhiều sự khoan dung
- Nhấn mạnh rằng cảnh báo phải được đặt ở đầu trang, bằng chữ đỏ lớn
Giải thích rằng mô hình ngôn ngữ không được thiết kế để “biết” tri thức mà để “nói”; vì vậy nó được gọi là “language model” chứ không phải “knowledge model”; nó chỉ nối tiếp xác suất từ nào sẽ xuất hiện sau từ đã được sinh ra trước đó; lý do mỗi lần cho ra kết quả khác nhau là vì bên trong có một phân phối xác suất với bộ sinh số giả ngẫu nhiên để chọn từ tiếp theo; nếu đặt temperature về 0 thì tính ngẫu nhiên biến mất và nó sẽ luôn chọn từ có xác suất cao nhất; lúc đó đầu ra sẽ rất tẻ nhạt; với các chủ đề như IBM, PS/2, 80286, 80486, nó không thực sự “biết” gì cả mà chỉ đang sắp xếp chuỗi từ
- Có trải nghiệm rằng ngay cả khi đặt temperature về 0 thì mô hình local vẫn hoạt động đủ tốt; việc UI cloud chặn mức 0 là để ngăn công chúng nhìn thấy bug mô hình rơi vào vòng lặp vô hạn
- Đồng ý với thực tế rằng mô hình ngôn ngữ không cung cấp “tri thức” mà chỉ tạo ra lời nói, nhưng từ góc nhìn người dùng Google thì họ không đến đó để trò chuyện mà để lấy “tri thức” thật; cho rằng việc Google cố thay thế cung cấp tri thức đáng tin cậy bằng thứ đơn thuần là “sinh từ” là một sai lầm bản chất; dù vậy vì mục tiêu là doanh thu quảng cáo nên có lẽ trên thực tế điều đó lại không quá quan trọng với họ
Chỉ trích việc ngay cả trên trang tìm kiếm Google, cảnh báo “câu trả lời AI có thể có lỗi” cũng bị giấu dưới nút “Xem thêm”; kể lại rằng khi OpenAI ChatGPT mới ra mắt, đã từng giải thích cho một giáo sư ngoài ngành rằng AI hiện nay chưa phải “AI thật” mà gần với một trò biểu diễn tính toán (parlor trick); nhưng kiểu “trò diễn” này lại hiệu quả đáng kinh ngạc trong việc chép bài tập; nhìn chung nếu không quan tâm đến chất lượng hay bản quyền thì đây là công cụ cực tốt để “cheat” trong bài tập và nhiều việc khác
- Đặt nghi vấn với quan điểm cho rằng “nó chỉ làm như thể biết viết code, chứ thật ra không viết được”; trên thực tế nó vẫn có thể viết code, và những gì xảy ra ở phía sau thì bộ não con người cũng chẳng ai thực sự biết hết; tranh luận bản thể kiểu này không có nhiều ý nghĩa, điều quan trọng là kết quả thực tế
- Một góc nhìn thực dụng: đây là công cụ hỗ trợ trí nhớ/tìm kiếm thông tin với giao diện nhập/xuất linh hoạt
Gemini có vẻ được tối ưu cho các câu hỏi thường gặp, nhưng với ý định tìm kiếm truyền thống hơn thì lại có xu hướng trả lời confabulated rất lạc hướng; đã chứng kiến nhiều người tin AI Overview như một nhà tiên tri (oracle); đó chính là cách công chúng phổ thông trải nghiệm AI; khác với niềm tin dành cho “tin tức”, AI lại được mọi người tin bất kể tuổi tác hay nhóm nhân khẩu học; có cảm giác về bản chất con người là loài rất thích các câu trả lời máy tính đưa ra với sự tự tin vô căn cứ
- Đánh giá sự thay đổi trong trải nghiệm tìm kiếm của Google là đặc biệt nghiêm trọng; nhớ lại rằng trước đây giao diện excerpt ở đầu trang đã được dùng hơn 10 năm, trích từ các trang đáng tin cậy, giúp tiết kiệm lượt nhấp và là một nguồn thông tin có thể tin được; với câu hỏi y tế chẳng hạn thì thường trích từ nơi đáng tin như Mayo Clinic, và có thể tìm trực tiếp trong trang đó nên dần tạo ra niềm tin; theo thời gian hệ thống niềm tin này bị SEO phá hoại dần, và vấn đề cốt lõi hiện tại là nó đã bị thay bằng AI Overview, một hệ thống về bản chất hoàn toàn khác, khác hẳn thời kỳ nguồn hợp lệ và đáng tin có thể được kiểm chứng theo thời gian thực
- Không chỉ những người không trực tiếp dùng LLM, mà ngay cả quản lý chuyên dùng LLM cũng thay đổi câu hỏi cho đến khi nhận được câu trả lời xác nhận điều mình muốn nghe
- Nhắc đến tâm lý nền tảng rằng con người vốn thích các câu trả lời đầy chắc chắn dù không có căn cứ
- Cảm nhận rằng môi trường Internet nơi người ta có thể tìm kiếm để học hỏi nay đã biến mất; mọi kết quả đều trở nên tệ hơn vì rác SEO không đáng tin, và AI Overview có lẽ sẽ làm mọi thứ tồi tệ hơn nữa; thấy đáng sợ khi nghĩ tới một thời đại mà chỉ cần tìm “nguyên lý hoạt động của máy in” rồi ngay cả câu trả lời ngớ ngẩn như “hệ thống ròng rọc và dây thừng” cũng bị tin là thật; tự nhìn lại rằng mình thực sự đã liên tục thấy những câu trả lời sai vô lý, thậm chí đôi khi còn nguy hiểm như vậy
Thông điệp “Câu trả lời AI có thể chứa sai sót” mới chính là điều cốt lõi muốn hét to nhất với công chúng trong mọi cuộc thảo luận về AI; trong mọi tranh luận về đạo đức/an toàn AI, điểm này cùng với tác động năng lượng/khí hậu phải là trung tâm; đó là hai điều sẽ gây hại lớn nhất cho nhân loại nếu cơn sốt AI tiếp tục kéo dài
- Vấn đề không phải là “có thể có sai sót” mà là “chắc chắn sẽ có sai sót”; nhưng mọi người không nhận ra điều đó và lại tôn sùng nó như một nhà tiên tri toàn năng; trong thực tế nó chỉ là mô hình xác suất đơn thuần, mà khỉ nếu thử đủ lâu thì cũng có xác suất viết ra Shakespeare
Chỉ trích rằng Google đã hiểu sai hoàn toàn nền tảng của tìm kiếm; giờ đây họ tập trung vào tóm tắt nhanh và liên kết tài trợ hơn là độ chính xác của câu trả lời
- Trong 10 câu trả lời nhanh thì 6 câu sai một cách tinh vi, 2 câu sai rõ ràng, và 1 câu còn hoàn toàn nguy hiểm theo trải nghiệm; thực sự có những câu trả lời có thể làm ai đó bị thương hoặc gây ra rắc rối pháp lý
- Cho rằng chiến lược thời Eric Schmidt ở Google kiểu “có nhiều câu trả lời còn hơn không trả lời gì” giờ đã tiến hóa thành “có câu trả lời sai còn hơn là không có gì”
Có quan điểm rằng AI giống hệt kiểu người lúc nào cũng trả lời mọi thứ với vẻ cực kỳ tự tin dù không có cơ sở, nên gần như không có lý do gì để nghiêm túc tin tưởng nó
- Yếu tố tâm lý là cốt lõi; con người nhận ra sự thiếu tự tin của người khác qua tín hiệu phi ngôn ngữ, nhưng AI thì không có những tín hiệu đó, trong khi câu trả lời do máy đưa ra vốn từ lâu đã được mặc định là chính xác; tỷ lệ người tiếp cận nó một cách phê phán là rất thấp
- Đùa rằng đến giờ vẫn chưa có công ty AI nào đủ gan đặt tên sản phẩm của mình là “Cliff Clavin”, tiện thể thêm trò đùa về rủi ro dùng tên thật và đủ kiểu “dũng khí” khác
- Trước lập luận “không hiểu sao người ta lại thực sự tin AI”, có phản biện rằng nếu một công ty như Google, nơi hàng chục năm qua hướng tới việc cung cấp thông tin cho toàn thế giới và đã luôn cố đưa ra câu trả lời chính xác, nay lại nói rằng họ cung cấp điều đó qua AI, thì việc người dùng tin tưởng chẳng phải là điều đương nhiên sao
Từ trải nghiệm gần đây với ChatGPT và mã Python: để loại trừ logger class của Gunicorn khỏi một URL path cụ thể, đã tự tạo 3 lời giải rồi yêu cầu chatbot so sánh tốc độ của từng cách; chatbot trả về code benchmark và kết luận regex nhanh nhất, nhưng khi tự chạy thì cách dùng tuple lại nhanh hơn hơn 5 lần; khi báo lại kết quả thì chatbot lập tức sửa giọng sang “cảm ơn đã cho biết, đúng là tuple mới đúng”; dù nhờ đó vẫn tiết kiệm được thời gian vì nhận nhanh code benchmark cần thiết, nhưng từ trải nghiệm này lại càng khó tin vào kết quả chatbot trong những vùng mà bản thân không chắc đáp án