- Phản hồi của mô hình ngôn ngữ lớn (LLM) không phải là sự thật, mà là kết quả dự đoán thống kê về từ ngữ
- ChatGPT, Claude, Gemini... chỉ dự đoán từ tiếp theo có vẻ hợp lý nhất, chứ không nhận thức được nguồn gốc hay tính xác thực của thông tin
- Chúng có thể tạo ra những câu văn đầy sức thuyết phục, nhưng nội dung của chúng có thể không chính xác hoặc không đáng tin cậy
- Việc sao chép và truyền lại câu trả lời của AI như thể đó là căn cứ có thẩm quyền rốt cuộc chỉ là lặp lại “những tổ hợp từ thường đi cùng nhau”
- Thói quen trích dẫn phản hồi của AI như sự thật cho thấy nguy cơ làm suy yếu việc kiểm chứng tri thức và năng lực tư duy
Bản chất của phản hồi AI
- Phản hồi của các mô hình ngôn ngữ lớn như ChatGPT, Claude, Gemini không phải là sự thật
- Chúng hoạt động bằng cách dự đoán từ sẽ xuất hiện tiếp theo trong câu
- Vì vậy, chúng có thể tạo ra thông tin nghe hợp lý nhưng không chính xác
- Có thể ví các mô hình này như một người đã học từ vô số tài liệu nhưng không nhớ được nguồn
- Nói cách khác, chúng chỉ tái tổ hợp câu chữ mà không nhận thức được căn cứ và ngữ cảnh của thông tin
Giới hạn về độ tin cậy
- Câu trả lời hay lời khuyên do AI đưa ra có thể đúng, nhưng căn cứ của nó lại không rõ ràng
- Câu trả lời không phải là “cuốn sách được ghi nhớ”, mà là tổ hợp của những từ thường xuyên xuất hiện cùng nhau
- Vì vậy, việc trích dẫn đầu ra của AI như sự thật hoặc thông tin có thẩm quyền là không phù hợp
- Tuyên bố rằng “ChatGPT đã nói như vậy” rốt cuộc chỉ là trích lại kết quả của việc dự đoán từ ngữ
Rủi ro của việc trích dẫn
- Việc sao chép nguyên văn phản hồi của AI rồi truyền đi cũng giống như phát tán những tổ hợp từ ngữ không phải sự thật
- Đôi khi điều đó có thể hữu ích hoặc mang lại góc nhìn, nhưng không phải chân lý hay tiêu chuẩn để đưa ra phán quyết cuối cùng
- Bài viết mô tả hành vi này là “hình ảnh những người thông minh ngừng suy nghĩ”
Tài liệu tham khảoเพิ่มเติม
Kết luận
- Bản thân công nghệ AI và machine learning vẫn được đánh giá tích cực, nhưng
cần cảnh giác với thái độ trích dẫn hoặc tin tưởng phản hồi của AI mà không phê phán
- Trang web khuyến khích chia sẻ nội dung này với những người hay nói “But ChatGPT Said...”
5 bình luận
Bài viết từ 1 năm trước à?
hahaha
https://github.com/leoherzog/stopcitingai/blob/main/index.html
Không, nếu bạn xem lịch sử chỉnh sửa tệp thì bản nháp đã được tạo từ một tuần trước.
"Chỉ là kết quả dự đoán thống kê của các từ" — chỉ cần nhận thức được sự thật này thôi cũng có vẻ sẽ thấy rõ nên xử lý AI như thế nào
Ý kiến Hacker News
Phản hồi của LLM như ChatGPT, Claude, Gemini không phải là sự thật
Chúng chỉ đơn thuần dự đoán từ tiếp theo
Kiểu ví von rằng “bài viết trên Wikipedia cũng không phải sự thật mà chỉ là dao động của từ thông trường điện từ” là vô nghĩa
Cuối cùng, điều quan trọng là nêu rõ nguồn. Dù là Wikipedia, con người hay chó, nếu không có nguồn thì tôi sẽ không tin
Đầu ra chỉ là tổ hợp các từ được chọn theo xác suất, nên có từ đến từ cách diễn đạt phổ biến, có từ đến từ những nơi như 4chan, và có cái có thể là ảo giác (hallucination)
Trong trường hợp đó, chính khái niệm “nguồn của sự thật” cũng không còn đứng vững
Tùy định nghĩa “sự thật” như thế nào mà trọng tâm tranh luận sẽ thay đổi
Vấn đề không nằm ở kết quả mà nằm ở độ tin cậy của quá trình tạo ra kết quả
Dù tung xúc xắc rồi tình cờ ra đúng “3+4=7”, thì đó cũng chỉ là đúng ngẫu nhiên, còn quy trình vẫn sai
Vấn đề của LLM cũng gần với kiểu lỗi quy trình như vậy
Thực tế, nó được huấn luyện để khớp với sở thích của con người và sự nịnh nọt (sycophancy), nên tạo ra thứ “văn bản như siro bắp hàm lượng fructose cao” dễ đọc
Vì vậy, nó lại không phù hợp lắm cho brainstorming hay tóm tắt
Nhưng với các câu hỏi sự kiện đơn giản thì đang ngày càng khá hơn
Cuối cùng, LLM không chỉ là bộ dự đoán đơn thuần mà là thực thể được tối ưu để trông thuyết phục hơn
Ngay cả ở công ty nhỏ, việc đặt kỳ vọng về sử dụng AI cũng rất quan trọng
Chỉ cần nguyên tắc đơn giản rằng “dùng AI thì bạn vẫn phải chịu trách nhiệm cho kết quả” là đủ
Xác minh dữ liệu, kiểm thử mã và kiểm tra phản hồi là bắt buộc
Trước đây người ta nói “đừng copy-paste từ Stack Overflow, hãy đọc và hiểu”
Thế giới đã thay đổi nhưng bản chất vẫn vậy
Đó mới là thay đổi lớn
Có cảm giác phép ví von “một người đã đọc hàng nghìn cuốn sách nhưng không nhớ mình đã đọc ở đâu” rất giống với LLM
Tôi cũng thỉnh thoảng ảo giác về nguồn, kiểu “chắc là trong bộ Schaum”
Ban đầu ta nhớ mình đã học việc “Paris là thủ đô của Pháp” từ đâu, nhưng theo thời gian nguồn biến mất và chỉ còn nội dung
LLM tuân theo nguyên lý Garbage In, Garbage Out đúng nguyên xi
Ở những lĩnh vực được tài liệu hóa tốt thì nó hoạt động ổn, nhưng với chủ đề mơ hồ thì lại đưa ra thông tin vớ vẩn
Đặc biệt, nó yếu trong việc hiểu ngữ cảnh nên nếu không chỉ định rõ sẽ trả lời sai
Ở hiện trường hỗ trợ kỹ thuật, thường xuyên phát sinh tranh cãi với khách hàng tin nguyên xi câu trả lời của ChatGPT
Kể cả khi yêu cầu sửa, nó lại trả về một câu trả lời sai khác cùng với lời xin lỗi vô dụng
Kỷ nguyên hậu sự thật (post-truth) đúng là đáng bất an, nhưng ngược lại cũng có cảm giác mọi người đang nghi ngờ và đặt câu hỏi nhiều hơn
Như Rorty nói, “sự thật là thứ mà chúng ta không còn tranh cãi nữa”, nên nên xem nó là sản phẩm của đồng thuận xã hội
Quan trọng hơn tranh luận về chân lý là cách điều phối xung đột ngôn ngữ giữa các cộng đồng diễn ngôn
Nói với sếp rằng “đó là một ý tưởng ngu ngốc” thì chắc chắn sẽ không được thích
Tốt hơn là nên hỏi “chúng ta có thể cùng xem log cuộc trò chuyện đó được không?”
Như vậy có thể kiểm tra LLM đã đưa thiên kiến vào ở chỗ nào
Tôi không có lý do gì phải phản bác một đầu ra LLM chưa được kiểm chứng, và trách nhiệm thuộc về người đã trích dẫn nó
Tranh luận về “trích dẫn nguồn” đang bỏ lỡ một vấn đề sâu hơn
LLM mạnh ở các tác vụ có thể kiểm chứng được (mã, dịch thuật, tóm tắt), nhưng yếu ở những lĩnh vực không thể kiểm chứng trực tiếp (nghiên cứu, chuyên môn)
Vì thế tôi chỉ dùng LLM như công cụ tạo bản nháp để chuyên gia có thể rà soát
Rủi ro không nằm ở ảo giác mà ở khoảng cách tự tin xuất hiện khi độ trôi chảy của mô hình vượt quá chuyên môn của người dùng
Cách gọi công cụ như RAG hay tìm kiếm web rốt cuộc cũng chỉ là đánh đổi sang các kiểu thất bại khác
Phản ứng của tôi là: “Nếu ChatGPT đáng tin hơn tôi, thì sao lại thuê tôi?”
Tôi có thể dành vài giờ để giải thích, nhưng tin chuyên gia chẳng phải tốt hơn sao?