LLMs Will Always Hallucinate, and We Need to Live With This
Mở đầu
- Khi các mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi trong nhiều lĩnh vực, việc xem xét một cách phê phán những giới hạn cố hữu của chúng là rất quan trọng
- Nghiên cứu này lập luận rằng ảo giác của mô hình ngôn ngữ không chỉ là lỗi đơn thuần mà là một đặc tính tất yếu của các hệ thống này
Bản chất của ảo giác
- Ảo giác bắt nguồn từ cấu trúc toán học và logic nền tảng của LLM
- Không thể loại bỏ hiện tượng này thông qua cải tiến kiến trúc, nâng cao chất lượng tập dữ liệu hay các cơ chế kiểm chứng sự thật
- Dựa trên lý thuyết tính toán và định lý bất toàn thứ nhất của Gödel, nghiên cứu viện dẫn tính bất khả quyết của các bài toán như bài toán dừng, bài toán khoảng trắng và bài toán chấp nhận
Ảo giác ở mọi giai đoạn của quy trình LLM
- Có xác suất xảy ra ảo giác ở mọi giai đoạn như thu thập dữ liệu huấn luyện, truy xuất sự thật, phân loại ý định và sinh văn bản
- Giới thiệu khái niệm ảo giác cấu trúc để xác lập đây là đặc tính bản chất của các hệ thống này
Kết luận
- Bằng cách xác lập tính chắc chắn về mặt toán học của hiện tượng ảo giác, nghiên cứu thách thức quan niệm trước đây rằng có thể giảm thiểu hoàn toàn hiện tượng này
Tóm tắt của GN⁺
- Nghiên cứu này chứng minh bằng toán học rằng ảo giác của LLM là điều tất yếu, nhấn mạnh rằng không thể loại bỏ hoàn toàn
- Giải thích bản chất của ảo giác thông qua lý thuyết tính toán và định lý bất toàn của Gödel
- Cho thấy ảo giác có thể xảy ra ở mọi giai đoạn của LLM
- Nghiên cứu này gợi ý rằng điều quan trọng là phải hiểu rõ các giới hạn của LLM và chấp nhận chúng
1 bình luận
Ý kiến trên Hacker News
Bằng cách chứng minh hiện tượng ảo giác bằng tính chắc chắn toán học, bài viết này thách thức quan niệm trước đây rằng ảo giác có thể được giải quyết hoàn toàn
Ảo giác là kết quả của việc đưa ra câu trả lời khả dĩ đầu tiên cho một câu hỏi
Kiến trúc hiện tại về bản chất đã chứa "ảo giác", nên hạn chế việc sử dụng thực tiễn
Ảo giác của LLM có liên quan đến cách biểu đạt tri thức
Dữ liệu huấn luyện không hoàn chỉnh không phải là thứ đáng để đo lường
LLM sẽ trở nên giống như một "expert system"
Để làm việc hiệu quả với LLM, về bản chất cần có khả năng sử dụng một công nghệ không đáng tin cậy và phi quyết định
Đã đến lúc bong bóng vỡ
Chúng ta không cần phải "chấp nhận" LLM
Bài luận văn này được viết tệ và khó tin rằng đã phát triển được một lý thuyết toán học có ý nghĩa