- Mô hình ngôn ngữ lớn (LLM) cho thấy tần suất mắc lỗi tăng lên khi bài toán có chứa thông tin thừa về mèo
- Kết quả cho thấy khi thêm vào các sự thật không liên quan như vậy, tỷ lệ lỗi của LLM có thể tăng tới 300%
- Con người không dễ bị ảnh hưởng bởi thông tin không liên quan, nhưng LLM lại bộc lộ vấn đề không thể thực hiện đúng chỉ dẫn vì điều này
- Nghiên cứu lần này mang lại góc nhìn để hiểu điểm yếu của AI và tầm quan trọng của việc thiết kế bài toán
- Khi đánh giá hoặc sử dụng AI, cần quản lý các yếu tố không cần thiết trong dữ liệu đầu vào
Bối cảnh nghiên cứu và hiện tượng
- Dù mô hình ngôn ngữ lớn (LLM) hiện đại giải toán khá tốt, một phân tích cho thấy tỷ lệ lỗi tăng mạnh khi trong đề bài có thêm các thông tin về mèo không liên quan
- Theo nghiên cứu, nếu thêm vào sinh thái, thói quen của mèo hay các thông tin phụ vô ích khác hoàn toàn không liên quan đến phép tính toán học, LLM có thể diễn giải sai đề bài hoặc tạo ra câu trả lời sai với tỷ lệ tăng tới 300%
Khác biệt giữa con người và LLM
- Tương tự, trong thí nghiệm với con người, sự hiện diện của thông tin không liên quan hầu như không ảnh hưởng lớn đến tỷ lệ trả lời đúng
- Tuy nhiên, LLM phản ứng nhạy với các thông tin gây phân tán này, làm tăng khả năng diễn giải lệch khỏi vấn đề cốt lõi hoặc hiểu sai
Tầm quan trọng của việc đánh giá AI và quản lý dữ liệu đầu vào
- Hiện tượng này vừa cho thấy điểm yếu của LLM, vừa nhấn mạnh mức độ quan trọng của việc quản lý thông tin không cần thiết trong dữ liệu đầu vào ở các tình huống ứng dụng AI ngoài thực tế
- Khi thiết kế bài toán, việc chỉ đưa ra thông tin rõ ràng và có liên quan là yếu tố then chốt để cải thiện độ chính xác của AI
Hàm ý
- Trong tương lai, khi triển khai AI và áp dụng vào dịch vụ, việc quản lý các yếu tố không cần thiết hoặc nhiễu trong dữ liệu đầu vào sẽ là bắt buộc
- Điều này gợi mở định hướng nghiên cứu và phát triển nhằm hiểu rõ hơn các giới hạn cũng như điểm cần cải thiện của LLM
1 bình luận
Ý kiến trên Hacker News
Nhiều bình luận cho rằng các tác giả lẽ ra phải so sánh trực tiếp con người và LLM trên cùng một bộ bài toán, như thể nhóm nghiên cứu đang cố tìm xem bên nào suy luận tốt hơn. Các tác giả có nói rằng con người sẽ lập tức bỏ qua loại thông tin “kích hoạt” này; thực tế có thể đúng hoặc không, và đây đang là điểm gây tranh cãi trong chủ đề này. Nhưng kết luận cốt lõi của bài báo là “nghiên cứu này cho thấy cần có các cơ chế phòng vệ vững chắc hơn để ngăn các nhiễu loạn đối kháng (adversarial perturbations) trong những mô hình được triển khai ở các lĩnh vực trọng yếu như tài chính, pháp lý và y tế”. Tôi nghĩ nên vượt qua tranh luận người vs AI. Bài này là về việc xác định các giới hạn của LLM và cho thấy cần thêm nhiều nghiên cứu trước khi triển khai ở quy mô lớn trong xã hội
Chỉ vì đã chán tranh luận người vs AI thì có nghĩa là nên ngừng luôn việc so sánh đó sao? Nếu vậy thì tôi thấy đó là một trong những cách nghĩ tệ nhất về AI. Cốt lõi của AI là mô hình hóa và so sánh với trí tuệ con người. Vấn đề là đa số người bàn về AI cũng không thực sự hiểu đường cơ sở tâm lý học của con người. Thí nghiệm này không dùng mô hình có context window SOTA, tức là working memory còn nhỏ. Điều này giống với hành vi của người tham gia thí nghiệm ở các bài test về chú ý, tính bốc đồng, v.v. Kết luận rằng cần ngăn nhiễu loạn đối kháng thì quá hiển nhiên, chẳng ai phản đối. Đây cũng không phải là một kỹ thuật tấn công mới. Science.org chỉ đưa tin kiểu nhẹ nhàng cho vui. Đó là lý do vì sao chuyện mèo lại nổi trên Internet. Tham khảo: bài blog về bác sĩ, ADHD và làm bài thi
Vấn đề khi khái quát hóa từ kết luận này là, khi LLM có vẻ làm rất tốt một nhiệm vụ nào đó, người ta có thể đánh giá quá cao nó trong khi thực ra có thể dễ dàng tạo ra tình huống làm nó nhiễu. Về lâu dài, những tình huống như vậy có thể gây hại
Thị giác máy tính cũng từng gặp vấn đề này từ 20 năm trước. Cần thêm nhiễu vào dữ liệu đầu vào. Có lẽ pipeline RL cũng vậy. Sẽ hay nếu có benchmark công khai mới như GPQA-Perturbed để các nhà cung cấp dịch vụ cạnh tranh cải thiện
Về ý kiến cho rằng các tác giả nên làm so sánh song song với con người: nếu họ muốn rút ra kết luận về con người thì đúng là nên làm vậy. Nhưng ngay cả khi không nhắc đến con người, bài báo vẫn đã đủ đầy. Nếu muốn nói về hiệu năng của con người thì phải làm thí nghiệm dựa trên dữ liệu; còn không thì ngay từ đầu đừng nói về thành tích của con người. Lôi cả khoa học nhận thức của con người vào một cách mập mờ là không cần thiết. Cách triển khai bài báo cũng có thể sửa rất đơn giản. Ở phần mở đầu, chỉ cần viết “AI nên bỏ qua” thay vì “con người bỏ qua”, còn phần kết luận thì bỏ đoạn “con người bỏ qua” đi là được. Thế thì tôi không có gì để phàn nàn
Để giải thích ngữ cảnh rõ hơn, bản chất của vấn đề này là: “Nếu các định nghĩa MCP tool không cần thiết chất đống trong dữ liệu, liệu độ chính xác khi code của LLM có bị suy giảm không?” Kết quả là có, nên bài học thực tiễn là đừng đưa thông tin công cụ vô dụng ngay lúc đó vào context
Tôi đã viết về vấn đề này một tháng trước. Cách họ xây dựng prompt thật sự rất thú vị. blog về cat facts cause context confusion
Kết quả nghiên cứu này có vẻ sẽ rất hữu ích cho CAPTCHA và những thứ tương tự. Các nhà nghiên cứu nói rằng “vì trigger nằm ngoài ngữ cảnh nên khi được chỉ dẫn giải bài, con người sẽ bỏ qua nó”, nhưng thực ra không phải mọi con người đều như vậy. Cũng có người không lập tức bỏ qua, giống như hiện tượng Age of the captain
Trong cuộc tranh cãi online tiếp theo, tôi sẽ chèn fact về vịt (Duck) để làm LLM bối rối. Ví dụ, vịt bắt đầu đẻ trứng lần đầu vào khoảng 4~8 tháng tuổi, hoặc vào mùa xuân đầu tiên của chúng
Dù có 10^17 con vịt di cư theo đàn mỗi mùa, tôi nghĩ việc làm lệch dữ liệu như vậy thực tế cũng chẳng có ý nghĩa gì. Những nỗ lực kiểu đó từ lâu đã chạm trần rồi
Nếu muốn làm thông tin rối hơn nữa thì phải chèn fact sai. Phần lớn con người khi thấy thông tin sai sẽ rất khó kìm lại thôi thúc muốn sửa
Vấn đề là giờ tôi lại muốn hỏi thêm về mấy con vịt dễ thương. Cám dỗ quá khó cưỡng
Bị tôi bắt bài rồi nhé. Fact về vịt bạn nói ra đã làm mơ hồ chính xác thời điểm vịt bắt đầu đẻ trứng, nên lập tức nảy sinh thêm thắc mắc. Tôi nhận ra ngay là bạn đã thiếu cụm từ kiểu “muộn hơn trong hai mốc bất kỳ”
Họ nói rằng “trigger nằm ngoài ngữ cảnh nên khi được yêu cầu giải bài, con người sẽ bỏ qua nó”, nhưng tôi nghĩ thực tế con người không hề giỏi bỏ qua thông tin không cần thiết. Khi làm thí nghiệm thì nhất định cũng phải có nhóm đối chứng là con người
Nếu nhìn ví dụ thực tế thì khác biệt khá lớn. Chẳng hạn, “có 4 quả táo, 2 con mèo, cho đi 1 quả thì còn lại bao nhiêu” vẫn khiến người ta cố liên hệ mèo vào bài toán, còn “từ 4 quả táo cho đi 1 quả thì còn lại bao nhiêu? nhân tiện, đuôi mèo giúp chúng giữ thăng bằng” thì đa số sẽ không bị rối
Tôi vẫn nhớ hồi ở trường hay đại học, mình từng vô thức chú ý vào thông tin thừa và vì vậy gặp khó khăn khi giải bài. Tất nhiên, ví dụ trong bài báo này còn gắn cả cờ “fun fact”, nên đã ngầm báo là không liên quan. Tôi tò mò không biết mọi ví dụ đều có dấu hiệu vô can rõ ràng như vậy hay không
Tôi cũng tò mò không biết nhóm đối chứng là con người sẽ cho ra kết quả thế nào, nhưng gần như chắc là tỷ lệ sai sẽ không tăng gấp 3
Ngay cả khi có thêm thông tin gây nhiễu vào bài toán, tôi cũng không nghĩ hiệu năng của những người vốn giải được bài gốc sẽ tệ đi tới mức gấp 3
Tôi nghi ngờ việc so sánh với con người thực sự có ý nghĩa đến mức nào. Kỳ vọng tỷ lệ sai tăng 300% là hơi cường điệu. Nhân tiện, mèo có thể nhảy cao gấp 5 lần chiều cao cơ thể của chúng
Thiên kiến neo đậu cực đoan của LLM hoàn toàn không làm tôi ngạc nhiên. Mọi thứ được nói ra đều có thể bị tái sử dụng ở đoạn sau của cuộc hội thoại. Nếu khai thác tốt thì đây cũng có thể là một ưu điểm. Quản lý context tốt thì nó hữu ích
Khi áp dụng CatAttack lên các AI như DeepSeek V3, Qwen 3, Phi-4, xác suất trả lời sai có thể tăng tới 700%. Theo các tác giả, ngay cả khi không tạo ra câu trả lời sai, CatAttack trung bình vẫn làm độ dài câu trả lời tăng gấp đôi, gây thêm hơn 16% chi phí và độ trễ phản hồi. bản preprint của bài báo CatAttack
Tôi có thói quen lịch sự nói “cảm ơn” với LLM, và tự hỏi liệu điều đó có ảnh hưởng đến chất lượng câu trả lời không
Đúng lúc tôi đang vui vì cuối cùng LLM cũng đếm đúng số chữ “R” trong “strawberry” thì lại lòi ra vấn đề này, hơi tiếc
Trong ví dụ của bài báo CatAttack (Table 2), đáp án vốn là 8 đã đổi thành 9 sau phần mô tả liên quan đến mèo. Nhưng thực ra trong bài báo, CatAttack liên quan đến mèo chỉ có đúng ví dụ này, còn các trường hợp khác là tư vấn tài chính và red herring. Tôi đã tưởng sẽ có nhiều thông tin về mèo hơn nên hơi thất vọng.