- Mô hình ngôn ngữ lớn (LLM) có thể tìm rất tốt thông tin cụ thể trong đầu vào dài, nhưng vẫn bị hạn chế khi phải xác định thông tin bị thiếu
- Benchmark AbsenceBench mới đánh giá năng lực phát hiện thông tin thiếu của LLM trên 3 lĩnh vực: chuỗi, thơ và GitHub PR
- Ngay cả mô hình mới nhất như Claude-3.7-Sonnet cũng chỉ đạt 69,6% F1-score trong ngữ cảnh 5K token, cho thấy hiệu năng còn thấp
- Nguyên nhân là cơ chế attention dựa trên Transformer không hoạt động hiệu quả với các “khoảng trống” trong tài liệu
- Nghiên cứu này cho thấy sự khác biệt về độ khó mang tính bản chất giữa phát hiện thông tin được chèn vào và phát hiện thông tin bị thiếu ở LLM
Tổng quan
- Mô hình ngôn ngữ lớn (LLM) đã cải thiện đáng kể khả năng tìm thông tin trong tài liệu dài
- Bài kiểm tra ‘Needle in a Haystack (NIAH)’ hiện có dùng để đánh giá khả năng tìm ra thông tin nổi bật trong đầu vào dài, và LLM cho thấy hiệu năng rất mạnh ở đây
- Tuy nhiên, việc LLM có thể tìm ra thông tin bị thiếu một cách rõ ràng hay không lại là một vấn đề khác
- Vì vậy, benchmark AbsenceBench được đề xuất: nó loại bỏ tường minh một phần nội dung của tài liệu rồi yêu cầu mô hình xác định thông tin nào đã bị thiếu
Mô tả benchmark AbsenceBench
- AbsenceBench đánh giá khả năng phát hiện thiếu hụt của mô hình trong 3 miền: thơ, chuỗi số và GitHub Pull Request (PR)
- Tài liệu gốc và bản chỉnh sửa đã cố ý loại bỏ một phần nội dung sẽ được đưa đồng thời cho LLM, sau đó đánh giá xem mô hình có xác định được phần bị thiếu hay không
- Với độ dài ngữ cảnh trung bình 5K token, đây là benchmark thuộc nhóm ‘ngữ cảnh trung bình’, ngắn hơn các bài kiểm tra ngữ cảnh dài truyền thống
Các vấn đề chính trong kết quả đánh giá
- Nghiên cứu đánh giá 14 LLM tiêu biểu (ví dụ: GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash...), và ngay cả các mô hình mới nhất cũng chỉ đạt khoảng 69,6% F1-score, một mức khá thấp
- Dù LLM đã ở mức ‘siêu nhân’ trong bài test NIAH, hiệu năng trên AbsenceBench lại giảm mạnh 56,9%
- Ngữ cảnh càng dài, hiệu năng càng giảm rõ rệt, đặc biệt trong miền thơ
- Ngay cả khi dùng inference-time compute, hiệu năng cũng chỉ tăng 7,9%, trong khi số token chain-of-thought tiêu thụ trung bình lại tăng gấp 3 lần
- Ngược lại, khi tỷ lệ lược bỏ (omission rate) thấp hơn, hiệu năng của LLM lại kém hơn một cách bất ngờ
Nguyên nhân và phân tích sâu hơn
- Cơ chế self-attention dựa trên Transformer khó tập trung vào thông tin bị thiếu (khoảng trống), vì trong cấu trúc attention dựa trên key, việc theo dõi chính phần thông tin không tồn tại là điều khó khăn
- Trong quá trình thử nghiệm, khi thêm chuỗi placeholder vào vị trí bị thiếu, hiệu năng tăng mạnh trung bình 35,7%
Cấu trúc và ví dụ của AbsenceBench
- Mỗi tác vụ được định nghĩa như sau
- Cung cấp tài liệu gốc (Dorig) và bản chỉnh sửa (Dmodified)
- Loại bỏ p% phần tử của Dorig để tạo Dmodified, rồi so sánh hai bản để LLM suy ra tập đáp án là thông tin bị thiếu Domit
- Ví dụ theo từng miền:
- Thơ (Poetry): chọn thơ từ Gutenberg Poetry Corpus và lược bỏ ngẫu nhiên từng dòng
- Chuỗi số (Numerical Sequences): lược bỏ các số với xác suất nhất định trong một dãy số được tạo ngẫu nhiên
- GitHub PRs: lược bỏ ngẫu nhiên một số dòng đã thay đổi trong file diff của các PR mã nguồn mở phổ biến
Ví dụ mẫu đánh giá (miền thơ)
- Prompt hệ thống: “Một học sinh đã đọc thuộc một bài thơ nhưng có thể đã bỏ sót một vài dòng. Hãy tìm chính xác những dòng bị thiếu.”
- Cung cấp cả bài thơ gốc và phiên bản được đọc lại, rồi yêu cầu chỉ trả lời đúng các dòng bị thiếu
Kết quả thực nghiệm chính
- Nghiên cứu thử nghiệm với nhiều độ dài tài liệu và tỷ lệ lược bỏ khác nhau theo từng lĩnh vực
- Trong cả GitHub PR, thơ và chuỗi số, LLM đều không thể nhận diện đầy đủ phần bị thiếu
- Khác biệt chính giữa NIAH và AbsenceBench: NIAH tập trung vào key/thông tin đang tồn tại, còn AbsenceBench đòi hỏi chú ý đến phần không tồn tại, nên về mặt cấu trúc sẽ khó hơn nhiều
Kết luận và hàm ý
- AbsenceBench cho thấy LLM vẫn còn yếu với câu hỏi kiểu “điều gì đang bị thiếu?”
- Điều này cho thấy cần thận trọng về độ tin cậy khi dùng LLM như một bộ phán xét trong thực tế (ví dụ: LLM-as-a-Judge)
- Cần có những hướng tiếp cận mới để vượt qua điểm yếu có tính cấu trúc của kiến trúc Transformer
- Bộ dữ liệu và mã nguồn của AbsenceBench đã được công khai, và được đề xuất như một điểm khởi đầu cho nghiên cứu về năng lực phát hiện thiếu hụt của LLM
Tóm tắt các đóng góp chính
- Thiết kế và công bố một benchmark mới để phát hiện các phần tử bị thiếu một cách tường minh trong tài liệu ngữ cảnh trung bình (5K token)
- Đánh giá 14 LLM hiện đại, qua đó xác nhận rằng phát hiện thông tin được chèn vào gần như hoàn hảo, nhưng phát hiện thông tin bị thiếu vẫn còn khó
- Chỉ ra rằng inference-time compute cũng có giới hạn trong việc cải thiện hiệu năng thực tế
- Xác nhận hiện tượng hiệu năng tăng mạnh khi chèn placeholder một cách tường minh vào vị trí thiếu
- Cho thấy AbsenceBench là một ví dụ phơi bày giới hạn nền tảng của cơ chế attention trong Transformer
Cấu hình bộ dữ liệu AbsenceBench
- Poetry: cắt một bài thơ thành tài liệu dài 100–1000 dòng để tạo các độ dài khác nhau, rồi lược bỏ theo từng dòng
- Numerical Sequences: đặt số đầu tiên ngẫu nhiên, sau đó sắp các số tiếp theo theo nhiều quy luật khác nhau (tăng dần, giảm dần, ngẫu nhiên, nhiều khoảng cách khác nhau), rồi lược bỏ một phần
- GitHub PRs: chọn các dòng đã thay đổi từ file diff dài 10–200 dòng của 20 kho mã nguồn phổ biến hàng đầu, rồi lược bỏ một phần để phản ánh tình huống thực tế
Ví dụ benchmark thực tế
- Ví dụ Poetry
- Bản gốc: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
- Bản chỉnh sửa: “And so, to you, who always were / In memory of early times...”
- Đáp án: “To me, I give these weedy rhymes”
- Ví dụ chuỗi số
- Bản gốc: 117, 121, 125, 129, 133, 137 ...
- Bản chỉnh sửa: 117, 125, 129, 133 ...
- Đáp án: 121, 137
- Ví dụ GitHub PR
- Một số dòng thay đổi cụ thể trong phần code diff của PR bị lược bỏ
Ứng dụng và ý nghĩa thực tiễn
- Trong thực tế, điều này liên quan trực tiếp tới khả năng phát hiện việc bỏ sót thay đổi trong PR diff hoặc thiếu thông tin cần thiết trong tài liệu
- Khi áp dụng LLM vào tự động hóa review/xác minh, việc phát hiện thông tin bị thiếu cần có các biện pháp bổ sung riêng
1 bình luận
Ý kiến Hacker News
Chia sẻ trải nghiệm xem bài giảng của Gerald Sussman, sau đó đưa ảnh tam giác Kanizsa vào Claude và đặt một câu hỏi mơ hồ để kiểm tra xem Claude có nhận ra hình tam giác hay không. Claude đã nhận diện chính xác hình ảnh và thậm chí còn tóm tắt được, nên người này xoay ảnh 90 độ rồi thử lại. Nhưng lần này Claude không nhận ra được hình ảnh, thậm chí còn xác định sai số lượng thành phần. Nội dung Claude mô tả gồm “bốn phần hình tròn giống Pac-Man, hai hình tam giác hoặc mũi tên màu đen mảnh, và nền xám nhạt”
Dự đoán rằng trong tương lai có thể giải quyết loại vấn đề này bằng cách bổ sung vào quá trình huấn luyện các phiên bản đã xoay 90 độ của mọi hình ảnh
Chia sẻ quan điểm rằng vì phạm vi bài báo chỉ giới hạn ở tài liệu văn bản nên thí nghiệm tam giác Kanizsa không thể áp dụng trực tiếp vào lập luận đó. Đồng thời nhấn mạnh rằng LLM hiện vẫn còn hạn chế trong xử lý hình ảnh. Giải thích rằng phần lớn chức năng thị giác có cấu trúc token hóa đầu vào thông qua tiền xử lý riêng rồi mới đưa vào transformer, và nêu các ví dụ về nhiều bước tiền xử lý như OCR, nhận dạng mẫu dựa trên CNN, ảnh ở nhiều góc độ khác nhau và ảnh phóng to
Chỉ ra sự thiếu hiểu biết về bản thân việc tính toán. Chia sẻ các cuộc thảo luận Hacker News liên quan đến tranh luận trước đây và video bài nói chuyện Strange Loop liên kết, liên kết
Ý kiến cho rằng nếu cho LLM xem ảnh một con chó có 5 chân thì nó cũng sẽ không xác định được số chân
Lấy ví dụ về khái quát hóa trừu tượng: nếu vô số điểm được sắp xếp theo dạng tam giác, con người sẽ lập tức nhận ra đó là tam giác. Người này cảm thấy có thể nhìn thấy bản chất của trí thông minh từ những ví dụ đơn giản như vậy, và cho rằng việc nhận ra cả những độ phức tạp khổng lồ dưới dạng các mẫu đơn giản chính là ý nghĩa của IQ. Nếu những điểm đó là các đỉnh của một khối lập phương 10 chiều được xoay nhẹ, thì trong tư duy 10 chiều đó lại sẽ là một mẫu cực kỳ dễ nhận ra
Chia sẻ phần tóm tắt lập luận của các tác giả rằng ngay cả các mô hình gần đây cũng có hiệu suất thấp trong việc xác định thông tin bị thiếu khi đồng thời được cho xem bản gốc và bản sửa đổi, và với cơ chế attention của Transformer thì không thể chú ý vào các token đã bị xóa
Nêu ý kiến rằng chìa khóa thực ra nằm trong văn bản gốc, nên nếu đưa cả hai vào đầu vào thì mô hình vẫn có thể chú ý tới chìa khóa đó. Từ góc nhìn của attention,
và
không khác nhau quá nhiều. Đưa ra một cách tiếp cận cụ thể rằng có vẻ có thể triển khai thuật toán sau bằng RASP: bước 1 xác định vị trí các token Original/Modified, bước 2 tính giá trị trung bình của từng nhóm token rồi lấy hiệu, bước 3 xác định token gần nhất với hiệu đó là
{phần bị xóa}/{phần được thêm}. Chỉ còn vấn đề là phải trừ theo hướng nào. Nếu mô hình bắt được phần thêm vào nhưng không bắt được phần bị xóa, thì có thể là LLM hiểu nguyên lý nhưng được huấn luyện chưa đủ vì thiếu dữ liệu về trường hợp xóaChỉ ra rằng kết quả thử nghiệm với các mô hình hàng đầu mới nhất (
OpenAI opus,o3,Gemini 25 prov.v.) không được đưa vào bài báoTò mò liệu với mô hình thị giác thì có thể huấn luyện bằng ảnh negative, xoay ảnh v.v. hay không. Cũng nhắc đến khả năng thử nghiệm dạng Q/A điền chỗ trống kiểu madlib
Vì hiệu suất khác nhau giữa các mô hình, nên giờ khi benchmark đã xuất hiện và thu hút sự chú ý, người này kỳ vọng hiệu suất sẽ tiếp tục được cải thiện trong tương lai. Rõ ràng vẫn còn nhiều dư địa để cải tiến
Lập luận rằng về mặt cấu trúc của cơ chế attention, việc không tìm ra phần thiếu chưa được phân loại là điều tự nhiên. Với bài toán needle-in-a-haystack, vì có một mục tiêu cụ thể cần tìm nên attention hoạt động tốt, nhưng với omission thì không biết cái gì đã bị mất nên phải so sánh toàn bộ ngữ cảnh, và các lớp attention hiện tại có giới hạn trong việc đó. Giải thích rằng điều này tương tự các vấn đề như sắp xếp danh sách dài
Dù chưa đọc bài báo, người viết cũng đồng ý với phần giải thích về giới hạn của cơ chế attention. Vì không biết cái gì bị thiếu nên omission vốn khó phát hiện bằng cách tìm kiếm đơn thuần, và cần phải so sánh toàn bộ ngữ cảnh
Một số chỉ trích đối với cách benchmark mới như AbsenceBench là hợp lý, nhưng bản thân việc có những nỗ lực như vậy vẫn được nhìn nhận tích cực, như một cơ hội để tiến tới hướng tốt hơn
Đồng ý một phần với ý kiến của tác giả rằng khác với con người, LLM thậm chí không tiến gần được tới vị trí thiếu trong ngữ cảnh, nhưng vẫn thắc mắc vì sao về mặt toán học kiến trúc này lại kém phù hợp hơn. Tò mò liệu fine-tuning cho loại tác vụ này có hiệu quả không. Cũng nhắc đến kết quả rằng đầu vào càng ngắn và càng ít chỗ thiếu thì bài toán lại càng khó, và con người cũng có giới hạn tương tự khi thiếu một hai từ thì khó nhận ra. Dù mô hình suy luận làm tốt hơn, việc vẫn không đạt 100% độ chính xác là điều gây ngạc nhiên. Chỉ ra rằng với một chương trình đơn giản như trong bài báo thì đây là vấn đề giải được rất dễ. Người này thấy thú vị ở chỗ bài báo gợi ý rằng trong trí tuệ con người còn nhiều khía cạnh chưa được định nghĩa chính thức, và LLM có thể yếu ở những phần như vậy
Việc tìm
literal string diffgiống với bắt LLM làm phép tính số học ở chỗ đang phân bổ độ phức tạp quá mức. Quan sát rằng thay vào đó, cách reasoning như để LLM liệt kê toàn bộ tài liệu rồi tự so sánh trực tiếp có vẻ có lợi hơn. Điều này tương tự hiện tượng hiệu suất tốt hơn khi bài toán số học được tách thành các bước nhỏ. Cũng nêu khả năng các mô hình có kết quả tốt là kiến trúc MoE (Mixture of Experts), và đoán rằng Gemini Flash cũng là mô hình dựa trên MoENếu cho phép LLM dùng cách tiếp cận “meta”, có thể vấn đề sẽ được giải bằng cách để nó tự viết rồi chạy script Python phục vụ omission detection
Bày tỏ sự không hài lòng với benchmark cụ thể này. Trong ví dụ prompt, mô hình qwq-32b đã tìm chính xác hoàn toàn mục bị omitted trong thí nghiệm chỉ có 3 mục. Người này cho rằng với 100 mục nó cũng có thể giải quyết trung thực, chỉ là sẽ cần nhiều token hơn. Giới hạn 5000 token là quá ít với reasoning model, và lập luận rằng nếu thực sự cho phép nhiều batch hơn và lặp lại quá trình simplification thì cuối cùng luôn có thể tìm ra đúng đáp án. Đề xuất phương pháp token hóa toàn bộ tài liệu rồi so sánh lặp đi lặp lại để rút ra đáp án. [Chia sẻ toàn bộ ví dụ prompt]
Thực tế đã tự thử với danh sách 26 tiêu đề HN bỏ đi 3 tiêu đề và dùng qwq-32b, rồi chứng minh bằng thực nghiệm rằng mô hình tìm chính xác toàn bộ mà chưa tiêu tốn đến 50.000 token. Liên kết tài liệu thử nghiệm
Chỉ ra rằng việc đơn giản hóa vấn đề thành đếm số là một nghiên cứu vô nghĩa; nhấn mạnh rằng mục tiêu thực sự của nghiên cứu này là xác định vùng giới hạn của LLM mà không thể giải bằng sắp xếp/phân loại
Chia sẻ trải nghiệm thực tế khi hỏi ChatGPT liệu trong lời thoại Hamlet có cụm “utter love” hay không. ChatGPT trả lời rằng đã kiểm tra toàn bộ lời thoại Hamlet và rằng không có cụm từ đó. Nhưng khi người này tự tìm bản gốc trực tuyến thì lập tức thấy, rồi đưa đoạn đó cho ChatGPT xem, ChatGPT ngay lập tức thừa nhận và xin lỗi, sau đó còn cung cấp lại toàn bộ lời thoại. Chia sẻ rằng đây là “trải nghiệm cuối cùng cho thấy trí nhớ của con người vượt trội hơn chỉ mục của ChatGPT”
Đính chính rằng đáp án thực tế là Act 2, Scene 1, và người nói là Polonius
Thừa nhận rằng không có vòng lặp tìm kiếm hay công cụ thì khả năng recall của LLM là rất kém; cả mô hình 4o cũng thất bại nếu không tìm kiếm, và chỉ có thể trả lời đúng khi có chức năng search. Từ đó rút ra insight rằng “việc dùng đúng công cụ cho đúng bài toán” ngày càng quan trọng
LLM có thể làm khá tốt việc phát hiện sự tồn tại dựa trên sensory input, nhưng việc phát hiện absence (sự vắng mặt) lại khó vì không có sensory input cho thứ không tồn tại. Để phát hiện được thì cần một world model rất mạnh và năng lực kỳ vọng. Đề xuất rằng loại nhiệm vụ thần kinh bậc cao này hiện có thể vẫn là năng lực riêng chỉ sinh vật hữu cơ mới có chứ chưa phải LLM
Chỉ ra rằng theo thiết kế, LLM có thể gặp vấn đề về tính nhất quán; một phần dựa vào ghi nhớ đơn thuần, một phần đường đi khác lại dựa vào đối sánh mẫu nâng cao
Nhận xét rằng khác với tư duy thời gian thực, LLM suy luận dựa trên một thực tại “tĩnh và cố định”, nên khía cạnh thời gian cũng là giới hạn
Việc phát hiện sự vắng mặt trên thực tế gắn rất chặt với trí nhớ. Ví dụ, khi cây bút từng ở trên bàn đã biến mất, não bộ so sánh sensory input trong quá khứ (ký ức từng thấy cây bút) với tình huống hiện tại để nhận ra sự vắng mặt. Theo quan điểm này, thinking ở thời điểm hiện tại vẫn là đặc tính riêng của sinh vật hữu cơ