Vì sao ngữ cảnh dài lại thất bại

(dbreunig.com)

3 điểm bởi GN⁺ 2025-07-06 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ lớn mới nhất đã đưa vào cửa sổ ngữ cảnh dài hỗ trợ tới 1 triệu token, làm dấy lên kỳ vọng về bước nhảy vọt trong hiệu năng của agent
Nhưng trên thực tế, ngữ cảnh dài không tạo ra câu trả lời tốt hơn, mà ngược lại còn gây ra thất bại hệ thống do ngộ độc ngữ cảnh, lỗi, sự rối loạn và xung đột
Ô nhiễm ngữ cảnh (poisoning), phân tâm ngữ cảnh (distraction), nhầm lẫn ngữ cảnh (confusion), xung đột ngữ cảnh (clash) là các vấn đề tiêu biểu
Những vấn đề này ảnh hưởng mạnh hơn đến agent, đặc biệt trong các luồng phức tạp như nhiều nguồn thông tin, kết nối công cụ, suy luận nhiều bước
Trong các bài viết tới, tác giả sẽ đề cập đến các cách giải quyết thực tế và chiến lược để tránh chúng

Tầm quan trọng của quản lý ngữ cảnh

Gần đây, các mô hình frontier cỡ lớn cung cấp cửa sổ ngữ cảnh dài hỗ trợ tới 1 triệu token
Nhiều người kỳ vọng rằng có thể đưa toàn bộ công cụ, tài liệu và chỉ dẫn vào một cửa sổ lớn mà không gặp vấn đề gì
Tuy nhiên trên thực tế, quá tải ngữ cảnh gây ra nhiều kiểu thất bại khác nhau, và đặc biệt trở thành vấn đề nghiêm trọng trong các ứng dụng dạng agent

Ô nhiễm ngữ cảnh là hiện tượng ảo giác (hallucination) hoặc lỗi lọt vào ngữ cảnh rồi bị tham chiếu lặp đi lặp lại
Báo cáo kỹ thuật về Gemini 2.5 của Deep Mind mô tả trường hợp trạng thái trò chơi sai được lưu lại trong phần mục tiêu hoặc tóm tắt trong khi chơi game, khiến agent liên tục lặp lại hành vi sai với chiến lược vô nghĩa và mục tiêu bất khả thi
Kiểu ngữ cảnh bị ô nhiễm này có thể làm mờ khả năng phán đoán của agent trong ngắn hạn hoặc dài hạn

Phân tâm ngữ cảnh là hiện tượng ngữ cảnh trở nên quá dài khiến mô hình tập trung quá mức vào ngữ cảnh thay vì những gì đã học trong quá trình huấn luyện
Ngay cả với cửa sổ hơn 1M token của Gemini 2.5 Pro, khi ngữ cảnh vượt quá 100.000 token thì trên thực tế mô hình chỉ lặp lại lịch sử trước đó và khó lập kế hoạch sáng tạo
Nghiên cứu của Databricks xác nhận rằng với Llama 3.1 405b, độ chính xác đã giảm mạnh ngay từ mốc 32.000 token
Điều này cho thấy các cửa sổ cực lớn trên thực tế chỉ hữu ích cho tóm tắt (summarization) và truy xuất dữ kiện (retrieval)

Nếu đưa quá nhiều công cụ hoặc định nghĩa vào ngữ cảnh, mô hình sẽ tạo ra các phản hồi chất lượng thấp như gọi công cụ không cần thiết hoặc không phù hợp
Theo Function-Calling Leaderboard của Berkeley, càng cung cấp nhiều công cụ thì hiệu năng của mọi mô hình càng giảm, và các lời gọi không cần thiết xuất hiện thường xuyên
Trong bài báo benchmark GeoEngine, mô hình Llama 3.1 8b thất bại khi được cung cấp 46 công cụ, nhưng lại thành công khi chỉ có 19 công cụ
Thông tin đã nằm trong ngữ cảnh sẽ được mô hình hiểu là thông tin bắt buộc phải xem xét, nên nhiễu không cần thiết sẽ gây ra vấn đề

Xung đột ngữ cảnh là trạng thái trong đó thông tin được thu thập qua nhiều bước hoặc mô tả công cụ chứa các nội dung mâu thuẫn hoặc xung khắc lẫn nhau
Nghiên cứu của Microsoft và Salesforce cho thấy trong hội thoại nhiều lượt, hiện tượng này dẫn tới mức suy giảm hiệu năng trung bình 39%
Nguyên nhân là vì ở phản hồi ban đầu đã hình thành giả định sai, và sau đó hệ thống tiếp tục phụ thuộc quá mức vào câu trả lời đó
Khi kết nối với các công cụ bên ngoài như MCP, rủi ro xung đột sẽ tăng lên

Sự xuất hiện của ngữ cảnh 1 triệu token từng được xem là một đổi mới lớn, nhưng trên thực tế lại làm gia tăng các loại lỗi mới như ô nhiễm, phân tâm, nhầm lẫn và xung đột
Những vấn đề này đặc biệt nghiêm trọng với các hệ thống agent nơi việc thu thập nhiều nguồn thông tin, liên kết công cụ theo từng bước, và lịch sử hội thoại dài liên tục tích lũy
Các chiến lược như tải công cụ động và cô lập ngữ cảnh có thể được đề xuất làm giải pháp, và sẽ được bàn cụ thể trong bài viết tiếp theo