RAG chưa chết

(hamel.dev)

33 điểm bởi GN⁺ 2025-07-17 | 1 bình luận | Chia sẻ qua WhatsApp

Tương lai của RAG nằm ở "truy xuất tốt hơn", chứ không phải "cửa sổ ngữ cảnh lớn hơn"

Câu nói "RAG Is Dead" chỉ đúng với cách triển khai RAG đơn giản kiểu năm 2023; vấn đề thực sự nằm ở truy xuất dựa trên một vector duy nhất với mức thất thoát thông tin lớn
Các chỉ số đánh giá IR hiện có không phù hợp với RAG; cần bộ tiêu chí đánh giá mới tập trung vào độ bao quát sự thật, tính đa dạng và mức độ liên quan
Bộ truy xuất của RAG đang tiến hóa vượt khỏi việc khớp đơn thuần, theo hướng hiểu chỉ dẫn và chọn tài liệu liên quan dựa trên suy luận
Mô hình late interaction kiểu ColBERT giữ được biểu diễn ở cấp token mà không nén thông tin, cho phép mô hình nhỏ vượt qua mô hình lớn
Thay vì tìm một embedding hoàn hảo, nhiều chỉ mục cho các kiểu biểu diễn khác nhau cùng cấu trúc định tuyến thông minh đang trở thành tiêu chuẩn mới

Why the future of RAG lies in better retrieval, not bigger context windows

Part 1. I don’t use RAG, I just retrieve documents - Thứ đã chết là tìm kiếm vector đơn giản, không phải bản thân RAG

Hamel và Ben Clavié cho rằng RAG chưa chết, mà đúng hơn là đã đến lúc kiến trúc truy xuất cần tiến hóa
Cách làm đưa tài liệu vào vector DB rồi tìm bằng cosine similarity đã cũ và gây thất thoát thông tin lớn
Do thông tin của LLM bị cố định sau thời điểm huấn luyện, việc chèn thông tin dựa trên truy xuất (RAG) vẫn rất quan trọng
Chỉ tăng kích thước context window sẽ không phải là cách hiệu quả để đưa toàn bộ thông tin vào

Part 2. Modern IR Evals For RAG - Giải thích vì sao các chỉ số đánh giá IR truyền thống không phù hợp với RAG, đồng thời đề xuất FreshStack

Nandan Thakur chỉ ra rằng các chỉ số đánh giá truy hồi thông tin (IR) truyền thống không phù hợp với RAG
- Các benchmark như BEIR chỉ tối ưu cho việc tìm ra tài liệu đứng đầu
- RAG cần cân nhắc tổng hợp độ bao phủ sự thật, nhiều góc nhìn và mức độ liên quan theo ngữ cảnh
- Ông đề xuất FreshStack như một hệ thống đánh giá mới cho mục tiêu này

Part 3. Optimizing Retrieval with Reasoning Models - Thiết kế bộ truy xuất có thể hiểu chỉ dẫn và suy luận

Hệ thống Rank1 của Orion Weller có thể hiểu các chỉ dẫn phức tạp như "tài liệu có chứa ẩn dụ về quyền riêng tư dữ liệu"
Thay vì chỉ tính độ tương đồng đơn thuần, hệ thống tạo ra reasoning trace rõ ràng để đưa ra căn cứ đánh giá mức độ liên quan
Nhờ hiểu và suy luận, hệ thống có thể tìm được những tài liệu mà các hệ thống truy xuất cũ không thể tìm thấy

Part 4. Late Interaction Models For RAG - Duy trì biểu diễn mà không thất thoát thông tin nhờ kiến trúc như ColBERT

Antoine Chaffin cho thấy thông qua mô hình dựa trên late interaction như ColBERT, có thể
- không nén tài liệu thành một vector duy nhất mà giữ lại thông tin ở cấp token
- nhờ đó, thậm chí có trường hợp mô hình 150M tham số cho hiệu năng suy luận tốt hơn mô hình 7B
Cốt lõi là cấu trúc biểu diễn giúp bảo toàn thông tin thay vì loại bỏ nó

Part 5. RAG with Multiple Representations - Cải thiện hiệu năng truy xuất thông qua nhiều chỉ mục cho từng mục đích

Bryan Bischof và Ayush Chaurasia chỉ ra rằng một embedding duy nhất không thể đáp ứng nhiều mục tiêu truy xuất khác nhau
- Ví dụ: khi tìm kiếm một bức tranh
  - mô tả bằng chữ
  - diễn giải mang tính thi vị
  - hình ảnh tương tự
    sẽ lần lượt được tìm từ các chỉ mục khác nhau
Kết luận: đừng tìm một embedding hoàn hảo; hãy dùng nhiều chỉ mục theo từng kiểu biểu diễn khác nhau + hệ thống định tuyến thông minh

Bốn hướng sau được đưa ra như tương lai của RAG:

Loạt bài này gồm 5 phần và cung cấp bản tóm tắt có gắn mốc thời gian cho các slide chính. Xem liên kết của từng Part bên dưới

Phần	Tiêu đề	Mô tả
Part 1	I don’t use RAG, I just retrieve documents	Thứ đã chết là tìm kiếm vector đơn giản, không phải bản thân RAG
Part 2	Modern IR Evals For RAG	Giải thích vì sao các chỉ số IR truyền thống không phù hợp với RAG, đồng thời đề xuất FreshStack
Part 3	Optimizing Retrieval with Reasoning Models	Thiết kế bộ truy xuất có thể hiểu chỉ dẫn và suy luận
Part 4	Late Interaction Models For RAG	Duy trì biểu diễn mà không thất thoát thông tin nhờ kiến trúc như ColBERT
Part 5	RAG with Multiple Representations	Cải thiện hiệu năng truy xuất thông qua nhiều chỉ mục cho từng mục đích

ide127 2025-07-18

"Đừng tìm kiếm embedding hoàn hảo, mà hãy xây dựng hệ thống đa chỉ mục + định tuyến thông minh phù hợp với nhiều cách biểu đạt khác nhau"

Vì điều đó đâu có dễ...