RAG chưa chết
(hamel.dev)> Tương lai của RAG nằm ở "truy xuất tốt hơn", chứ không phải "cửa sổ ngữ cảnh lớn hơn"
- Câu nói "RAG Is Dead" chỉ đúng với cách triển khai RAG đơn giản kiểu năm 2023; vấn đề thực sự nằm ở truy xuất dựa trên một vector duy nhất với mức thất thoát thông tin lớn
- Các chỉ số đánh giá IR hiện có không phù hợp với RAG; cần bộ tiêu chí đánh giá mới tập trung vào độ bao quát sự thật, tính đa dạng và mức độ liên quan
- Bộ truy xuất của RAG đang tiến hóa vượt khỏi việc khớp đơn thuần, theo hướng hiểu chỉ dẫn và chọn tài liệu liên quan dựa trên suy luận
- Mô hình late interaction kiểu ColBERT giữ được biểu diễn ở cấp token mà không nén thông tin, cho phép mô hình nhỏ vượt qua mô hình lớn
- Thay vì tìm một embedding hoàn hảo, nhiều chỉ mục cho các kiểu biểu diễn khác nhau cùng cấu trúc định tuyến thông minh đang trở thành tiêu chuẩn mới
Why the future of RAG lies in better retrieval, not bigger context windows
Phản biện nhận định “RAG đã chết”
> Part 1. I don’t use RAG, I just retrieve documents - Thứ đã chết là tìm kiếm vector đơn giản, không phải bản thân RAG
- Hamel và Ben Clavié cho rằng RAG chưa chết, mà đúng hơn là đã đến lúc kiến trúc truy xuất cần tiến hóa
- Cách làm đưa tài liệu vào vector DB rồi tìm bằng cosine similarity đã cũ và gây thất thoát thông tin lớn
- Do thông tin của LLM bị cố định sau thời điểm huấn luyện, việc chèn thông tin dựa trên truy xuất (RAG) vẫn rất quan trọng
- Chỉ tăng kích thước context window sẽ không phải là cách hiệu quả để đưa toàn bộ thông tin vào
Chỉ số đánh giá sai lệch
> Part 2. Modern IR Evals For RAG - Giải thích vì sao các chỉ số đánh giá IR truyền thống không phù hợp với RAG, đồng thời đề xuất FreshStack
- Nandan Thakur chỉ ra rằng các chỉ số đánh giá truy hồi thông tin (IR) truyền thống không phù hợp với RAG
- Các benchmark như BEIR chỉ tối ưu cho việc tìm ra tài liệu đứng đầu
- RAG cần cân nhắc tổng hợp độ bao phủ sự thật, nhiều góc nhìn và mức độ liên quan theo ngữ cảnh
- Ông đề xuất FreshStack như một hệ thống đánh giá mới cho mục tiêu này
Bộ truy xuất biết suy luận
> Part 3. Optimizing Retrieval with Reasoning Models - Thiết kế bộ truy xuất có thể hiểu chỉ dẫn và suy luận
- Hệ thống Rank1 của Orion Weller có thể hiểu các chỉ dẫn phức tạp như "tài liệu có chứa ẩn dụ về quyền riêng tư dữ liệu"
- Thay vì chỉ tính độ tương đồng đơn thuần, hệ thống tạo ra reasoning trace rõ ràng để đưa ra căn cứ đánh giá mức độ liên quan
- Nhờ hiểu và suy luận, hệ thống có thể tìm được những tài liệu mà các hệ thống truy xuất cũ không thể tìm thấy
Tiềm năng của mô hình late interaction
> Part 4. Late Interaction Models For RAG - Duy trì biểu diễn mà không thất thoát thông tin nhờ kiến trúc như ColBERT
- Antoine Chaffin cho thấy thông qua mô hình dựa trên late interaction như ColBERT, có thể
- không nén tài liệu thành một vector duy nhất mà giữ lại thông tin ở cấp token
- nhờ đó, thậm chí có trường hợp mô hình 150M tham số cho hiệu năng suy luận tốt hơn mô hình 7B
- Cốt lõi là cấu trúc biểu diễn giúp bảo toàn thông tin thay vì loại bỏ nó
Không phải một bản đồ, mà cần nhiều bản đồ
> Part 5. RAG with Multiple Representations - Cải thiện hiệu năng truy xuất thông qua nhiều chỉ mục cho từng mục đích
- Bryan Bischof và Ayush Chaurasia chỉ ra rằng một embedding duy nhất không thể đáp ứng nhiều mục tiêu truy xuất khác nhau
- Ví dụ: khi tìm kiếm một bức tranh
- mô tả bằng chữ
- diễn giải mang tính thi vị
- hình ảnh tương tự
sẽ lần lượt được tìm từ các chỉ mục khác nhau
- Ví dụ: khi tìm kiếm một bức tranh
- Kết luận: đừng tìm một embedding hoàn hảo; hãy dùng nhiều chỉ mục theo từng kiểu biểu diễn khác nhau + hệ thống định tuyến thông minh
Chiến lược tương lai của RAG
Bốn hướng sau được đưa ra như tương lai của RAG:
- Xây dựng tiêu chí đánh giá mới phù hợp với mục đích sử dụng
- Bộ truy xuất có thể hiểu chỉ dẫn và suy luận
- Cấu trúc biểu diễn giữ nguyên thông tin thay vì nén nó
- Cách kết hợp nhiều chỉ mục theo từng mục đích và định tuyến thông minh
Annotated Notes From the Series
Loạt bài này gồm 5 phần và cung cấp bản tóm tắt có gắn mốc thời gian cho các slide chính. Xem liên kết của từng Part bên dưới
| Phần | Tiêu đề | Mô tả |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | Thứ đã chết là tìm kiếm vector đơn giản, không phải bản thân RAG |
| Part 2 | Modern IR Evals For RAG | Giải thích vì sao các chỉ số IR truyền thống không phù hợp với RAG, đồng thời đề xuất FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | Thiết kế bộ truy xuất có thể hiểu chỉ dẫn và suy luận |
| Part 4 | Late Interaction Models For RAG | Duy trì biểu diễn mà không thất thoát thông tin nhờ kiến trúc như ColBERT |
| Part 5 | RAG with Multiple Representations | Cải thiện hiệu năng truy xuất thông qua nhiều chỉ mục cho từng mục đích |
1 bình luận
"Đừng tìm kiếm embedding hoàn hảo, mà hãy xây dựng hệ thống đa chỉ mục + định tuyến thông minh phù hợp với nhiều cách biểu đạt khác nhau"
Vì điều đó đâu có dễ...