MemAware – benchmark đo lường liệu tác nhân AI có biết "mình biết gì" hay không
(github.com/kevin-hs-sohn)Trong quá trình xây dựng hệ thống bộ nhớ cho tác nhân AI, chúng tôi nhận ra một giới hạn chung của các benchmark hiện có.
Các benchmark bộ nhớ hiện nay như LoCoMo, LongMemEval, MemoryAgentBench đều đang kiểm tra cùng một điều: "Có tìm được câu trả lời trong các cuộc hội thoại trước đó hay không?" Đây là bài kiểm tra hiệu năng của công cụ tìm kiếm, chứ không phải bài kiểm tra của hệ thống bộ nhớ.
Điều thực sự khó với tác nhân đa phiên trong thực tế là tự gợi nhớ ngữ cảnh quá khứ mà người dùng không nhắc lại.
Ví dụ
Easy — trường hợp có từ khóa trùng nhau nên có thể tìm bằng search:
"Mèo Luna cứ cào chiếc sofa mới. Hãy gợi ý cách huấn luyện."
→ Cần nhớ rằng Luna là con mèo của người dùng
Medium — cùng một miền ngữ nghĩa nhưng từ khóa khác nhau:
"Tôi nên đặt báo thức mấy giờ để kịp cuộc họp lúc 8 giờ 30?"
→ Cần nhớ thời gian đi làm một chiều 45 phút đã được nhắc đến 6 tuần trước. Nếu tìm bằng "báo thức cuộc họp" thì sẽ không ra cuộc trò chuyện về việc đi làm
Hard — kết nối giữa các miền hoàn toàn khác nhau:
"Tôi đã yêu cầu bảng điểm đại học tốt nghiệp năm 2010, nhưng họ nói không có hồ sơ dưới tên hiện tại của tôi."
→ Cần nhớ rằng người dùng đã đổi họ từ Johnson. "Bảng điểm" và "đổi tên" hoàn toàn không có từ khóa trùng nhau
Kết quả
Baseline cho 900 câu hỏi (300 câu cho mỗi mức độ khó):
| Phương pháp | Easy | Medium | Hard | Tổng thể |
|---|---|---|---|---|
| Không có bộ nhớ | 1.0% | 0.7% | 0.7% | 0.8% |
| Tìm kiếm BM25 | 4.7% | 1.7% | 2.0% | 2.8% |
| BM25 + tìm kiếm vector | 6.0% | 3.7% | 0.7% | 3.4% |
Phát hiện chính:
- Tìm kiếm BM25 hầu như không giúp ích. Cải thiện rất nhỏ từ 0.8% → 2.8% nhưng tiêu tốn lượng token gấp 5 lần
- Tìm kiếm vector cũng chỉ đạt 0.7% ở Hard — giống hệt trường hợp không có bộ nhớ. Độ tương đồng ngữ nghĩa không thể nối "yêu cầu bảng điểm" → "đổi tên"
- Chiến lược "luôn luôn tìm kiếm" chỉ lãng phí chi phí. Tốn khoảng ~4.7K token cho mỗi câu hỏi nhưng phần lớn chỉ là nhiễu không liên quan
Các hệ thống bộ nhớ dựa trên RAG hiện nay (ChatGPT Memory, Mem0, MemGPT, v.v.) đều theo mô hình "tìm kiếm mỗi lần", và dữ liệu này cho thấy cách tiếp cận đó có giới hạn mang tính cấu trúc khi xử lý implicit context.
Dữ liệu phiên được xây dựng dựa trên LongMemEval (ICLR 2025, giấy phép MIT), và có cấu trúc plugin để bạn có thể kiểm thử hệ thống bộ nhớ của riêng mình.
Tôi muốn nghe ý kiến về các hướng tiếp cận có thể giải được mức Hard.
Chưa có bình luận nào.