Giảm thêm tới 25% so với các kỹ thuật nén KV hiện có, hiệu năng còn được cải thiện — CASK
(arxiv.org)CASK là một bài báo đề xuất cách tiếp cận mang tính cấu trúc (dựa trên vai trò),
không phải phương pháp pruning dựa trên mức độ quan trọng của token hiện có,
nhằm giải quyết vấn đề KV cache tăng lên trong quá trình suy luận của LLM.
Nghiên cứu này cũng đáng chú ý ở chỗ được hoàn thành chỉ trong 5 ngày và là kết quả của 2 nhà nghiên cứu độc lập, không có giáo sư hướng dẫn.
📌 Định nghĩa vấn đề
Khi suy luận chain-of-thought dài, KV cache tăng nhanh, dẫn đến:
- Mức sử dụng bộ nhớ tăng vọt
- Độ trễ suy luận tăng
- Hiệu năng reasoning dài hạn suy giảm
Cách làm hiện có:
- Dựa trên chấm điểm mức độ quan trọng của token
- Evict các token có điểm thấp
❌ Giới hạn của cách làm hiện có
Kết quả thực nghiệm trong bài báo:
- Dù cải thiện tinh vi cơ chế chấm điểm importance
→ thay đổi trong tập token thực sự được giữ lại vẫn rất hạn chế
Nói cách khác,
- Chỉ cải thiện chiến lược eviction thôi
vẫn có giới hạn trong việc nâng cao hiệu năng và hiệu quả
🔥 Ý tưởng cốt lõi
CASK phân tách token không theo mức độ quan trọng mà theo vai trò.
Core
- Đóng góp trực tiếp vào việc tạo đầu ra cuối cùng
- Trạng thái cốt lõi của reasoning
- Luôn được giữ lại
Scratch
- Các trạng thái được tạo ra trong quá trình tính toán trung gian, khám phá
- Có thể chứa thông tin trùng lặp hoặc không cần thiết
- Đối tượng được nén và hợp nhất
⚙️ Cách hoạt động
Prefix Phase
- Giai đoạn đầu vào (prompt)
- Thực hiện một phần KV eviction
Decode Phase
- Giai đoạn diễn ra suy luận
- Chỉ áp dụng nén có chọn lọc cho vùng Scratch
👉 Khác biệt so với trước đây:
- Xóa đơn thuần → bảo toàn có chọn lọc + nén mang tính cấu trúc
📊 Hiệu năng
Theo kết quả trong bài báo:
-
So với các kỹ thuật nén KV hiện có
→ tiết kiệm thêm tới 25% bộ nhớ -
Với cùng ngân sách KV cache
→ duy trì độ chính xác cao hơn -
Ở một số đoạn
→ đạt hiệu năng cao hơn với ít KV cache hơn
Ví dụ:
- CASK (KV 384) > cách làm hiện có (KV 512)
👉 Đồng thời đạt được giảm sử dụng bộ nhớ + cải thiện hiệu năng
📌 Đặc điểm kỹ thuật
- token-level pruning → structure-aware compression
- lấy eviction làm trung tâm → chiến lược preserve + reuse
- Tăng cường tái sử dụng thông tin trong quá trình reasoning
📌 Ý nghĩa
CASK chuyển hướng tối ưu hóa KV cache
- từ “sẽ bỏ đi bao nhiêu”
- sang “những gì nhất định phải được giữ lại”
Đó là một cách tiếp cận như vậy.
🚀 Tóm tắt
- Giảm thêm tối đa 25% KV cache
- Đảm bảo hiệu năng suy luận tương đương hoặc cao hơn
- Đề xuất phương thức quản lý KV dựa trên cấu trúc
2 bình luận
Nếu anh/chị đã sử dụng AI khi viết bài báo, tôi tò mò không biết anh/chị đã dùng như thế nào. Tôi hỏi vì phần nói rằng đã tiến hành từ khâu lên ý tưởng đến thí nghiệm chỉ trong 5 ngày khiến tôi rất ấn tượng.
Vì không thể chỉnh sửa nên mình để lại bổ sung tại đây!
Liên kết bài báo
https://arxiv.org/abs/2604.10900
Liên kết GitHub
https://github.com/Skyline-23/CASK