Giảm thêm tới 25% so với các kỹ thuật nén KV hiện có, hiệu năng còn được cải thiện — CASK

(arxiv.org)

9 điểm bởi skyline23 7 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

CASK là một bài báo đề xuất cách tiếp cận mang tính cấu trúc (dựa trên vai trò),
không phải phương pháp pruning dựa trên mức độ quan trọng của token hiện có,
nhằm giải quyết vấn đề KV cache tăng lên trong quá trình suy luận của LLM.

Nghiên cứu này cũng đáng chú ý ở chỗ được hoàn thành chỉ trong 5 ngày và là kết quả của 2 nhà nghiên cứu độc lập, không có giáo sư hướng dẫn.

📌 Định nghĩa vấn đề

Khi suy luận chain-of-thought dài, KV cache tăng nhanh, dẫn đến:

Mức sử dụng bộ nhớ tăng vọt
Độ trễ suy luận tăng
Hiệu năng reasoning dài hạn suy giảm

Cách làm hiện có:

Dựa trên chấm điểm mức độ quan trọng của token
Evict các token có điểm thấp

❌ Giới hạn của cách làm hiện có

Kết quả thực nghiệm trong bài báo:

Dù cải thiện tinh vi cơ chế chấm điểm importance
→ thay đổi trong tập token thực sự được giữ lại vẫn rất hạn chế

Nói cách khác,

Chỉ cải thiện chiến lược eviction thôi
vẫn có giới hạn trong việc nâng cao hiệu năng và hiệu quả

🔥 Ý tưởng cốt lõi

CASK phân tách token không theo mức độ quan trọng mà theo vai trò.

Core

Đóng góp trực tiếp vào việc tạo đầu ra cuối cùng
Trạng thái cốt lõi của reasoning
Luôn được giữ lại

Scratch

Các trạng thái được tạo ra trong quá trình tính toán trung gian, khám phá
Có thể chứa thông tin trùng lặp hoặc không cần thiết
Đối tượng được nén và hợp nhất

⚙️ Cách hoạt động

Prefix Phase

Giai đoạn đầu vào (prompt)
Thực hiện một phần KV eviction

Decode Phase

Giai đoạn diễn ra suy luận
Chỉ áp dụng nén có chọn lọc cho vùng Scratch

👉 Khác biệt so với trước đây:

Xóa đơn thuần → bảo toàn có chọn lọc + nén mang tính cấu trúc

📊 Hiệu năng

Theo kết quả trong bài báo:

So với các kỹ thuật nén KV hiện có
→ tiết kiệm thêm tới 25% bộ nhớ
Với cùng ngân sách KV cache
→ duy trì độ chính xác cao hơn
Ở một số đoạn
→ đạt hiệu năng cao hơn với ít KV cache hơn

Ví dụ:

CASK (KV 384) > cách làm hiện có (KV 512)

👉 Đồng thời đạt được giảm sử dụng bộ nhớ + cải thiện hiệu năng

📌 Đặc điểm kỹ thuật

token-level pruning → structure-aware compression
lấy eviction làm trung tâm → chiến lược preserve + reuse
Tăng cường tái sử dụng thông tin trong quá trình reasoning

📌 Ý nghĩa

CASK chuyển hướng tối ưu hóa KV cache

từ “sẽ bỏ đi bao nhiêu”
sang “những gì nhất định phải được giữ lại”

Đó là một cách tiếp cận như vậy.

🚀 Tóm tắt

Giảm thêm tối đa 25% KV cache
Đảm bảo hiệu năng suy luận tương đương hoặc cao hơn
Đề xuất phương thức quản lý KV dựa trên cấu trúc

2 bình luận

wogns3623 7 ngày trước

Nếu anh/chị đã sử dụng AI khi viết bài báo, tôi tò mò không biết anh/chị đã dùng như thế nào. Tôi hỏi vì phần nói rằng đã tiến hành từ khâu lên ý tưởng đến thí nghiệm chỉ trong 5 ngày khiến tôi rất ấn tượng.

skyline23 7 ngày trước

Vì không thể chỉnh sửa nên mình để lại bổ sung tại đây!

Liên kết bài báo
https://arxiv.org/abs/2604.10900
Liên kết GitHub
https://github.com/Skyline-23/CASK