9 điểm bởi skyline23 7 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

CASK là một bài báo đề xuất cách tiếp cận mang tính cấu trúc (dựa trên vai trò),
không phải phương pháp pruning dựa trên mức độ quan trọng của token hiện có,
nhằm giải quyết vấn đề KV cache tăng lên trong quá trình suy luận của LLM.

Nghiên cứu này cũng đáng chú ý ở chỗ được hoàn thành chỉ trong 5 ngày và là kết quả của 2 nhà nghiên cứu độc lập, không có giáo sư hướng dẫn.


📌 Định nghĩa vấn đề

Khi suy luận chain-of-thought dài, KV cache tăng nhanh, dẫn đến:

  • Mức sử dụng bộ nhớ tăng vọt
  • Độ trễ suy luận tăng
  • Hiệu năng reasoning dài hạn suy giảm

Cách làm hiện có:

  • Dựa trên chấm điểm mức độ quan trọng của token
  • Evict các token có điểm thấp

❌ Giới hạn của cách làm hiện có

Kết quả thực nghiệm trong bài báo:

  • Dù cải thiện tinh vi cơ chế chấm điểm importance
    → thay đổi trong tập token thực sự được giữ lại vẫn rất hạn chế

Nói cách khác,

  • Chỉ cải thiện chiến lược eviction thôi
    vẫn có giới hạn trong việc nâng cao hiệu năng và hiệu quả

🔥 Ý tưởng cốt lõi

CASK phân tách token không theo mức độ quan trọng mà theo vai trò.

Core

  • Đóng góp trực tiếp vào việc tạo đầu ra cuối cùng
  • Trạng thái cốt lõi của reasoning
  • Luôn được giữ lại

Scratch

  • Các trạng thái được tạo ra trong quá trình tính toán trung gian, khám phá
  • Có thể chứa thông tin trùng lặp hoặc không cần thiết
  • Đối tượng được nén và hợp nhất

⚙️ Cách hoạt động

Prefix Phase

  • Giai đoạn đầu vào (prompt)
  • Thực hiện một phần KV eviction

Decode Phase

  • Giai đoạn diễn ra suy luận
  • Chỉ áp dụng nén có chọn lọc cho vùng Scratch

👉 Khác biệt so với trước đây:

  • Xóa đơn thuần → bảo toàn có chọn lọc + nén mang tính cấu trúc

📊 Hiệu năng

Theo kết quả trong bài báo:

  • So với các kỹ thuật nén KV hiện có
    tiết kiệm thêm tới 25% bộ nhớ

  • Với cùng ngân sách KV cache
    → duy trì độ chính xác cao hơn

  • Ở một số đoạn
    đạt hiệu năng cao hơn với ít KV cache hơn

Ví dụ:

  • CASK (KV 384) > cách làm hiện có (KV 512)

👉 Đồng thời đạt được giảm sử dụng bộ nhớ + cải thiện hiệu năng


📌 Đặc điểm kỹ thuật

  • token-level pruning → structure-aware compression
  • lấy eviction làm trung tâm → chiến lược preserve + reuse
  • Tăng cường tái sử dụng thông tin trong quá trình reasoning

📌 Ý nghĩa

CASK chuyển hướng tối ưu hóa KV cache

  • từ “sẽ bỏ đi bao nhiêu”
  • sang “những gì nhất định phải được giữ lại”

Đó là một cách tiếp cận như vậy.


🚀 Tóm tắt

  • Giảm thêm tối đa 25% KV cache
  • Đảm bảo hiệu năng suy luận tương đương hoặc cao hơn
  • Đề xuất phương thức quản lý KV dựa trên cấu trúc

2 bình luận

 
wogns3623 7 ngày trước

Nếu anh/chị đã sử dụng AI khi viết bài báo, tôi tò mò không biết anh/chị đã dùng như thế nào. Tôi hỏi vì phần nói rằng đã tiến hành từ khâu lên ý tưởng đến thí nghiệm chỉ trong 5 ngày khiến tôi rất ấn tượng.

 
skyline23 7 ngày trước

Vì không thể chỉnh sửa nên mình để lại bổ sung tại đây!