- Sử dụng các mô hình ngôn ngữ nhỏ đã được căn chỉnh và huấn luyện tốt như GPT2-small hoặc LLaMA-7B cho việc nén
- Phát hiện các token không quan trọng trong prompt và cho phép suy luận với prompt đã nén trên LLM hộp đen
- Nén prompt và KV-Cache để tăng tốc độ suy luận của LLM và cải thiện khả năng nhận biết thông tin chính của LLM
- Đạt mức nén tối đa 20 lần trong khi giảm thiểu mất mát hiệu năng
- Giảm chi phí bằng cách rút gọn prompt và ngữ cảnh được tạo ra
- Có thể hỗ trợ ngữ cảnh dài hơn bằng cách tăng mật độ thông tin quan trọng trong prompt
Chưa có bình luận nào.