Microsoft LLMLingua - Nén prompt để tăng tốc suy luận và giảm chi phí

xguru · 2023-12-22T10:02:02+09:00

Sử dụng các mô hình ngôn ngữ nhỏ đã được căn chỉnh và huấn luyện tốt như GPT2-small hoặc LLaMA-7B cho việc nén Phát hiện các token không quan trọng trong prompt và cho phép suy luận với prompt đã nén trên LLM hộp đen Nén prompt và KV-Cache để tăng tốc độ suy luận của LLM và cải thiện khả năng nhận biết thông tin chính của LLM Đạt mức nén tối đa 20 lần trong khi giảm thiểu mất mát hiệu năng Giảm chi phí bằng cách rút gọn prompt và ngữ cảnh được tạo ra Có thể hỗ trợ ngữ cảnh dài hơn bằng cách tăng mật độ thông tin quan trọng trong prompt

(github.com/microsoft)

10 điểm bởi xguru 2023-12-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Sử dụng các mô hình ngôn ngữ nhỏ đã được căn chỉnh và huấn luyện tốt như GPT2-small hoặc LLaMA-7B cho việc nén
Phát hiện các token không quan trọng trong prompt và cho phép suy luận với prompt đã nén trên LLM hộp đen
- Nén prompt và KV-Cache để tăng tốc độ suy luận của LLM và cải thiện khả năng nhận biết thông tin chính của LLM
- Đạt mức nén tối đa 20 lần trong khi giảm thiểu mất mát hiệu năng
Giảm chi phí bằng cách rút gọn prompt và ngữ cảnh được tạo ra
Có thể hỗ trợ ngữ cảnh dài hơn bằng cách tăng mật độ thông tin quan trọng trong prompt

Microsoft LLMLingua - Nén prompt để tăng tốc suy luận và giảm chi phí

Bài viết liên quan

Chưa có bình luận nào.