Meta công bố các mô hình Llama lượng tử hóa (Quantized) với tốc độ nhanh hơn và mức sử dụng bộ nhớ thấp hơn

(ai.meta.com)

2 điểm bởi GN⁺ 2024-10-25 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Meta phát hành các mô hình Llama lượng tử hóa, đã được tinh gọn để có thể chạy trên thiết bị di động
Được tùy chỉnh cho các ứng dụng có ngữ cảnh ngắn dưới 8K
Các mô hình lượng tử hóa đạt được tốc độ nhanh hơn 2-4 lần, giảm 56% kích thước mô hình và giảm 41% mức sử dụng bộ nhớ.
Kỹ thuật lượng tử hóa
- Sử dụng Quantization-Aware Training (QAT) và kỹ thuật SpinQuant cho các mô hình Llama 3.2 1B và 3B.
- QAT ưu tiên độ chính xác, còn SpinQuant ưu tiên tính khả chuyển.
- Hỗ trợ cả hai kỹ thuật lượng tử hóa thông qua framework ExecuTorch của PyTorch.
Tối ưu hóa cho thiết bị di động
- Được thiết kế để có thể chạy trên SoC của Qualcomm và MediaTek.
- Kết quả thử nghiệm trên mẫu Android OnePlus 12 cho thấy kích thước mô hình và mức sử dụng bộ nhớ giảm đáng kể.
- Tối ưu hóa hiệu năng bằng cách tận dụng CPU và NPU trên di động.
Thiết lập lượng tử hóa
- Được thiết kế có tính đến framework suy luận ExecuTorch của PyTorch và backend CPU Arm.
- Lượng tử hóa tất cả các lớp tuyến tính theo nhóm 4-bit, còn activation sử dụng lượng tử hóa động 8-bit.
Huấn luyện nhận biết lượng tử hóa (QAT) và LoRA
- Sử dụng QAT để mô phỏng hiệu ứng lượng tử hóa trong quá trình huấn luyện mô hình Llama 3.2, nhằm tối ưu hiệu năng trong môi trường độ chính xác thấp
- Tận dụng checkpoint mô hình BF16 Llama 3.2 để khởi tạo QAT và thực hiện thêm huấn luyện SFT bằng QAT
- Cố định backbone của mô hình QAT, áp dụng adapter LoRA rồi tiếp tục thực hiện SFT thêm một lần nữa
- Thực hiện QAT bằng API torchao
SpinQuant
- Kém chính xác hơn QAT + LoRA, nhưng có tính khả chuyển cao vì có thể hoạt động mà không cần truy cập dataset.
- Có thể lượng tử hóa mô hình phù hợp với nhiều mục tiêu phần cứng và trường hợp sử dụng khác nhau.
Kết quả
- Phương pháp QLoRA cho chất lượng tốt nhất trên mọi phương diện
- So với BF16, độ trễ decode được cải thiện trung bình 2,5 lần và độ trễ prefill cải thiện 4,2 lần
- Kích thước mô hình giảm trung bình 56%, mức sử dụng bộ nhớ giảm 41%
- Được đo trên thiết bị Android OnePlus 12; trên thiết bị iOS, độ chính xác tương tự nhưng hiệu năng chưa được đánh giá

Tổng kết của GN⁺

Các mô hình Llama lượng tử hóa của Meta hướng đến việc tinh gọn và tối ưu hiệu năng để chạy trên thiết bị di động
Cung cấp các mô hình lượng tử hóa cân bằng cả độ chính xác lẫn tính khả chuyển thông qua các kỹ thuật QAT và SpinQuant
Tối đa hóa hiệu năng bằng cách tận dụng CPU và NPU di động, đồng thời hỗ trợ sử dụng trên nhiều loại phần cứng khác nhau
Có vẻ như Meta đã cung cấp một giải pháp ở mức có thể áp dụng vào sản phẩm thực tế thông qua sự hợp tác chặt chẽ với nhiều nền tảng di động và đối tác
Các mô hình Llama của Meta được đánh giá có tính cạnh tranh về độ mở, khả năng chỉnh sửa và hiệu quả chi phí, và được kỳ vọng sẽ tiếp tục mang lại trải nghiệm AI mạnh mẽ trên di động nhờ đổi mới liên tục

Meta công bố các mô hình Llama lượng tử hóa (Quantized) với tốc độ nhanh hơn và mức sử dụng bộ nhớ thấp hơn

Tổng kết của GN⁺

Bài viết liên quan

Chưa có bình luận nào.