- Bao gồm mã huấn luyện của MobileLLM được giới thiệu trong bài báo "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" được trình bày tại ICML 2024
- Nghiên cứu này xem xét một cách toàn diện nhiều yếu tố thiết kế để đạt được LLM chất lượng cao với ít hơn 1 tỷ tham số
- MobileLLM được xây dựng bằng cách tích hợp (1) hàm kích hoạt SwiGLU, (2) kiến trúc sâu và mảnh, (3) chia sẻ embedding, (4) grouped-query attention
- MobileLLM-125M/350M đạt mức cải thiện độ chính xác lần lượt 2,7%/4,3% trên các tác vụ suy luận thường thức zero-shot so với các mô hình SoTA 125M/350M trước đó
- Trong phiên bản cập nhật, các mô hình MobileLLM-600M/1B/1.5B được mở rộng lên quy mô lớn hơn và cho thấy kết quả SoTA
Tóm tắt của GN⁺
- MobileLLM đưa ra một triết lý thiết kế tối ưu cho các mô hình ngôn ngữ chất lượng cao với dưới 1 tỷ tham số
- Tích hợp các yếu tố như hàm kích hoạt SwiGLU, kiến trúc sâu và mảnh, chia sẻ embedding, grouped-query attention để cải thiện hiệu năng
- Đạt độ chính xác cao hơn so với các mô hình hiện có trong các tác vụ suy luận thường thức zero-shot
- Nghiên cứu này đóng góp quan trọng cho các trường hợp sử dụng mô hình ngôn ngữ trên thiết bị di động và thiết bị nhúng
- Các dự án có chức năng tương tự gồm GPT-neo, OPT, BLOOM
1 bình luận
Ý kiến Hacker News
Mô hình MobileLLM-125M/350M cho thấy độ chính xác cải thiện 2,7%/4,3% so với các mô hình SoTA 125M/350M trước đó
Có nhắc rằng mô hình 1.5B tham số đã đạt được bước tiến khá lớn
Tò mò liệu Apple Watch có đủ khả năng phần cứng để chạy suy luận cho một mô hình nhỏ hay không
Hỏi liệu có nhất thiết phải chỉ dừng ở thiết bị di động hay không
Có nhắc rằng hiện tại cần STT trên thiết bị như wake-word
Đang tìm ứng dụng có thể chạy trên iPhone
Tò mò có thể đẩy xa đến mức nào với phần "sâu hơn và mỏng hơn"
Hỏi liệu các phương pháp như chưng cất có thể hữu ích hay không
Có nhắc rằng các mô hình nhỏ dường như đạt được mức giảm kích thước lớn nhất thông qua chia sẻ/ràng buộc trọng số giữa linear head và token embedding
Hỏi liệu có thể dùng mô hình này để huấn luyện mô hình ngay cả trên PC Windows hay không
Thấy thú vị, nhưng tò mò ngoài tự động hoàn thành tốt hơn thì còn có trường hợp sử dụng nào khác không