3 điểm bởi GN⁺ 2024-07-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bao gồm mã huấn luyện của MobileLLM được giới thiệu trong bài báo "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" được trình bày tại ICML 2024
  • Nghiên cứu này xem xét một cách toàn diện nhiều yếu tố thiết kế để đạt được LLM chất lượng cao với ít hơn 1 tỷ tham số
  • MobileLLM được xây dựng bằng cách tích hợp (1) hàm kích hoạt SwiGLU, (2) kiến trúc sâu và mảnh, (3) chia sẻ embedding, (4) grouped-query attention
  • MobileLLM-125M/350M đạt mức cải thiện độ chính xác lần lượt 2,7%/4,3% trên các tác vụ suy luận thường thức zero-shot so với các mô hình SoTA 125M/350M trước đó
  • Trong phiên bản cập nhật, các mô hình MobileLLM-600M/1B/1.5B được mở rộng lên quy mô lớn hơn và cho thấy kết quả SoTA

Tóm tắt của GN⁺

  • MobileLLM đưa ra một triết lý thiết kế tối ưu cho các mô hình ngôn ngữ chất lượng cao với dưới 1 tỷ tham số
  • Tích hợp các yếu tố như hàm kích hoạt SwiGLU, kiến trúc sâu và mảnh, chia sẻ embedding, grouped-query attention để cải thiện hiệu năng
  • Đạt độ chính xác cao hơn so với các mô hình hiện có trong các tác vụ suy luận thường thức zero-shot
  • Nghiên cứu này đóng góp quan trọng cho các trường hợp sử dụng mô hình ngôn ngữ trên thiết bị di động và thiết bị nhúng
  • Các dự án có chức năng tương tự gồm GPT-neo, OPT, BLOOM

1 bình luận

 
GN⁺ 2024-07-11
Ý kiến Hacker News
  • Mô hình MobileLLM-125M/350M cho thấy độ chính xác cải thiện 2,7%/4,3% so với các mô hình SoTA 125M/350M trước đó

    • Các mô hình nhỏ đã được cải thiện đôi chút, nhưng vẫn chưa đủ cho các mục đích sử dụng giống như mô hình trực tuyến
    • Có nhắc rằng không có vấn đề gì với tiến bộ từng bước
  • Có nhắc rằng mô hình 1.5B tham số đã đạt được bước tiến khá lớn

    • Tò mò vì sao họ không dùng mô hình lớn hơn
    • Có nhắc rằng một mô hình hiệu quả phù hợp với phần cứng cỡ RPi có thể là yếu tố thay đổi cuộc chơi
    • Có nhắc rằng mô hình TinyLlama 7B chỉ vừa đủ để chạy
  • Tò mò liệu Apple Watch có đủ khả năng phần cứng để chạy suy luận cho một mô hình nhỏ hay không

    • Hỏi liệu có cần tài khoản nhà phát triển hay không
  • Hỏi liệu có nhất thiết phải chỉ dừng ở thiết bị di động hay không

    • Nếu không tiêu tốn quá nhiều tài nguyên, điều đó có thể làm cho hội thoại NPC trong game thú vị hơn
    • Sẽ còn tốt hơn nếu có thể tinh chỉnh để ảnh hưởng đến hành vi hoặc hành động của NPC
  • Có nhắc rằng hiện tại cần STT trên thiết bị như wake-word

    • Đang tìm mô hình có WER thấp nhất trong số các mô hình có thể chạy trên RPi 4B
    • Đang xem openWakeWord
    • Có nhắc rằng điều này cần cho một hệ thống kiểm kê DIY
  • Đang tìm ứng dụng có thể chạy trên iPhone

    • Hiện chỉ biết ứng dụng MLC, và nó chỉ có 3 mô hình cũ
  • Tò mò có thể đẩy xa đến mức nào với phần "sâu hơn và mỏng hơn"

    • Có nhắc rằng nếu FFN vừa với bộ nhớ đệm L2 thì hiệu năng sẽ được cải thiện
  • Hỏi liệu các phương pháp như chưng cất có thể hữu ích hay không

  • Có nhắc rằng các mô hình nhỏ dường như đạt được mức giảm kích thước lớn nhất thông qua chia sẻ/ràng buộc trọng số giữa linear head và token embedding

    • Tò mò liệu sau đó có nghiên cứu nào về cách giảm kích thước thêm nữa hay không
  • Hỏi liệu có thể dùng mô hình này để huấn luyện mô hình ngay cả trên PC Windows hay không

    • Có nhắc rằng không có nhiều RAM
  • Thấy thú vị, nhưng tò mò ngoài tự động hoàn thành tốt hơn thì còn có trường hợp sử dụng nào khác không