Chạy LLM 400B trên iPhone 17 Pro
(twitter.com/anemll)- Chạy LLM quy mô 400 tỷ tham số trên iPhone 17 Pro, tốc độ ở mức 0,6 token/giây
- Mô hình dùng kiến trúc Mixture of Experts (MoE), với trọng số thực sự được kích hoạt khoảng 5 tỷ tham số
- Đã tái cấu trúc thành phiên bản lượng tử hóa 4bit nhưng vẫn rất chậm
- Sử dụng cách kết hợp kép RAM GPU·CPU và nạp luồng từ SSD
- Đã fork Flash-Moe và công bố tại Anemll/flash-moe (nhánh iOS-App)
1 bình luận
Ý kiến trên Hacker News
Tò mò không biết cách streaming trực tiếp từ SSD sang GPU này có dựa trên bài báo năm 2023 của Apple LLM in a Flash hay không
Tôi mơ thấy ai cũng mang siêu trí tuệ AI trong túi, nhưng rồi cuối cùng chỉ dùng để doomscrolling và catfishing, rồi thế giới diệt vong
iPad Air(M2) của tôi chạy local LLM khá tốt, nhưng chỉ sau vài giây là quá nhiệt và lập tức bị throttle
Qwen3.5-397B-A17B thực tế hoạt động như một mô hình 17B. Tiêu đề bỏ qua phần MoE chỉ là quảng cáo cường điệu.
Lượng tử hóa (quantization) cũng giống một kiểu cheat code, nên biết đâu một ngày nào đó sẽ có người gọi mô hình lượng tử hóa 1-bit là “mô hình lớn”
Có thắc mắc rằng: “Dù gọi là mô hình 400B, nhưng nếu là kiến trúc MoE thì thực tế có bao nhiêu tham số được kích hoạt?”
Tin này làm tôi nhớ lại thời llama.c mới xuất hiện, khi mọi người đều phấn khích vì cuối cùng cũng có thể chạy local
Tôi đã cài Termux trên một điện thoại Android cũ (LineageOS), rồi chạy Ollama và một mô hình nhỏ trong đó. Hiệu năng rất tệ nhưng vẫn chạy được
Các mô hình MoE của Qwen khi mức kích hoạt giảm xuống cỡ 2B thì hiệu năng suy giảm mạnh. Trong suy luận thực tế chỉ dùng số tham số ít hơn hàng chục lần, nên gọi nó là mô hình 400B là vô nghĩa
Có câu hỏi: “Phải mất bao lâu để một mô hình cỡ này chạy được ở tốc độ 100 token/giây?”
Nếu chưa theo dõi anemll, bạn nên biết rằng anh ấy cũng đã phát hành một phiên bản có thể chạy OpenClaw trên iPhone.
Khi phần cứng và mô hình tiếp tục tiến bộ, tương lai của AI di động trông khá sáng sủa