6 điểm bởi GN⁺ 29 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Chạy LLM quy mô 400 tỷ tham số trên iPhone 17 Pro, tốc độ ở mức 0,6 token/giây
  • Mô hình dùng kiến trúc Mixture of Experts (MoE), với trọng số thực sự được kích hoạt khoảng 5 tỷ tham số
  • Đã tái cấu trúc thành phiên bản lượng tử hóa 4bit nhưng vẫn rất chậm
  • Sử dụng cách kết hợp kép RAM GPU·CPUnạp luồng từ SSD
  • Đã fork Flash-Moe và công bố tại Anemll/flash-moe (nhánh iOS-App)

1 bình luận

 
Ý kiến trên Hacker News
  • Tò mò không biết cách streaming trực tiếp từ SSD sang GPU này có dựa trên bài báo năm 2023 của Apple LLM in a Flash hay không

    • Đúng vậy. Tôi đã tổng hợp các chi tiết liên quan trong bài viết trên blog của tôi
    • Một cách tiếp cận tương tự cũng недавно được giới thiệu trong thread HN này. Tuy nhiên, iPhone Pro bị giới hạn ở 12GB RAM nên không đủ để chứa phần hoạt động của mô hình. Có thể dùng loại lưu trữ bền như Intel Optane, nhưng mức tiêu thụ điện cao nên không phù hợp với thiết bị di động
    • Cách này không khác nhiều so với kiến trúc Cerebus stream weight
  • Tôi mơ thấy ai cũng mang siêu trí tuệ AI trong túi, nhưng rồi cuối cùng chỉ dùng để doomscrollingcatfishing, rồi thế giới diệt vong

    • Nghe đúng kiểu Nostradamus thời hiện đại
  • iPad Air(M2) của tôi chạy local LLM khá tốt, nhưng chỉ sau vài giây là quá nhiệt và lập tức bị throttle

    • Không biết đã ai từng làm hệ thống làm mát bằng chất lỏng cho iPad hay điện thoại chưa. Ý tôi là kiểu thiết bị kín áp sát mặt lưng máy và tuần hoàn chất làm mát
  • Qwen3.5-397B-A17B thực tế hoạt động như một mô hình 17B. Tiêu đề bỏ qua phần MoE chỉ là quảng cáo cường điệu.
    Lượng tử hóa (quantization) cũng giống một kiểu cheat code, nên biết đâu một ngày nào đó sẽ có người gọi mô hình lượng tử hóa 1-bit là “mô hình lớn”

    • Thực ra nó hoạt động gần với mô hình khoảng 80B, và mức độ kiến thức về thế giới thì gần với mô hình 400B. Kiến trúc mô hình, lượng tử hóa, cho tới thời gian tạo token đầu tiên đều đã được công khai nên không có gì gây hiểu nhầm. Kiểu thử nghiệm này gần với một màn thử sức kỹ thuật kiểu code golf hơn là thứ dành cho người dùng phổ thông
  • Có thắc mắc rằng: “Dù gọi là mô hình 400B, nhưng nếu là kiến trúc MoE thì thực tế có bao nhiêu tham số được kích hoạt?”

    • Qwen3.5-397B-A17B có 17B tham số ở trạng thái hoạt động. Có thể xem mã liên quan tại kho lưu trữ ứng dụng flash-moe iOS
    • Dạo này hầu hết các công ty đều đang chọn kiến trúc MoE
  • Tin này làm tôi nhớ lại thời llama.c mới xuất hiện, khi mọi người đều phấn khích vì cuối cùng cũng có thể chạy local

  • Tôi đã cài Termux trên một điện thoại Android cũ (LineageOS), rồi chạy Ollama và một mô hình nhỏ trong đó. Hiệu năng rất tệ nhưng vẫn chạy được

    • Tôi còn nhớ trước đây từng tự build và chạy máy đào Bitcoin trên Galaxy Note bằng Linux Deploy. Hiệu năng thì tệ hại, nhưng cảm giác như đang bỏ cả một máy tính hoàn chỉnh vào túi. Thời Nokia thì ngoài JS trong trình duyệt ra chẳng chạy được gì, còn Android đúng là một nền tảng có thể hack
    • Tham khảo thêm thì Pixel 8 của tôi chạy Qwen3.5 4B ở tốc độ 2 token/giây. Ứng dụng PocketPal chạy ổn, nhưng ứng dụng Cactus thì không hoạt động
  • Các mô hình MoE của Qwen khi mức kích hoạt giảm xuống cỡ 2B thì hiệu năng suy giảm mạnh. Trong suy luận thực tế chỉ dùng số tham số ít hơn hàng chục lần, nên gọi nó là mô hình 400B là vô nghĩa

  • Có câu hỏi: “Phải mất bao lâu để một mô hình cỡ này chạy được ở tốc độ 100 token/giây?”

    • Cách duy nhất là tích hợp trực tiếp mô hình vào phần cứng. Thực tế bài viết blog này có giới thiệu loại chip như vậy, nhưng nó quá lớn để nhét vào smartphone
    • Trên smartphone, việc chạy những mô hình lớn như vậy không có giá trị. Fine-tune mô hình nhỏ cho tác vụ cụ thể sẽ nhanh hơn và chính xác hơn
    • Mô hình Apollo (LFM2) của Liquid AI chạy khá nhanh ngay cả trên điện thoại, và hữu ích cho các tác vụ như tóm tắt kết quả tìm kiếm hay giải bài toán
    • Thực tế thì tôi cho là không thể. Không có lời giải nào về mặt kỹ thuật
    • Chắc phải mất 15~20 năm. Việc nói mô hình này “chạy được” trên điện thoại hiện nay chỉ đúng về mặt kỹ thuật. Trên thực tế, dung lượng RAM và băng thông bộ nhớ đều thiếu trầm trọng. Có thể làm demo dùng SSD, nhưng không thực tế. Cuối cùng vẫn sẽ cần thuật toán mớithiết kế chip tùy biến. Với kiến trúc Transformer hiện tại, giới hạn đã rất rõ ràng
  • Nếu chưa theo dõi anemll, bạn nên biết rằng anh ấy cũng đã phát hành một phiên bản có thể chạy OpenClaw trên iPhone.
    Khi phần cứng và mô hình tiếp tục tiến bộ, tương lai của AI di động trông khá sáng sủa