3 điểm bởi GN⁺ 2025-05-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cung cấp pipeline suy luận LLM có thể chạy trên Apple Neural Engine(ANE)
  • Dựa trên các mô hình Hugging Face, cho phép suy luận on-device trong ứng dụng Swift/C++ hoặc ứng dụng iOS/macOS
  • Bản mới nhất 0.3.0 Alpha bao gồm công cụ chuyển đổi mô hình Hugging Face sang định dạng CoreML, triển khai CLI suy luận dựa trên Swift, mẫu ứng dụng iOS/macOS, mã kiểm thử Python và công cụ benchmark
  • Hỗ trợ các mô hình LLaMA 3.2 (1B / 8B) cùng Distilled DeepSeek R1 8B/DeepHermes 3B và 8B, dự kiến sẽ mở rộng sang nhiều kiến trúc mô hình đa dạng hơn trong tương lai
  • Mục tiêu là cung cấp một framework linh hoạt và dễ sử dụng có thể chuyển đổi các mô hình Hugging Face cho ANE

1 bình luận

 
GN⁺ 2025-05-05
Ý kiến trên Hacker News
  • Tò mò không biết đã có động thái tiếp theo nào về tuyên bố của Apple rằng mô hình tối ưu cho ANE "nhanh hơn tới 10 lần và dùng ít bộ nhớ hơn 14 lần"

    • MLX và llama.cpp không hỗ trợ ANE
    • llama.cpp đang tìm hiểu ý tưởng này
    • MLX dù do Apple tạo ra vẫn không hỗ trợ ANE
  • Khi laptop Snapdragon X ra mắt, đã có tuyên bố rằng NPU sẽ được dùng cho LLM

    • Đã tin tuyên bố của Qualcomm, nhưng thực tế mô hình chỉ chạy trên CPU
    • NPU chỉ hiệu quả điện năng với các mô hình nhỏ, không phù hợp với mô hình lớn
    • Hỗ trợ Vulkan là hy vọng duy nhất
  • Cảm giác neural engine là phần silicon bị lãng phí

    • Có thể thêm nhiều lõi GPU hơn và chuyển API xử lý thần kinh sang GPU khi cần
    • Nếu có ý kiến khác thì rất muốn được học hỏi
  • Lợi ích chính là mức tiêu thụ điện năng thấp hơn đáng kể

    • Kết quả benchmark trên M1 Max và M4 Pro cho thấy GPU nhanh hơn nhưng tiêu thụ nhiều điện hơn
    • Mô hình ANE bị giới hạn ở 512 token nên vẫn khó dùng trong môi trường production
  • README thiếu thông tin quan trọng nhất

    • Muốn biết ở cùng mức lượng tử hóa thì đạt được bao nhiêu token/giây so với llama.cpp / MLX
    • Chỉ đáng chuyển nền tảng mặc định nếu có cải thiện lớn
  • Đang cố tìm ra bí quyết của công nghệ này là gì

    • Không rõ việc phụ thuộc vào coremltools có phải là cốt lõi hay còn kỹ thuật quan trọng nào khác
  • Bộ nhớ hợp nhất của Apple cung cấp đủ RAM để chạy các mô hình lớn vốn cần nhiều GPU

  • Tò mò không biết coreml có tận dụng ANE hay không

    • Không rõ trong coreml có nút thắt nào đòi hỏi quyền truy cập cấp thấp hơn hay không
  • Tò mò liệu có lợi thế hiệu năng nào về tốc độ suy luận trên MacBook dòng M hay không

    • Không rõ mục tiêu chính có phải là làm cho suy luận hoạt động trên các nền tảng khác như iOS hay không
    • Nếu có lợi thế hiệu năng thì muốn thấy so sánh token/giây với Ollama
  • Ngạc nhiên trước mức độ kiểm soát chặt chẽ của Apple đối với ANE

    • Hy vọng sẽ đến ngày mọi người thực sự dùng được nó
    • Tò mò liệu các công ty che giấu công nghệ để duy trì quyền kiểm soát, hay thực sự có lý do kỹ thuật lớn nào đó