- Cung cấp pipeline suy luận LLM có thể chạy trên Apple Neural Engine(ANE)
- Dựa trên các mô hình Hugging Face, cho phép suy luận on-device trong ứng dụng Swift/C++ hoặc ứng dụng iOS/macOS
- Bản mới nhất 0.3.0 Alpha bao gồm công cụ chuyển đổi mô hình Hugging Face sang định dạng CoreML, triển khai CLI suy luận dựa trên Swift, mẫu ứng dụng iOS/macOS, mã kiểm thử Python và công cụ benchmark
- Hỗ trợ các mô hình LLaMA 3.2 (1B / 8B) cùng Distilled DeepSeek R1 8B/DeepHermes 3B và 8B, dự kiến sẽ mở rộng sang nhiều kiến trúc mô hình đa dạng hơn trong tương lai
- Mục tiêu là cung cấp một framework linh hoạt và dễ sử dụng có thể chuyển đổi các mô hình Hugging Face cho ANE
1 bình luận
Ý kiến trên Hacker News
Tò mò không biết đã có động thái tiếp theo nào về tuyên bố của Apple rằng mô hình tối ưu cho ANE "nhanh hơn tới 10 lần và dùng ít bộ nhớ hơn 14 lần"
Khi laptop Snapdragon X ra mắt, đã có tuyên bố rằng NPU sẽ được dùng cho LLM
Cảm giác neural engine là phần silicon bị lãng phí
Lợi ích chính là mức tiêu thụ điện năng thấp hơn đáng kể
README thiếu thông tin quan trọng nhất
Đang cố tìm ra bí quyết của công nghệ này là gì
Bộ nhớ hợp nhất của Apple cung cấp đủ RAM để chạy các mô hình lớn vốn cần nhiều GPU
Tò mò không biết coreml có tận dụng ANE hay không
Tò mò liệu có lợi thế hiệu năng nào về tốc độ suy luận trên MacBook dòng M hay không
Ngạc nhiên trước mức độ kiểm soát chặt chẽ của Apple đối với ANE