- Động cơ suy luận dựa trên Rust để chạy mô hình AI nhanh trong môi trường Apple Silicon
- Kiến trúc lai có thể tùy chọn sử dụng kernel GPU hoặc MPSGraph bên dưới CoreML
- Sử dụng mô hình theo định dạng riêng, và có thể chuyển đổi nhiều mô hình như Llama3 thông qua công cụ
lalamo để sử dụng
- Vượt trội về tốc độ trong đa số trường hợp so với
llama.cpp, đặc biệt ghi nhận tốc độ xử lý nhanh hơn 13 lần với Qwen3-0.6B
- Có thể phát triển và tích hợp linh hoạt thông qua Swift binding, giao diện CLI, Rust API, v.v.
- Đảm bảo độ tin cậy và khả năng mở rộng nhờ cấu trúc mô-đun, tận dụng bộ nhớ hợp nhất của thiết bị Apple để tối đa hóa hiệu năng, đồng thời cung cấp đường dẫn suy luận có thể kiểm chứng hiệu năng
Chưa có bình luận nào.