Google LiteRT-LM - Khung suy luận LLM hiệu năng cao cho thiết bị biên
(github.com/google-ai-edge)- Công cụ suy luận LLM on-device cấp độ production do Google tạo ra, cho phép chạy mô hình ngôn ngữ lớn trên toàn bộ các môi trường biên như Android, iOS, web, desktop, và IoT (Raspberry Pi)
- Đã bổ sung hỗ trợ mẫu Gemma 4 mới nhất, cung cấp hiệu năng suy luận tối ưu ngay cả trên thiết bị biên thông qua tăng tốc phần cứng GPU·NPU
- Hỗ trợ đa phương thức nên có thể xử lý đầu vào thị giác (hình ảnh) và âm thanh, đồng thời cũng hỗ trợ suy luận kèm ảnh đính kèm bằng tùy chọn
--attachmenttrong CLI - Tích hợp sẵn Function Calling (Tool Use) cho workflow agentic
- Tương thích với nhiều mô hình LLM như Gemma, Llama, Phi-4, Qwen; có thể tải mô hình từ Hugging Face rồi suy luận ngay bằng lệnh CLI một dòng
uv tool install litert-lm→litert-lm runđể bắt đầu ngay
- Đã được triển khai thực tế trên các sản phẩm Google như Chrome, Chromebook Plus, Pixel Watch để chạy GenAI on-device
- Có thể chạy mô hình ngay trên di động thông qua ứng dụng Google AI Edge Gallery (có trên Google Play và App Store)
- API ngôn ngữ: hỗ trợ ổn định Kotlin (Android/JVM), Python (prototyping), C++ (native hiệu năng cao), và đang phát triển Swift (iOS/macOS)
- Tình trạng phát hành: mới nhất là v0.10.2; v0.10.1 giới thiệu Gemma 4 và CLI, v0.8.0 bổ sung GPU desktop và đa phương thức, v0.7.0 thêm tăng tốc NPU
- Giấy phép Apache-2.0
2 bình luận
Muốn chạy lắm mà không có bộ nhớ, huhu
Dạo này chạy ổn hơn chưa nhỉ, trước đây trên phía Mac hiệu năng từng tệ một cách khá khó hiểu...