Hiện tại tôi đang phát triển ứng dụng bằng Expo + React Native, và muốn cài trực tiếp mô hình Gemma-4-E2B-it lên điện thoại để chạy on-device.
Tìm hiểu thì có vẻ có các lựa chọn như bên dưới, nhưng tôi vẫn chưa hình dung rõ trên thực tế mọi người thường dùng cách nào nhiều hơn.
- llama.rn
- llama.cpp
- GGUF
- LiteRT / AI Edge
- MLC LLM
Điều tôi muốn làm là như sau
- Tải xuống/cài đặt mô hình trong app
- Suy luận cục bộ (nếu có thể thì hoàn toàn offline)
- Sử dụng bên trong ứng dụng Expo/RN
Hiện nay runtime/thư viện nào đang được dùng nhiều nhất?
Nếu ai đã từng triển khai, rất mong được chia sẻ về cấu trúc, repo ví dụ hoặc kinh nghiệm thực tế.
2 bình luận
Tôi đã từng thực hiện một PoC tương tự bằng Flutter. Trước hết tôi đã làm việc với LiteRT-lm và tham khảo rất nhiều kho lưu trữ này: https://github.com/google-ai-edge/gallery
À, ra là vậy. Tôi cũng đã cài Google Edge Gallery để thử đủ thứ, tôi sẽ tham khảo, cảm ơn bạn!