- Framework đa nền tảng cho phép chạy trực tiếp mô hình GGUF trên nhiều thiết bị khác nhau như điện thoại thông minh, laptop, TV, camera, v.v.
- Có thể dùng bất kỳ mô hình GGUF nào được cung cấp trên Huggingface; Qwen, Gemma, Llama, DeepSeek, v.v.
- Triển khai và chạy trực tiếp các mô hình LLM/VLM/TTS ngay trong ứng dụng
- Hỗ trợ Flutter, React-Native, Kotlin Multiplatform, đồng thời có thể chạy on-device nhiều loại mô hình như văn bản, thị giác, embedding, TTS
- Hỗ trợ từ FP32 đến mô hình lượng tử hóa 2-bit, cho phép hiệu suất cao và vận hành tiêu thụ điện năng thấp trong môi trường di động
- Hỗ trợ chat template (Jinja2), token streaming, tự động fallback cloud-local, Speech-To-Text, v.v.
- Backend của Cactus được viết bằng C/C++, nên có thể chạy trực tiếp trong gần như mọi môi trường như di động, PC, embedded, IoT
- Trên các smartphone đời mới, Gemma3 1B Q4 chạy ở tốc độ 20~50 token/giây, còn Qwen3 4B Q4 đạt 7~18 token/giây
- Có thể tải các mô hình được đề xuất từ HuggingFace Cactus-Compute
Điểm ứng dụng và ưu thế
- Khác với các framework LLM on-device hiện có, Cactus hỗ trợ tích hợp nhiều nền tảng, giúp dễ dàng triển khai kiến trúc hybrid local-cloud
- Có thể tận dụng các LLM/VLM/TTS mới nhất với hiệu năng cao và điện năng thấp trên thiết bị di động
- Phù hợp với nhiều kịch bản B2C/B2B như xử lý dữ liệu riêng tư trong ứng dụng/dịch vụ, AI offline, tối ưu chi phí, v.v.
Chưa có bình luận nào.