Cactus - Ollama dành cho điện thoại thông minh

(github.com/cactus-compute)

22 điểm bởi xguru 2025-08-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Framework đa nền tảng cho phép chạy trực tiếp mô hình GGUF trên nhiều thiết bị khác nhau như điện thoại thông minh, laptop, TV, camera, v.v.
- Có thể dùng bất kỳ mô hình GGUF nào được cung cấp trên Huggingface; Qwen, Gemma, Llama, DeepSeek, v.v.
- Triển khai và chạy trực tiếp các mô hình LLM/VLM/TTS ngay trong ứng dụng
Hỗ trợ Flutter, React-Native, Kotlin Multiplatform, đồng thời có thể chạy on-device nhiều loại mô hình như văn bản, thị giác, embedding, TTS
Hỗ trợ từ FP32 đến mô hình lượng tử hóa 2-bit, cho phép hiệu suất cao và vận hành tiêu thụ điện năng thấp trong môi trường di động
Hỗ trợ chat template (Jinja2), token streaming, tự động fallback cloud-local, Speech-To-Text, v.v.
Backend của Cactus được viết bằng C/C++, nên có thể chạy trực tiếp trong gần như mọi môi trường như di động, PC, embedded, IoT
Trên các smartphone đời mới, Gemma3 1B Q4 chạy ở tốc độ 20~50 token/giây, còn Qwen3 4B Q4 đạt 7~18 token/giây
Có thể tải các mô hình được đề xuất từ HuggingFace Cactus-Compute

Điểm ứng dụng và ưu thế

Khác với các framework LLM on-device hiện có, Cactus hỗ trợ tích hợp nhiều nền tảng, giúp dễ dàng triển khai kiến trúc hybrid local-cloud
Có thể tận dụng các LLM/VLM/TTS mới nhất với hiệu năng cao và điện năng thấp trên thiết bị di động
Phù hợp với nhiều kịch bản B2C/B2B như xử lý dữ liệu riêng tư trong ứng dụng/dịch vụ, AI offline, tối ưu chi phí, v.v.