Shimmy - Máy chủ OpenAI API nhẹ, ưu tiên quyền riêng tư cá nhân, có thể thay thế Ollama
(github.com/Michael-A-Kuykendall)- Công cụ được thiết kế để chạy LLM hoàn toàn ngoại tuyến trong môi trường cục bộ, được cung cấp dưới dạng một tệp nhị phân duy nhất 4.8MB, nhỏ hơn Ollama 142 lần
- Tương thích 100% với OpenAI API, nên có thể kết nối nguyên trạng với các công cụ phát triển hiện có như Python, Node.js, VSCode Copilot, Cursor, Continue.dev
- Cấu trúc Zero-Config có thể hoạt động ngay lập tức sau khi cài đặt
- Tự động phát hiện mô hình từ Hugging Face, Ollama, thư mục cục bộ, v.v.
- Hỗ trợ tự động gán cổng và phát hiện bộ chuyển đổi LoRA
- Tính năng suy luận lai CPU/GPU dựa trên MOE(Mixture of Experts) giúp chạy được các mô hình lớn từ 70B trở lên trên PC phổ thông
- Offload sang CPU và phân bổ layer thông minh giúp vận hành ổn định ngay cả trong môi trường thiếu VRAM
- Có thể điều khiển chi tiết bằng các tùy chọn
--cpu-moe,--n-cpu-moe
- Hỗ trợ nhiều backend cho tăng tốc GPU như CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
- Tự động phát hiện trong lúc chạy, và tự động chuyển sang CPU nếu không có GPU
- Kiến trúc bất đồng bộ dựa trên Rust + Tokio để đảm bảo hiệu năng cao và độ ổn định bộ nhớ
- Sử dụng backend llama.cpp nên tương thích với mô hình GGUF
- Bao gồm bộ nhớ đệm LRU, cân bằng tải tự động, giám sát tích hợp Prometheus v.v.
- Thiết kế tập trung vào bảo mật và quyền riêng tư
- Dữ liệu và mã không rời khỏi máy cục bộ
- Không cần API key, gói cước hay tính phí theo token
- Được cung cấp miễn phí vĩnh viễn theo giấy phép MIT: “FREE now, FREE forever”
5 bình luận
Tôi đã thử với tiếng Hàn, tiếng Anh, tiếng Trung và cả tiếng Nhật, nhưng trước mắt có vẻ đang có vấn đề trong việc xử lý tiếng Nhật.
Dù sao nếu backend là
llama.cppthì có thể gọi là không phụ thuộc được không...Wow đúng là quá đỉnh ạ, phải thử ngay mới được
wow
Có vẻ như trong phần contributor có cả Claude và Copilot cùng được liệt kê.