Shimmy - Máy chủ OpenAI API nhẹ, ưu tiên quyền riêng tư cá nhân, có thể thay thế Ollama

xguru · 2025-10-30T09:31:02+09:00

Công cụ được thiết kế để chạy LLM hoàn toàn ngoại tuyến trong môi trường cục bộ, được cung cấp dưới dạng một tệp nhị phân duy nhất 4.8MB, nhỏ hơn Ollama 142 lần Tương thích 100% với OpenAI API, nên có thể kết nối nguyên trạng với các công cụ phát triển hiện có như Python, Node.js, VSCode Copilot, Cursor, Continue.dev Cấu trúc Zero-Config có thể hoạt động ngay lập tức sau khi cài đặt Tự động phát hiện mô hình từ Hugging Face, Ollama, thư mục cục bộ, v.v. Hỗ trợ tự động gán cổng và phát hiện bộ chuyển đổi LoRA Tính năng suy luận lai CPU/GPU dựa trên MOE(Mixture of Experts) giúp chạy được các mô hình lớn từ 70B trở lên trên PC phổ thông Offload sang CPU và phân bổ layer thông minh giúp vận hành ổn định ngay cả trong môi trường thiếu VRAM Có thể điều khiển chi tiết bằng các tùy chọn --cpu-moe, --n-cpu-moe Hỗ trợ nhiều backend cho tăng tốc GPU như CUDA, Vulkan, OpenCL, MLX(Apple Silicon) Tự động phát hiện trong lúc chạy, và tự động chuyển sang CPU nếu không có GPU Kiến trúc bất đồng bộ dựa trên Rust + Tokio để đảm bảo hiệu năng cao và độ ổn định bộ nhớ Sử dụng backend llama.cpp nên tương thích với mô hình GGUF Bao gồm bộ nhớ đệm LRU, cân bằng tải tự động, giám sát tích hợp Prometheus v.v. Thiết kế tập trung vào bảo mật và quyền riêng tư Dữ liệu và mã không rời khỏi máy cục bộ Không cần API key, gói cước hay tính phí theo token Được cung cấp miễn phí vĩnh viễn theo giấy phép MIT: “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 điểm bởi xguru 2025-10-30 | 5 bình luận | Chia sẻ qua WhatsApp

Công cụ được thiết kế để chạy LLM hoàn toàn ngoại tuyến trong môi trường cục bộ, được cung cấp dưới dạng một tệp nhị phân duy nhất 4.8MB, nhỏ hơn Ollama 142 lần
Tương thích 100% với OpenAI API, nên có thể kết nối nguyên trạng với các công cụ phát triển hiện có như Python, Node.js, VSCode Copilot, Cursor, Continue.dev
Cấu trúc Zero-Config có thể hoạt động ngay lập tức sau khi cài đặt
- Tự động phát hiện mô hình từ Hugging Face, Ollama, thư mục cục bộ, v.v.
- Hỗ trợ tự động gán cổng và phát hiện bộ chuyển đổi LoRA
Tính năng suy luận lai CPU/GPU dựa trên MOE(Mixture of Experts) giúp chạy được các mô hình lớn từ 70B trở lên trên PC phổ thông
- Offload sang CPU và phân bổ layer thông minh giúp vận hành ổn định ngay cả trong môi trường thiếu VRAM
- Có thể điều khiển chi tiết bằng các tùy chọn --cpu-moe, --n-cpu-moe
Hỗ trợ nhiều backend cho tăng tốc GPU như CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
- Tự động phát hiện trong lúc chạy, và tự động chuyển sang CPU nếu không có GPU
Kiến trúc bất đồng bộ dựa trên Rust + Tokio để đảm bảo hiệu năng cao và độ ổn định bộ nhớ
- Sử dụng backend llama.cpp nên tương thích với mô hình GGUF
- Bao gồm bộ nhớ đệm LRU, cân bằng tải tự động, giám sát tích hợp Prometheus v.v.
Thiết kế tập trung vào bảo mật và quyền riêng tư
- Dữ liệu và mã không rời khỏi máy cục bộ
- Không cần API key, gói cước hay tính phí theo token
Được cung cấp miễn phí vĩnh viễn theo giấy phép MIT: “FREE now, FREE forever”

5 bình luận

nextstep 2025-11-01

Tôi đã thử với tiếng Hàn, tiếng Anh, tiếng Trung và cả tiếng Nhật, nhưng trước mắt có vẻ đang có vấn đề trong việc xử lý tiếng Nhật.

woung717 2025-11-01

Dù sao nếu backend là llama.cpp thì có thể gọi là không phụ thuộc được không...

tsboard 2025-10-30

Wow đúng là quá đỉnh ạ, phải thử ngay mới được

kimjoin2 2025-10-30

wow

mssmss 2025-10-30

Có vẻ như trong phần contributor có cả Claude và Copilot cùng được liệt kê.

Shimmy - Máy chủ OpenAI API nhẹ, ưu tiên quyền riêng tư cá nhân, có thể thay thế Ollama

Bài viết liên quan

5 bình luận