- Công cụ suy luận để chạy mô hình AI cục bộ trên máy Mac Apple Silicon, tận dụng các kernel tính toán Metal gốc dựa trên framework MLX của Apple
- Tốc độ suy luận nhanh hơn tối đa 4,2 lần so với Ollama - dựa trên Phi-4 Mini 14B đạt 180 tok/s (nhanh hơn 3,2 lần so với Ollama 56 tok/s), dựa trên Qwen3.5-9B đạt 108 tok/s (nhanh hơn 2,6 lần so với Ollama 41 tok/s)
- Khi trạng thái đã được cache, TTFT 0,08 giây (dựa trên Kimi-Linear-48B), đa số mô hình ở mức 0,1~0,3 giây
- Tích hợp sẵn 17 parser gọi công cụ và tự động phát hiện theo tên mô hình — ngay cả khi mô hình lượng tử hóa 4bit xuất lời gọi công cụ bị hỏng dưới dạng văn bản, hệ thống vẫn tự động khôi phục về định dạng có cấu trúc
- Cung cấp ánh xạ mô hình tối ưu theo từng mức RAM, từ MacBook Air 16GB (Qwen3.5-4B, 160 tok/s) đến Mac Studio Ultra 256GB (DeepSeek V4 Flash 158B, 31 tok/s, ngữ cảnh 1M)
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → dùng 2.4GB RAM, 160 tok/s, phù hợp chat · lập trình · gọi công cụ
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, mô hình đa dụng
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, gọi công cụ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 chuyên gia MoE, ngữ cảnh 262K)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, cân bằng tối ưu giữa thông minh + nhanh
- 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, trí tuệ cấp frontier
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier day-0
- 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) hoặc DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, ngữ cảnh 1M)
- 4bit giúp tiết kiệm bộ nhớ (được khuyến nghị trong đa số trường hợp), 8bit dành cho suy luận chất lượng cao, mxfp4 là định dạng 4bit chất lượng cao
- Tính năng tách suy luận tách riêng quá trình suy luận của các mô hình chain-of-thought vào trường
reasoning_content — hỗ trợ định dạng Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
- Với KV cache trimming cho transformer tiêu chuẩn và DeltaNet state snapshot cho kiến trúc hybrid Qwen3.5 (khôi phục ~0.1ms), TTFT của hội thoại nhiều lượt được cải thiện 2~5 lần và luôn bật mà không cần cờ riêng
- Hỗ trợ smart cloud routing để tự động chuyển các yêu cầu ngữ cảnh lớn có local prefill chậm sang LLM đám mây như GPT-5, Claude
- Thay thế drop-in cho OpenAI API — các ứng dụng tương thích OpenAI như Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI... có thể kết nối ngay qua
localhost:8000/v1
- Hỗ trợ mở rộng đa phương thức và tùy chọn như Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, tạo JSON theo ràng buộc schema
- Tích hợp nhiều kỹ thuật tối ưu hóa như TurboQuant V-cache (giảm 86% bộ nhớ), lượng tử hóa KV cache, prefill chunking, tool logits bias
- Cung cấp MHI (Model-Harness Index) để đo độ tương thích giữa mô hình và agent harness — Qwopus 27B đạt điểm cao nhất với MHI 92
- Các kỹ thuật tăng tốc bổ sung như Speculative Decode (1.5~2.3 lần), EAGLE-3 (3~6.5 lần), ReDrafter (1.4~1.5 lần) nằm trong lộ trình phát triển
- Giấy phép Apache 2.0
3 bình luận
Không biết hiệu năng sẽ thế nào khi so với omlx.
Cá nhân mình đang thử chạy deepseek4 bằng antirez/ds4, và có vẻ tốc độ phía ds4 nhanh hơn một chút.
ds4 chỉ dành riêng cho 128gb nên hơi lưng chừng, nhưng với các model khác thì có vẻ sẽ ổn.
Gần đây, có một tweet của CEO HuggingFace nói rằng thử code trên máy bay với Qwen3.6 27B thì đạt mức Opus, và tweet đó khá nổi. Chắc mình cũng phải thử đưa 3.6 27B lên cái này xem sao.
https://x.com/julien_c/status/2047647522173104145
Tôi khá tò mò không biết hiệu năng tiếng Hàn sẽ thế nào.. Tôi đang dùng bản 96GB, chắc sẽ kém hơn các LLM trả phí đúng không..?
Nếu đạt cỡ gemini cli thôi thì cũng đã tốt rồi haha