Rapid-MLX - động cơ AI cục bộ siêu tốc dành riêng cho Apple Silicon

xguru · 2026-05-12T09:46:02+09:00

Công cụ suy luận để chạy mô hình AI cục bộ trên máy Mac Apple Silicon, tận dụng các kernel tính toán Metal gốc dựa trên framework MLX của Apple Tốc độ suy luận nhanh hơn tối đa 4,2 lần so với Ollama - dựa trên Phi-4 Mini 14B đạt 180 tok/s (nhanh hơn 3,2 lần so với Ollama 56 tok/s), dựa trên Qwen3.5-9B đạt 108 tok/s (nhanh hơn 2,6 lần so với Ollama 41 tok/s) Khi trạng thái đã được cache, TTFT 0,08 giây (dựa trên Kimi-Linear-48B), đa số mô hình ở mức 0,1~0,3 giây Tích hợp sẵn 17 parser gọi công cụ và tự động phát hiện theo tên mô hình — ngay cả khi mô hình lượng tử hóa 4bit xuất lời gọi công cụ bị hỏng dưới dạng văn bản, hệ thống vẫn tự động khôi phục về định dạng có cấu trúc Cung cấp ánh xạ mô hình tối ưu theo từng mức RAM, từ MacBook Air 16GB (Qwen3.5-4B, 160 tok/s) đến Mac Studio Ultra 256GB (DeepSeek V4 Flash 158B, 31 tok/s, ngữ cảnh 1M) 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → dùng 2.4GB RAM, 160 tok/s, phù hợp chat · lập trình · gọi công cụ 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, mô hình đa dụng 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, gọi công cụ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 chuyên gia MoE, ngữ cảnh 262K) 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, cân bằng tối ưu giữa thông minh + nhanh 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, trí tuệ cấp frontier 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier day-0 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) hoặc DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, ngữ cảnh 1M) 4bit giúp tiết kiệm bộ nhớ (được khuyến nghị trong đa số trường hợp), 8bit dành cho suy luận chất lượng cao, mxfp4 là định dạng 4bit chất lượng cao Tính năng tách suy luận tách riêng quá trình suy luận của các mô hình chain-of-thought vào trường reasoning_content — hỗ trợ định dạng Qwen3, DeepSeek-R1, MiniMax, GPT-OSS Với KV cache trimming cho transformer tiêu chuẩn và DeltaNet state snapshot cho kiến trúc hybrid Qwen3.5 (khôi phục ~0.1ms), TTFT của hội thoại nhiều lượt được cải thiện 2~5 lần và luôn bật mà không cần cờ riêng Hỗ trợ smart cloud routing để tự động chuyển các yêu cầu ngữ cảnh lớn có local prefill chậm sang LLM đám mây như GPT-5, Claude Thay thế drop-in cho OpenAI API — các ứng dụng tương thích OpenAI như Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI... có thể kết nối ngay qua localhost:8000/v1 Hỗ trợ mở rộng đa phương thức và tùy chọn như Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, tạo JSON theo ràng buộc schema Tích hợp nhiều kỹ thuật tối ưu hóa như TurboQuant V-cache (giảm 86% bộ nhớ), lượng tử hóa KV cache, prefill chunking, tool logits bias Cung cấp MHI (Model-Harness Index) để đo độ tương thích giữa mô hình và agent harness — Qwopus 27B đạt điểm cao nhất với MHI 92 Các kỹ thuật tăng tốc bổ sung như Speculative Decode (1.5~2.3 lần), EAGLE-3 (3~6.5 lần), ReDrafter (1.4~1.5 lần) nằm trong lộ trình phát triển Giấy phép Apache 2.0

(github.com/raullenchai)

13 điểm bởi xguru 7 giờ trước | 3 bình luận | Chia sẻ qua WhatsApp

Công cụ suy luận để chạy mô hình AI cục bộ trên máy Mac Apple Silicon, tận dụng các kernel tính toán Metal gốc dựa trên framework MLX của Apple
Tốc độ suy luận nhanh hơn tối đa 4,2 lần so với Ollama - dựa trên Phi-4 Mini 14B đạt 180 tok/s (nhanh hơn 3,2 lần so với Ollama 56 tok/s), dựa trên Qwen3.5-9B đạt 108 tok/s (nhanh hơn 2,6 lần so với Ollama 41 tok/s)
Khi trạng thái đã được cache, TTFT 0,08 giây (dựa trên Kimi-Linear-48B), đa số mô hình ở mức 0,1~0,3 giây
Tích hợp sẵn 17 parser gọi công cụ và tự động phát hiện theo tên mô hình — ngay cả khi mô hình lượng tử hóa 4bit xuất lời gọi công cụ bị hỏng dưới dạng văn bản, hệ thống vẫn tự động khôi phục về định dạng có cấu trúc
Cung cấp ánh xạ mô hình tối ưu theo từng mức RAM, từ MacBook Air 16GB (Qwen3.5-4B, 160 tok/s) đến Mac Studio Ultra 256GB (DeepSeek V4 Flash 158B, 31 tok/s, ngữ cảnh 1M)
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → dùng 2.4GB RAM, 160 tok/s, phù hợp chat · lập trình · gọi công cụ
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, mô hình đa dụng
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, gọi công cụ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 chuyên gia MoE, ngữ cảnh 262K)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, cân bằng tối ưu giữa thông minh + nhanh
- 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, trí tuệ cấp frontier
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier day-0
- 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) hoặc DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, ngữ cảnh 1M)
- 4bit giúp tiết kiệm bộ nhớ (được khuyến nghị trong đa số trường hợp), 8bit dành cho suy luận chất lượng cao, mxfp4 là định dạng 4bit chất lượng cao
Tính năng tách suy luận tách riêng quá trình suy luận của các mô hình chain-of-thought vào trường reasoning_content — hỗ trợ định dạng Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
Với KV cache trimming cho transformer tiêu chuẩn và DeltaNet state snapshot cho kiến trúc hybrid Qwen3.5 (khôi phục ~0.1ms), TTFT của hội thoại nhiều lượt được cải thiện 2~5 lần và luôn bật mà không cần cờ riêng
Hỗ trợ smart cloud routing để tự động chuyển các yêu cầu ngữ cảnh lớn có local prefill chậm sang LLM đám mây như GPT-5, Claude
Thay thế drop-in cho OpenAI API — các ứng dụng tương thích OpenAI như Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI... có thể kết nối ngay qua localhost:8000/v1
Hỗ trợ mở rộng đa phương thức và tùy chọn như Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, tạo JSON theo ràng buộc schema
Tích hợp nhiều kỹ thuật tối ưu hóa như TurboQuant V-cache (giảm 86% bộ nhớ), lượng tử hóa KV cache, prefill chunking, tool logits bias
Cung cấp MHI (Model-Harness Index) để đo độ tương thích giữa mô hình và agent harness — Qwopus 27B đạt điểm cao nhất với MHI 92
Các kỹ thuật tăng tốc bổ sung như Speculative Decode (1.5~2.3 lần), EAGLE-3 (3~6.5 lần), ReDrafter (1.4~1.5 lần) nằm trong lộ trình phát triển
Giấy phép Apache 2.0

3 bình luận

parkindani 3 giờ trước

Không biết hiệu năng sẽ thế nào khi so với omlx.

xguru 6 giờ trước

Cá nhân mình đang thử chạy deepseek4 bằng antirez/ds4, và có vẻ tốc độ phía ds4 nhanh hơn một chút.

ds4 chỉ dành riêng cho 128gb nên hơi lưng chừng, nhưng với các model khác thì có vẻ sẽ ổn.

Gần đây, có một tweet của CEO HuggingFace nói rằng thử code trên máy bay với Qwen3.6 27B thì đạt mức Opus, và tweet đó khá nổi. Chắc mình cũng phải thử đưa 3.6 27B lên cái này xem sao.
https://x.com/julien_c/status/2047647522173104145

yangeok 7 giờ trước

Tôi khá tò mò không biết hiệu năng tiếng Hàn sẽ thế nào.. Tôi đang dùng bản 96GB, chắc sẽ kém hơn các LLM trả phí đúng không..?

Nếu đạt cỡ gemini cli thôi thì cũng đã tốt rồi haha

Rapid-MLX - động cơ AI cục bộ siêu tốc dành riêng cho Apple Silicon

Bài viết liên quan

3 bình luận