31 điểm bởi xguru 2026-05-12 | 6 bình luận | Chia sẻ qua WhatsApp
  • Công cụ suy luận để chạy mô hình AI cục bộ trên máy Mac Apple Silicon, tận dụng các kernel tính toán Metal gốc dựa trên framework MLX của Apple
  • Tốc độ suy luận nhanh hơn tối đa 4,2 lần so với Ollama - dựa trên Phi-4 Mini 14B đạt 180 tok/s (nhanh hơn 3,2 lần so với Ollama 56 tok/s), dựa trên Qwen3.5-9B đạt 108 tok/s (nhanh hơn 2,6 lần so với Ollama 41 tok/s)
  • Khi trạng thái đã được cache, TTFT 0,08 giây (dựa trên Kimi-Linear-48B), đa số mô hình ở mức 0,1~0,3 giây
  • Tích hợp sẵn 17 parser gọi công cụ và tự động phát hiện theo tên mô hình — ngay cả khi mô hình lượng tử hóa 4bit xuất lời gọi công cụ bị hỏng dưới dạng văn bản, hệ thống vẫn tự động khôi phục về định dạng có cấu trúc
  • Cung cấp ánh xạ mô hình tối ưu theo từng mức RAM, từ MacBook Air 16GB (Qwen3.5-4B, 160 tok/s) đến Mac Studio Ultra 256GB (DeepSeek V4 Flash 158B, 31 tok/s, ngữ cảnh 1M)
    • 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → dùng 2.4GB RAM, 160 tok/s, phù hợp chat · lập trình · gọi công cụ
    • 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, mô hình đa dụng
    • 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, gọi công cụ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 chuyên gia MoE, ngữ cảnh 262K)
    • 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, cân bằng tối ưu giữa thông minh + nhanh
    • 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, trí tuệ cấp frontier
    • 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier day-0
    • 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) hoặc DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, ngữ cảnh 1M)
    • 4bit giúp tiết kiệm bộ nhớ (được khuyến nghị trong đa số trường hợp), 8bit dành cho suy luận chất lượng cao, mxfp4 là định dạng 4bit chất lượng cao
  • Tính năng tách suy luận tách riêng quá trình suy luận của các mô hình chain-of-thought vào trường reasoning_content — hỗ trợ định dạng Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
  • Với KV cache trimming cho transformer tiêu chuẩn và DeltaNet state snapshot cho kiến trúc hybrid Qwen3.5 (khôi phục ~0.1ms), TTFT của hội thoại nhiều lượt được cải thiện 2~5 lần và luôn bật mà không cần cờ riêng
  • Hỗ trợ smart cloud routing để tự động chuyển các yêu cầu ngữ cảnh lớn có local prefill chậm sang LLM đám mây như GPT-5, Claude
  • Thay thế drop-in cho OpenAI API — các ứng dụng tương thích OpenAI như Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI... có thể kết nối ngay qua localhost:8000/v1
  • Hỗ trợ mở rộng đa phương thức và tùy chọn như Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, tạo JSON theo ràng buộc schema
  • Tích hợp nhiều kỹ thuật tối ưu hóa như TurboQuant V-cache (giảm 86% bộ nhớ), lượng tử hóa KV cache, prefill chunking, tool logits bias
  • Cung cấp MHI (Model-Harness Index) để đo độ tương thích giữa mô hình và agent harness — Qwopus 27B đạt điểm cao nhất với MHI 92
  • Các kỹ thuật tăng tốc bổ sung như Speculative Decode (1.5~2.3 lần), EAGLE-3 (3~6.5 lần), ReDrafter (1.4~1.5 lần) nằm trong lộ trình phát triển
  • Giấy phép Apache 2.0

6 bình luận

 
hulryung 2026-05-13

Liệu có ai thực sự dùng cái đó trên MBP 128GB không nhỉ? (Mình tò mò muốn nghe ý kiến)
Giá đâu đó khoảng 8 triệu won, nên cũng tự hỏi liệu sau khoảng 1 năm thì có còn tính toán kinh tế hay không..
Mà nghĩ lại thì kể cả có dùng AI local, chắc vẫn sẽ dùng kèm gói thuê bao nữa thôi haha

 
emptybynature 28 ngày trước

Tôi đang dùng M5 Max 128GB, cũng đang đăng ký codex, deepseek, kimi và trả tiền dùng API luôn haha. Thực ra để dùng model local một cách hữu ích thì ngay cả trên MacBook 128GB, gần như chỉ có Qwen 3.6 27b là lựa chọn gần như duy nhất. Những model khác có số tham số tương tự thì hiệu năng kém hơn, còn loại như model 122B thì đúng là có thể chạy lên được đấy, nhưng không vận hành ở mức có thể đem ra dùng thực tế.

 
mrdoosun 2026-05-13

Các con số về tốc độ cũng rất ấn tượng, nhưng cá nhân tôi lại chú ý hơn đến phần tương thích OpenAI API, trình phân tích tool call và việc tách riêng reasoning.

Khi gắn mô hình cục bộ vào công cụ phát triển hay luồng agent ở backend, tôi nhận ra rằng ngoài tốc độ suy luận thuần túy, những yếu tố như khác biệt định dạng phản hồi giữa từng mô hình, khôi phục tool call bị hỏng, hay TTFT trong ngữ cảnh dài mới là thứ ảnh hưởng rất nhiều đến tính hữu dụng thực tế. Xét ở góc độ đó, nó có vẻ gần với một “engine cục bộ có thể gắn ổn định vào agent harness” hơn là chỉ một “engine suy luận cục bộ nhanh”.

Benchmark thì vẫn cần tái hiện lại trong cùng điều kiện mới có thể đánh giá chính xác, nhưng nếu trên Apple Silicon đã có thể đạt được vòng lặp phát triển cục bộ ở mức này, chi phí thử nghiệm prototype hay công cụ nội bộ có lẽ sẽ giảm đi khá nhiều. Những nỗ lực như MHI nhằm đánh giá riêng tính tương thích giữa mô hình và harness cũng khá thú vị.

 
parkindani 2026-05-12

Không biết hiệu năng sẽ thế nào khi so với omlx.

 
xguru 2026-05-12

Cá nhân mình đang thử chạy deepseek4 bằng antirez/ds4, và có vẻ tốc độ phía ds4 nhanh hơn một chút.

ds4 chỉ dành riêng cho 128gb nên hơi lưng chừng, nhưng với các model khác thì có vẻ sẽ ổn.

Gần đây, có một tweet của CEO HuggingFace nói rằng thử code trên máy bay với Qwen3.6 27B thì đạt mức Opus, và tweet đó khá nổi. Chắc mình cũng phải thử đưa 3.6 27B lên cái này xem sao.
https://x.com/julien_c/status/2047647522173104145

 
yangeok 2026-05-12

Tôi khá tò mò không biết hiệu năng tiếng Hàn sẽ thế nào.. Tôi đang dùng bản 96GB, chắc sẽ kém hơn các LLM trả phí đúng không..?

Nếu đạt cỡ gemini cli thôi thì cũng đã tốt rồi haha