- Bản preview của Ollama dựa trên framework Apple MLX đã được công bố, mang lại cải thiện hiệu năng bằng cách tận dụng kiến trúc bộ nhớ hợp nhất của Apple Silicon
- Thông qua GPU Neural Accelerator trên dòng chip M5, cả TTFT (thời gian tạo token đầu tiên) và tốc độ sinh token đều được cải thiện
- Hỗ trợ định dạng NVFP4 giúp giảm băng thông bộ nhớ và yêu cầu lưu trữ trong khi vẫn giữ được độ chính xác của mô hình, đồng thời có thể chạy các mô hình được tối ưu bằng NVIDIA Model Optimizer
- Tái sử dụng cache và chính sách cache thông minh giúp tăng hiệu quả bộ nhớ và tốc độ phản hồi giữa các cuộc hội thoại, đồng thời cải thiện tỷ lệ cache hit cho các prompt dùng chung
- Trong tương lai, dự kiến sẽ mở rộng kiến trúc được hỗ trợ bằng cách bổ sung thêm nhiều mô hình hơn và tính năng nhập mô hình tùy chỉnh
Bản preview Ollama chạy dựa trên MLX trên Apple Silicon
- Phiên bản preview mới của Ollama dựa trên framework MLX của Apple đã được công bố
- Có thể chạy nhanh hơn các trợ lý cá nhân (OpenClaw) hoặc coding agent (Claude Code, OpenCode, Codex, v.v.) trên macOS
- Cải thiện hiệu năng bằng cách tận dụng kiến trúc bộ nhớ hợp nhất của Apple Silicon
-
Cải thiện hiệu năng trên Apple Silicon
- Ollama hoạt động trên framework machine learning MLX của Apple và tăng tốc cả TTFT (thời gian tạo token đầu tiên) lẫn tốc độ sinh token bằng cách tận dụng GPU Neural Accelerator trên các chip M5, M5 Pro, M5 Max
- Trong bài test ngày 29/03/2026, so sánh mô hình Qwen3.5-35B-A3B của Alibaba (lượng tử hóa
NVFP4) với cách triển khai Ollama trước đây (Q4_K_M)
- Phiên bản Ollama 0.19 ghi nhận hiệu năng 1851 token/s prefill, 134 token/s decode khi chạy
int4
-
Hỗ trợ NVFP4
- Hỗ trợ định dạng NVFP4 của NVIDIA để vừa duy trì độ chính xác của mô hình vừa giảm băng thông bộ nhớ và yêu cầu lưu trữ
- Đảm bảo tính nhất quán của kết quả giữa môi trường suy luận dùng NVFP4 và môi trường production
- Có thể chạy các mô hình được tối ưu bằng Model Optimizer của NVIDIA
- Tùy theo thiết kế và mục đích sử dụng của các đối tác nghiên cứu và phần cứng của Ollama, dự kiến cũng sẽ bổ sung các mức precision khác
-
Cải tiến hệ thống cache
- Tái sử dụng cache giúp giảm lượng bộ nhớ sử dụng giữa các cuộc hội thoại và cải thiện tỷ lệ cache hit khi dùng chung system prompt
- Giới thiệu checkpoint thông minh để giảm lượng xử lý prompt và cải thiện tốc độ phản hồi
- Với chính sách loại bỏ cache thông minh, ngay cả khi các nhánh cũ bị xóa thì prefix dùng chung vẫn được giữ lại lâu hơn
-
Cách bắt đầu
- Có thể tải Ollama 0.19
- Mô hình Qwen3.5-35B-A3B mới được tinh chỉnh tham số sampling cho các tác vụ lập trình
- Cần máy Mac có bộ nhớ hợp nhất từ 32GB trở lên
- Ví dụ chạy:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
- OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
- Hội thoại với mô hình:
ollama run qwen3.5:35b-a3b-coding-nvfp4
-
Kế hoạch sắp tới
- Dự kiến hỗ trợ thêm nhiều mô hình hơn
- Dự kiến bổ sung tính năng nhập mô hình tùy chỉnh dựa trên các kiến trúc được hỗ trợ
- Tiếp tục mở rộng danh sách kiến trúc được hỗ trợ
-
Lời cảm ơn
- Nhóm cộng tác viên MLX vì đã phát triển framework tăng tốc
- Nhóm NVIDIA vì lượng tử hóa NVFP4, tối ưu hóa mô hình, hỗ trợ MLX CUDA, tối ưu hóa và kiểm thử Ollama
- Nhóm GGML và llama.cpp vì xây dựng framework cục bộ và cộng đồng
- Nhóm Alibaba Qwen vì cung cấp mô hình mã nguồn mở và hợp tác
1 bình luận
Ý kiến trên Hacker News
"apfel" mà tôi làm là một CLI dành cho foundation model cục bộ on-device của Apple
Dù có guardrail quá mức như giới hạn ngữ cảnh 4k và thậm chí chặn cả mô tả màu sắc, nhưng việc có thể dùng trực tiếp trong script bash mà không cần gọi ra ngoài thực sự rất mạnh
Tôi cũng đã kỳ vọng, nhưng dùng rồi thì thất vọng rất nhiều. Giờ có vẻ Apple đã hẳn chuyển hướng sang phía Gemini nên tôi lại thấy may mắn hơn
Tôi nghĩ LLM on-device mới là tương lai
Bảo mật tốt hơn, tiêu thụ điện ít hơn so với datacenter, và cũng có thể giảm bớt vấn đề nhu cầu suy luận. Phần lớn người dùng không cần tới hiệu năng mô hình tối tân nhất
Datacenter nhờ batching trên GPU và mức sử dụng cao nên hiệu quả gần như cao hơn PC cá nhân tới 100 lần
Tuy vậy, cách tiếp cận hybrid nơi mô hình cục bộ xử lý yêu cầu đơn giản còn việc phức tạp được chuyển lên cloud có vẻ rất hứa hẹn
Nó có sẵn giao diện kiểu ChatGPT nên rất tiện cho việc test nhanh. Ngay cả với 16GB RAM vẫn chạy được khá nhiều mô hình ổn
Ví dụ Qwen 3.5 9B bị kiểm duyệt khá nặng, còn bản Uncensored thì ngược lại quá tự do nên việc tìm điểm cân bằng khá thú vị
Tuy nhiên băng thông SSD là nút thắt cổ chai nên càng có nhiều RAM cho cache càng tốt. Nếu bạn sẵn sàng chờ phản hồi thì vẫn hoàn toàn thực dụng
Gần đây tôi tạo một ứng dụng graphRAG bằng cách kết hợp Qwen 3.5 4B và 27B, và khi tách riêng tác vụ nhỏ với hỏi đáp thì nó hoạt động khá tốt
Tôi dùng MLX, và khi xử lý theo lô việc trích xuất thực thể thì cảm giác nhanh hơn hẳn
Thật vui khi thấy suy luận Ollama trên Mac đã được cải thiện lớn nhờ MLX
Đặc biệt tính năng SSD KV caching của omlx.ai đúng là game changer
Ngay cả khi phiên làm việc biến mất khỏi bộ nhớ thì cũng không cần prefill lại, và nhờ tốc độ prefill nhanh của M5 Max nên có thể dành nhiều thời gian hơn cho việc sinh nội dung
Tôi đang chạy qwen 70b 4-bit bằng llama.cpp trên M2 Max 96GB
Nó đủ ổn định cho công việc hằng ngày. Trước đây Ollama gọi llama.cpp qua shell, còn giờ chuyển native sang MLX có vẻ sẽ cải thiện hiệu quả bộ nhớ
Tôi định sẽ so sánh với đường đi gguf trên các mô hình lớn
Tôi không hiểu vì sao mọi người vẫn còn dùng Ollama
Lemonade hay llama.cpp tối ưu hơn và độ tiện dụng cũng tương tự
Tôi muốn biết có lựa chọn không phải Mac nào để chạy mô hình cục bộ với hiệu năng cỡ đó không
Tôi tò mò nó so với engine suy luận MLX optiq mới nhất thế nào
optiq hỗ trợ Turboquantization
Tôi muốn biết so sánh hiệu năng giữa llama.cpp và MLX ra sao
Dù vậy trong đa số trường hợp thì mức tăng tốc vẫn đáng giá hơn
Tôi đang chờ đến ngày chỉ với 16GB RAM cũng có thể thoải mái chạy Claude Code bằng LLM cục bộ trên MacOS