5 điểm bởi GN⁺ 22 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Bản preview của Ollama dựa trên framework Apple MLX đã được công bố, mang lại cải thiện hiệu năng bằng cách tận dụng kiến trúc bộ nhớ hợp nhất của Apple Silicon
  • Thông qua GPU Neural Accelerator trên dòng chip M5, cả TTFT (thời gian tạo token đầu tiên)tốc độ sinh token đều được cải thiện
  • Hỗ trợ định dạng NVFP4 giúp giảm băng thông bộ nhớ và yêu cầu lưu trữ trong khi vẫn giữ được độ chính xác của mô hình, đồng thời có thể chạy các mô hình được tối ưu bằng NVIDIA Model Optimizer
  • Tái sử dụng cache và chính sách cache thông minh giúp tăng hiệu quả bộ nhớ và tốc độ phản hồi giữa các cuộc hội thoại, đồng thời cải thiện tỷ lệ cache hit cho các prompt dùng chung
  • Trong tương lai, dự kiến sẽ mở rộng kiến trúc được hỗ trợ bằng cách bổ sung thêm nhiều mô hình hơn và tính năng nhập mô hình tùy chỉnh

Bản preview Ollama chạy dựa trên MLX trên Apple Silicon

  • Phiên bản preview mới của Ollama dựa trên framework MLX của Apple đã được công bố
    • Có thể chạy nhanh hơn các trợ lý cá nhân (OpenClaw) hoặc coding agent (Claude Code, OpenCode, Codex, v.v.) trên macOS
    • Cải thiện hiệu năng bằng cách tận dụng kiến trúc bộ nhớ hợp nhất của Apple Silicon
  • Cải thiện hiệu năng trên Apple Silicon

    • Ollama hoạt động trên framework machine learning MLX của Apple và tăng tốc cả TTFT (thời gian tạo token đầu tiên) lẫn tốc độ sinh token bằng cách tận dụng GPU Neural Accelerator trên các chip M5, M5 Pro, M5 Max
    • Trong bài test ngày 29/03/2026, so sánh mô hình Qwen3.5-35B-A3B của Alibaba (lượng tử hóa NVFP4) với cách triển khai Ollama trước đây (Q4_K_M)
    • Phiên bản Ollama 0.19 ghi nhận hiệu năng 1851 token/s prefill, 134 token/s decode khi chạy int4
  • Hỗ trợ NVFP4

    • Hỗ trợ định dạng NVFP4 của NVIDIA để vừa duy trì độ chính xác của mô hình vừa giảm băng thông bộ nhớ và yêu cầu lưu trữ
    • Đảm bảo tính nhất quán của kết quả giữa môi trường suy luận dùng NVFP4 và môi trường production
    • Có thể chạy các mô hình được tối ưu bằng Model Optimizer của NVIDIA
    • Tùy theo thiết kế và mục đích sử dụng của các đối tác nghiên cứu và phần cứng của Ollama, dự kiến cũng sẽ bổ sung các mức precision khác
  • Cải tiến hệ thống cache

    • Tái sử dụng cache giúp giảm lượng bộ nhớ sử dụng giữa các cuộc hội thoại và cải thiện tỷ lệ cache hit khi dùng chung system prompt
    • Giới thiệu checkpoint thông minh để giảm lượng xử lý prompt và cải thiện tốc độ phản hồi
    • Với chính sách loại bỏ cache thông minh, ngay cả khi các nhánh cũ bị xóa thì prefix dùng chung vẫn được giữ lại lâu hơn
  • Cách bắt đầu

    • Có thể tải Ollama 0.19
    • Mô hình Qwen3.5-35B-A3B mới được tinh chỉnh tham số sampling cho các tác vụ lập trình
    • Cần máy Mac có bộ nhớ hợp nhất từ 32GB trở lên
    • Ví dụ chạy:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • Hội thoại với mô hình: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • Kế hoạch sắp tới

    • Dự kiến hỗ trợ thêm nhiều mô hình hơn
    • Dự kiến bổ sung tính năng nhập mô hình tùy chỉnh dựa trên các kiến trúc được hỗ trợ
    • Tiếp tục mở rộng danh sách kiến trúc được hỗ trợ
  • Lời cảm ơn

    • Nhóm cộng tác viên MLX vì đã phát triển framework tăng tốc
    • Nhóm NVIDIA vì lượng tử hóa NVFP4, tối ưu hóa mô hình, hỗ trợ MLX CUDA, tối ưu hóa và kiểm thử Ollama
    • Nhóm GGML và llama.cpp vì xây dựng framework cục bộ và cộng đồng
    • Nhóm Alibaba Qwen vì cung cấp mô hình mã nguồn mở và hợp tác

1 bình luận

 
Ý kiến trên Hacker News
  • "apfel" mà tôi làm là một CLI dành cho foundation model cục bộ on-device của Apple
    Dù có guardrail quá mức như giới hạn ngữ cảnh 4k và thậm chí chặn cả mô tả màu sắc, nhưng việc có thể dùng trực tiếp trong script bash mà không cần gọi ra ngoài thực sự rất mạnh

    • Thật lòng mà nói tôi không thể tin Apple lại phát hành sản phẩm ở tình trạng như thế này
      Tôi cũng đã kỳ vọng, nhưng dùng rồi thì thất vọng rất nhiều. Giờ có vẻ Apple đã hẳn chuyển hướng sang phía Gemini nên tôi lại thấy may mắn hơn
    • Dự án rất hay. Không biết bạn có kế hoạch phân phối qua Homebrew không
  • Tôi nghĩ LLM on-device mới là tương lai
    Bảo mật tốt hơn, tiêu thụ điện ít hơn so với datacenter, và cũng có thể giảm bớt vấn đề nhu cầu suy luận. Phần lớn người dùng không cần tới hiệu năng mô hình tối tân nhất

    • Bảo mật thì cao hơn, nhưng hiệu quả cung ứng lại có thể tệ đi
      Datacenter nhờ batching trên GPU và mức sử dụng cao nên hiệu quả gần như cao hơn PC cá nhân tới 100 lần
    • Từ góc độ doanh nghiệp, mô hình datacenter tập trung vẫn có thể là lựa chọn hợp lý
      Tuy vậy, cách tiếp cận hybrid nơi mô hình cục bộ xử lý yêu cầu đơn giản còn việc phức tạp được chuyển lên cloud có vẻ rất hứa hẹn
    • Gần đây tôi cài llama.cpp trên M4 MBP để thử nghiệm mô hình cục bộ
      Nó có sẵn giao diện kiểu ChatGPT nên rất tiện cho việc test nhanh. Ngay cả với 16GB RAM vẫn chạy được khá nhiều mô hình ổn
      Ví dụ Qwen 3.5 9B bị kiểm duyệt khá nặng, còn bản Uncensored thì ngược lại quá tự do nên việc tìm điểm cân bằng khá thú vị
    • Với SSD offloading, vẫn có thể chạy mô hình SOTA trên PC tiêu dùng
      Tuy nhiên băng thông SSD là nút thắt cổ chai nên càng có nhiều RAM cho cache càng tốt. Nếu bạn sẵn sàng chờ phản hồi thì vẫn hoàn toàn thực dụng
    • Tôi đã làm digital journaling 5 năm nay và từng dự đoán xu hướng này
      Gần đây tôi tạo một ứng dụng graphRAG bằng cách kết hợp Qwen 3.5 4B và 27B, và khi tách riêng tác vụ nhỏ với hỏi đáp thì nó hoạt động khá tốt
      Tôi dùng MLX, và khi xử lý theo lô việc trích xuất thực thể thì cảm giác nhanh hơn hẳn
  • Thật vui khi thấy suy luận Ollama trên Mac đã được cải thiện lớn nhờ MLX
    Đặc biệt tính năng SSD KV caching của omlx.ai đúng là game changer
    Ngay cả khi phiên làm việc biến mất khỏi bộ nhớ thì cũng không cần prefill lại, và nhờ tốc độ prefill nhanh của M5 Max nên có thể dành nhiều thời gian hơn cho việc sinh nội dung

  • Tôi đang chạy qwen 70b 4-bit bằng llama.cpp trên M2 Max 96GB
    Nó đủ ổn định cho công việc hằng ngày. Trước đây Ollama gọi llama.cpp qua shell, còn giờ chuyển native sang MLX có vẻ sẽ cải thiện hiệu quả bộ nhớ
    Tôi định sẽ so sánh với đường đi gguf trên các mô hình lớn

    • Tôi tò mò tốc độ sinh token là bao nhiêu token mỗi giây
    • Ở lần ra mắt ban đầu, họ đã ghi đè một số mô hình GGUF nên việc tải xuống bị chặn trên các nền tảng không phải Apple Silicon. Hy vọng sớm được sửa
  • Tôi không hiểu vì sao mọi người vẫn còn dùng Ollama
    Lemonade hay llama.cpp tối ưu hơn và độ tiện dụng cũng tương tự

  • Tôi muốn biết có lựa chọn không phải Mac nào để chạy mô hình cục bộ với hiệu năng cỡ đó không

    • Không ở cùng đẳng cấp. Trên PC sẽ cần GPU cỡ 5090, nhưng cả hiệu quả token trên chi phí lẫn hiệu quả điện năng thì Apple Silicon đều vượt trội hơn nhiều
  • Tôi tò mò nó so với engine suy luận MLX optiq mới nhất thế nào
    optiq hỗ trợ Turboquantization

  • Tôi muốn biết so sánh hiệu năng giữa llama.cpp và MLX ra sao

    • MLX nhanh hơn một chút nhưng dùng RAM nhiều hơn một ít
      Dù vậy trong đa số trường hợp thì mức tăng tốc vẫn đáng giá hơn
  • Tôi đang chờ đến ngày chỉ với 16GB RAM cũng có thể thoải mái chạy Claude Code bằng LLM cục bộ trên MacOS

    • Hiện tôi nghe nói tối thiểu vẫn cần 32GB, nên cũng tò mò thực tế đã tiến gần đến mức đó đến đâu