33 điểm bởi GN⁺ 19 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Tổng hợp quy trình cấu hình để Ollamamô hình Gemma 4 tự động chạy và luôn được giữ trong bộ nhớ trên Mac mini dùng Apple Silicon
  • Sử dụng Homebrew, Launch Agentbiến môi trường để mô hình tự động được nạp lại sau khi khởi động lại; mô hình 8B hoạt động ổn định với khoảng 9.6GB bộ nhớ
  • Ollama v0.19 trở lên hỗ trợ backend MLXđịnh dạng NVFP4, cải thiện hiệu năng suy luận trên môi trường Apple và NVIDIA
  • Mô hình 26B không được khuyến nghị do chiếm dụng bộ nhớ cao; mô hình 8B phù hợp hơn cho sử dụng thực tế
  • Có thể gửi yêu cầu Chat Completion tương thích OpenAI qua API cục bộ, hữu ích để xây dựng môi trường dịch vụ LLM chạy liên tục trên Mac mini

Chuẩn bị trước

  • Cần Mac mini dùng Apple Silicon (M1~M5)
  • Để chạy mô hình Gemma 4 (8B), khuyến nghị tối thiểu 16GB bộ nhớ hợp nhất
  • Cần môi trường macOS đã cài Homebrew

Bước 1 — Cài đặt Ollama

  • Cài ứng dụng Ollama cho macOS bằng Homebrew cask

    brew install --cask ollama-app
    
  • Sau khi cài đặt, Ollama.app sẽ nằm trong /Applications/, còn CLI trong /opt/homebrew/bin/ollama

  • Bao gồm tự động cập nhật và backend MLX

Bước 2 — Chạy và kiểm tra Ollama

  • Chạy ứng dụng Ollama

    open -a Ollama
    
  • Chờ biểu tượng xuất hiện trên thanh menu và máy chủ khởi tạo xong

  • Kiểm tra trạng thái chạy

    ollama list
    

Bước 3 — Tải mô hình Gemma 4

  • Tải mô hình

    ollama pull gemma4
    
  • Sau khi tải khoảng 9.6GB, xác nhận bằng ollama list

  • Mô hình 26B sẽ chiếm phần lớn 24GB bộ nhớ, khiến độ phản hồi của hệ thống giảm

    • Khuyến nghị dùng mô hình 8B mặc định (lượng tử hóa Q4_K_M)

Bước 4 — Kiểm tra mô hình và xác nhận tăng tốc GPU

  • Kiểm tra mô hình

    ollama run gemma4:latest "Hello, what model are you?"
    
  • Kiểm tra trạng thái tăng tốc GPU

    ollama ps
    
    • Ví dụ: tỷ lệ CPU/GPU là 14%/86%

Bước 5 — Thiết lập tự khởi chạy và giữ mô hình trong bộ nhớ

  • 5a. Tự khởi chạy ứng dụng Ollama

    • Nhấp biểu tượng trên thanh menu → bật Launch at Login
    • Hoặc thêm thủ công trong System Settings > General > Login Items
  • 5b. Tự preload Gemma 4

    • Tạo Launch Agent để sau khi Ollama khởi động, mô hình sẽ được nạp tự động và được giữ hoạt động bằng cách gửi nhắc rỗng mỗi 5 phút

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • Nạp agent

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • Gửi prompt rỗng mỗi 5 phút để giữ mô hình trong bộ nhớ

  • 5c. Giữ mô hình vô thời hạn

    • Mặc định mô hình sẽ bị dỡ sau 5 phút không hoạt động

    • Thiết lập giữ vô thời hạn

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • Để giữ thiết lập này sau khi khởi động lại, thêm vào ~/.zshrc

Bước 6 — Xác minh cấu hình

  • Kiểm tra máy chủ Ollama đang chạy

    ollama list
    
  • Kiểm tra trạng thái mô hình đã được nạp trong bộ nhớ

    ollama ps
    
  • Kiểm tra Launch Agent đã được đăng ký

    launchctl list | grep ollama
    
  • Ví dụ đầu ra dự kiến

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

Truy cập API

Các lệnh hữu ích

Lệnh Mô tả
ollama list Danh sách mô hình đã tải xuống
ollama ps Mô hình đang chạy và mức sử dụng bộ nhớ
ollama run gemma4:latest Chạy tương tác
ollama stop gemma4:latest Dỡ mô hình
ollama pull gemma4:latest Cập nhật phiên bản mới nhất
ollama rm gemma4:latest Xóa mô hình

Gỡ Ollama và tắt tự khởi chạy

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Các cải tiến chính của Ollama v0.19+ (31 tháng 3 năm 2026)

  • Backend MLX (Apple Silicon)

    • Tự động sử dụng framework Apple MLX để tăng tốc suy luận
    • Dòng chip M5 hỗ trợ tăng tốc bổ sung bằng GPU Neural Accelerator
    • Chip từ M4 trở xuống cũng được cải thiện tốc độ tổng thể nhờ MLX
  • Định dạng NVFP4 (NVIDIA)

    • Với định dạng NVFP4, có thể giảm băng thông bộ nhớ và dung lượng lưu trữ trong khi vẫn giữ được độ chính xác
    • Tương thích với các mô hình được tạo bằng công cụ tối ưu hóa mô hình của NVIDIA
  • Cải thiện bộ nhớ đệm (cho tác vụ lập trình và agent)

    • Giảm mức dùng bộ nhớ: tái sử dụng cache giữa các cuộc hội thoại để tăng hiệu quả
    • Checkpoint thông minh: giảm lượng xử lý prompt và cải thiện tốc độ phản hồi
    • Loại bỏ cache thông minh: giữ prefix chung để cải thiện hiệu quả cho các tác vụ phân nhánh

Ghi chú thêm

  • Mô hình Gemma 4 (8B) sử dụng khoảng 9.6GB bộ nhớ
    • Trên Mac mini 24GB, có thể còn trống khoảng 14GB
  • Mô hình 26B dùng khoảng 17GB, dễ gây swap hệ thống và làm giảm độ phản hồi
    • Mô hình 8B cho hiệu năng ổn định hơn

Liên kết tham khảo

1 bình luận

 
Ý kiến trên Hacker News
  • Nếu là người lần đầu dùng mô hình open weight ngay sau khi phát hành, cần biết rằng các bản triển khai ban đầu và lượng tử hóa (quantization) luôn có lỗi
    Vì mỗi dự án đều vội vàng hỗ trợ đúng ngày ra mắt nên kết quả có thể không chính xác
    Đã phát hiện nhiều vấn đề trong phần triển khai tokenizer, và lượng tử hóa dùng imatrix cũng có thể có vấn đề
    Trong vài tuần tới sẽ có rất nhiều bài viết kiểu “không gọi được tool nên model quá tệ”. Thực ra đó là do họ đang dùng bản triển khai bị lỗi
    Nếu muốn dùng mô hình cutting-edge, bạn phải sẵn sàng cập nhật inference engine thường xuyên, và tải lại các bản lượng tử hóa mỗi khi có thay đổi
    Vì cuộc đua để kịp ngày phát hành, mọi thứ thường diễn ra theo kiểu “ra token đầu ra là triển khai ngay”, nên việc kiểm chứng độ chính xác là chuyện để sau

    • Tôi muốn biết nên dùng inference engine nào trên Linux với 4090
      Tôi hay gặp lỗi không gọi được tool, nhưng không rõ là do model hay do ollama
  • Tôi đang cân nhắc mua Mac mini để chạy model cục bộ
    Tôi chủ yếu dùng Claude cho công việc phát triển và các dự án homelab, nên muốn biết mô hình mở có dùng ổn đến mức đó không, hay vẫn nên giữ gói thuê bao 20 USD/tháng

    • Với tác vụ nhỏ thì ổn, nhưng nếu kỳ vọng dùng như Claude thì rất dễ thất vọng
      Tôi khuyên nên thử trước trên dịch vụ host rồi mới mua phần cứng và tự host. Bạn sẽ cảm nhận rõ giới hạn của model từ sớm
    • Tôi đã dùng mô hình mở từ thời llama bị rò rỉ. Chúng đang dần tốt hơn, và việc có thể chạy một khối tri thức cục bộ mà không cần Internet thật sự rất hay
      Nhưng phải hạ kỳ vọng xuống. Dù benchmark nói gì thì vẫn không thể so với Sonnet hay Opus
    • Tốt nhất là chỉ cần tiêu 10 USD credit OpenRouter để tự kiểm tra. Theo kinh nghiệm của tôi thì hiện tại vẫn còn kém khá nhiều, nhưng thỉnh thoảng thử lại cũng thú vị
    • gpt-oss-20B có hiệu năng agent khá ổn, nhưng vẫn không thể so với các model trả phí của Claude Code. Tôi có nghe nói bản 120B tốt hơn nhiều
  • Tôi đã thử trên MacBook Pro M4 (36GB) bằng LM Studio với frontend open code, nhưng việc gọi tool cứ liên tục thất bại nên lại quay về qwen
    Không biết có ai thành công trong môi trường tương tự không

    • Lỗi gọi tool là vấn đề của phần triển khai inference engine hoặc lượng tử hóa. Tôi khuyên nên cập nhật rồi thử lại sau vài ngày. Chuyện này xảy ra mỗi lần có mô hình mở mới phát hành
    • Tôi dùng M5 (32GB), và khi chạy LM Studio thì máy bị treo phải khởi động lại
      Nhưng gemma-4-26B-A4B-it-GGUF:Q4_K_M chạy tốt trên llama.cpp. Cả tốc độ (38 token/giây) lẫn chất lượng đều rất ấn tượng
    • Tôi cũng gặp đúng vấn đề này. Bản Q_8 của LM Studio rơi vào chế độ lặp và cứ lặp lại lệnh mãi
    • Theo người khác nói thì phải cập nhật cả bản main lẫn runtime
    • Tôi cũng xác nhận lỗi gọi tool trên máy chủ Ubuntu (charmbracelet/crush)
  • Tôi đang tìm một mô hình mở có thể thay thế Claude Sonnet 4.5
    Tôi muốn biết liệu trong Ollama Cloud hay các model trên OpenRouter.ai có cái nào thay thế được không
    Tôi muốn nghe trải nghiệm thực tế của lập trình viên hơn là benchmark

    • Kết luận là không có model nào thay thế được Sonnet và Opus. Dòng GPT Codex vẫn rất xuất sắc
      Tôi đã thử MiniMax, GLM, Qwen, Kimi..., nhưng với tác vụ phức tạp thì tất cả đều bộc lộ giới hạn lớn
    • Tôi cảm thấy GLM5KimiK2.5 là các lựa chọn thay thế khá gần với Sonnet
  • Tôi muốn biết có ai đã chạy bằng bản build oMLX trên M5 Air (32GB, 10 lõi) chưa. Cũng muốn biết có gọi được tool hay không

    • Bản phát hành v0.3.2 hiện mới ở trạng thái hỗ trợ một phần. Sinh văn bản thì được nhưng xử lý token đặc biệt vẫn chưa hoàn thiện
      Cá nhân tôi đang thử thêm hỗ trợ cho việc gọi tool và thinking <|channel>
    • Tôi nghe nói có người đã chạy Gemma 4 E4B trên MLX (liên kết)
  • Thật lạ khi các bước cho “Gemma 4 12B” ở giữa lại chuyển sang 26B
    Ngoài ra trong ollama ps lại hiện “14%/86% CPU/GPU”, vậy chẳng phải điều đó có nghĩa là hiệu năng GPU kém sao?

    • Mac mini dùng bộ nhớ chia sẻ giữa CPU và GPU, nên có lẽ có thể bỏ qua tỷ lệ đó
  • Chạy model 26B cục bộ thì rất ấn tượng, nhưng độ trễ (latency) cao nên khó dùng cho việc ngoài chat
    Chúng tôi đã chuyển tác vụ sinh ảnh từ suy luận cục bộ sang gọi API. Thời gian khởi động nguội và thời gian tạo ảnh quá lâu
    Cục bộ thì tốt để thử nghiệm, nhưng với workload production cần chạy đúng giờ, API vẫn có lợi thế hơn
    Tuy vậy, khi xử lý dữ liệu nhạy cảm về quyền riêng tư, thiết lập cục bộ lại cực kỳ hữu ích

  • Tôi thắc mắc vì sao nhiều người lại dùng Ollama đến vậy. Tôi đã thử nhưng thấy nó bị đơn giản hóa quá mức
    Dạo này có vẻ Unsloth Studio là lựa chọn mặc định tốt hơn cho người mới

    • Ollama dễ tiếp cận vì chỉ cần một dòng ollama pull là có thể tải model
      Không phải tự đi tìm tên model và phiên bản trên Hugging Face một cách phức tạp
      Nhưng nếu muốn đi sâu hơn thì cuối cùng vẫn phải học cấu trúc máy chủ
    • Ollama có lợi thế người đi trước ở giai đoạn đầu. Hồi đó việc tự build llama.cpp là một rào cản
      Giờ thì tôi khuyên dùng LM Studio hơn. Tôi cũng tò mò Unsloth Studio khác ở điểm nào
    • Tôi không hiểu sao mọi người lại ít nhắc đến LMStudio hơn. Tôi đã chuyển sang nó từ vài tháng trước và thấy tốt hơn nhiều
    • Sự phổ biến của Ollama là nhờ hiệu ứng quảng bá. Trên Reddit và Discord nó được quảng cáo là ‘frontend dễ dùng cho llama.cpp’
      Muốn thắng thật sự thì phải xóa Ollama và đi thẳng sang llama.cpp
    • Tôi thì muốn hỏi ngược lại — Ollama có vấn đề gì?
      Nó chạy tốt ngay cả với GPU 16GB, và cũng đủ ổn để làm backend thử nghiệm cho các frontend khác
  • Tôi muốn biết model này có dùng được cho coding cục bộ không, và những IDE hay harness nào tương thích

    • Hầu hết harness đều có thể coding cục bộ nếu chỉ định endpoint API tương thích OpenAI
      Tuy nhiên bản Codex mới nhất có vấn đề tương thích API với llama.cpp
      Tôi thích Pi hơn. Nó tối giản và dễ mở rộng. Claude Code hay OpenCode cũng được dùng nhiều
    • Nó phải hỗ trợ gọi tool, nhưng nhiều bản gguf lượng tử hóa lại không hỗ trợ điều đó
      Để giải quyết việc này, tôi đã tạo một proxy tên là Petsitter để giả lập tính năng giữa inference engine và harness
      Liên kết GitHub
      Chỉ cần đặt Petsitter phía trên Ollama, rồi đặt agent harness phía trên nó
      Bản Ollama mới nhất đã hỗ trợ "completion", "vision", "audio", "tools", "thinking"
  • Tối qua muốn dùng model này thì tôi phải cài bản pre-release Ollama v0.20. Vì vậy tôi nghi ngờ hướng dẫn hiện tại có còn chính xác không