Tóm tắt thiết lập Ollama và mô hình Gemma 4 26B trên Mac mini (tính đến tháng 4 năm 2026)

(gist.github.com/greenstevester)

33 điểm bởi GN⁺ 19 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

Tổng hợp quy trình cấu hình để Ollama và mô hình Gemma 4 tự động chạy và luôn được giữ trong bộ nhớ trên Mac mini dùng Apple Silicon
Sử dụng Homebrew, Launch Agent và biến môi trường để mô hình tự động được nạp lại sau khi khởi động lại; mô hình 8B hoạt động ổn định với khoảng 9.6GB bộ nhớ
Ollama v0.19 trở lên hỗ trợ backend MLX và định dạng NVFP4, cải thiện hiệu năng suy luận trên môi trường Apple và NVIDIA
Mô hình 26B không được khuyến nghị do chiếm dụng bộ nhớ cao; mô hình 8B phù hợp hơn cho sử dụng thực tế
Có thể gửi yêu cầu Chat Completion tương thích OpenAI qua API cục bộ, hữu ích để xây dựng môi trường dịch vụ LLM chạy liên tục trên Mac mini

Chuẩn bị trước

Cần Mac mini dùng Apple Silicon (M1~M5)
Để chạy mô hình Gemma 4 (8B), khuyến nghị tối thiểu 16GB bộ nhớ hợp nhất
Cần môi trường macOS đã cài Homebrew

Bước 1 — Cài đặt Ollama

Cài ứng dụng Ollama cho macOS bằng Homebrew cask
```
brew install --cask ollama-app
```
Sau khi cài đặt, Ollama.app sẽ nằm trong /Applications/, còn CLI trong /opt/homebrew/bin/ollama
Bao gồm tự động cập nhật và backend MLX

Bước 2 — Chạy và kiểm tra Ollama

Chạy ứng dụng Ollama
```
open -a Ollama
```
Chờ biểu tượng xuất hiện trên thanh menu và máy chủ khởi tạo xong
Kiểm tra trạng thái chạy
```
ollama list
```

Bước 3 — Tải mô hình Gemma 4

Tải mô hình
```
ollama pull gemma4
```
Sau khi tải khoảng 9.6GB, xác nhận bằng ollama list
Mô hình 26B sẽ chiếm phần lớn 24GB bộ nhớ, khiến độ phản hồi của hệ thống giảm
- Khuyến nghị dùng mô hình 8B mặc định (lượng tử hóa Q4_K_M)

Bước 4 — Kiểm tra mô hình và xác nhận tăng tốc GPU

Kiểm tra mô hình

ollama run gemma4:latest "Hello, what model are you?"

Kiểm tra trạng thái tăng tốc GPU
```
ollama ps
```
- Ví dụ: tỷ lệ CPU/GPU là 14%/86%

Bước 5 — Thiết lập tự khởi chạy và giữ mô hình trong bộ nhớ

5a. Tự khởi chạy ứng dụng Ollama
- Nhấp biểu tượng trên thanh menu → bật Launch at Login
- Hoặc thêm thủ công trong System Settings > General > Login Items
5b. Tự preload Gemma 4
- Tạo Launch Agent để sau khi Ollama khởi động, mô hình sẽ được nạp tự động và được giữ hoạt động bằng cách gửi nhắc rỗng mỗi 5 phút
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- Nạp agent
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- Gửi prompt rỗng mỗi 5 phút để giữ mô hình trong bộ nhớ
5c. Giữ mô hình vô thời hạn
- Mặc định mô hình sẽ bị dỡ sau 5 phút không hoạt động
- Thiết lập giữ vô thời hạn
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- Để giữ thiết lập này sau khi khởi động lại, thêm vào ~/.zshrc

Bước 6 — Xác minh cấu hình

Kiểm tra máy chủ Ollama đang chạy
```
ollama list
```
Kiểm tra trạng thái mô hình đã được nạp trong bộ nhớ
```
ollama ps
```
Kiểm tra Launch Agent đã được đăng ký
```
launchctl list | grep ollama
```

Ví dụ đầu ra dự kiến

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

Truy cập API

Endpoint API cục bộ: http://localhost:11434

Ví dụ Chat Completion tương thích OpenAI

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Các lệnh hữu ích

Lệnh	Mô tả
`ollama list`	Danh sách mô hình đã tải xuống
`ollama ps`	Mô hình đang chạy và mức sử dụng bộ nhớ
`ollama run gemma4:latest`	Chạy tương tác
`ollama stop gemma4:latest`	Dỡ mô hình
`ollama pull gemma4:latest`	Cập nhật phiên bản mới nhất
`ollama rm gemma4:latest`	Xóa mô hình

Gỡ Ollama và tắt tự khởi chạy

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Các cải tiến chính của Ollama v0.19+ (31 tháng 3 năm 2026)

Backend MLX (Apple Silicon)
- Tự động sử dụng framework Apple MLX để tăng tốc suy luận
- Dòng chip M5 hỗ trợ tăng tốc bổ sung bằng GPU Neural Accelerator
- Chip từ M4 trở xuống cũng được cải thiện tốc độ tổng thể nhờ MLX
Định dạng NVFP4 (NVIDIA)
- Với định dạng NVFP4, có thể giảm băng thông bộ nhớ và dung lượng lưu trữ trong khi vẫn giữ được độ chính xác
- Tương thích với các mô hình được tạo bằng công cụ tối ưu hóa mô hình của NVIDIA
Cải thiện bộ nhớ đệm (cho tác vụ lập trình và agent)
- Giảm mức dùng bộ nhớ: tái sử dụng cache giữa các cuộc hội thoại để tăng hiệu quả
- Checkpoint thông minh: giảm lượng xử lý prompt và cải thiện tốc độ phản hồi
- Loại bỏ cache thông minh: giữ prefix chung để cải thiện hiệu quả cho các tác vụ phân nhánh

Ghi chú thêm

Mô hình Gemma 4 (8B) sử dụng khoảng 9.6GB bộ nhớ
- Trên Mac mini 24GB, có thể còn trống khoảng 14GB
Mô hình 26B dùng khoảng 17GB, dễ gây swap hệ thống và làm giảm độ phản hồi
- Mô hình 8B cho hiệu năng ổn định hơn

Liên kết tham khảo

1 bình luận

GN⁺ 19 ngày trước

Ý kiến trên Hacker News

Nếu là người lần đầu dùng mô hình open weight ngay sau khi phát hành, cần biết rằng các bản triển khai ban đầu và lượng tử hóa (quantization) luôn có lỗi
Vì mỗi dự án đều vội vàng hỗ trợ đúng ngày ra mắt nên kết quả có thể không chính xác
Đã phát hiện nhiều vấn đề trong phần triển khai tokenizer, và lượng tử hóa dùng imatrix cũng có thể có vấn đề
Trong vài tuần tới sẽ có rất nhiều bài viết kiểu “không gọi được tool nên model quá tệ”. Thực ra đó là do họ đang dùng bản triển khai bị lỗi
Nếu muốn dùng mô hình cutting-edge, bạn phải sẵn sàng cập nhật inference engine thường xuyên, và tải lại các bản lượng tử hóa mỗi khi có thay đổi
Vì cuộc đua để kịp ngày phát hành, mọi thứ thường diễn ra theo kiểu “ra token đầu ra là triển khai ngay”, nên việc kiểm chứng độ chính xác là chuyện để sau
- Tôi muốn biết nên dùng inference engine nào trên Linux với 4090
  Tôi hay gặp lỗi không gọi được tool, nhưng không rõ là do model hay do ollama
Tôi đang cân nhắc mua Mac mini để chạy model cục bộ
Tôi chủ yếu dùng Claude cho công việc phát triển và các dự án homelab, nên muốn biết mô hình mở có dùng ổn đến mức đó không, hay vẫn nên giữ gói thuê bao 20 USD/tháng
- Với tác vụ nhỏ thì ổn, nhưng nếu kỳ vọng dùng như Claude thì rất dễ thất vọng
  Tôi khuyên nên thử trước trên dịch vụ host rồi mới mua phần cứng và tự host. Bạn sẽ cảm nhận rõ giới hạn của model từ sớm
- Tôi đã dùng mô hình mở từ thời llama bị rò rỉ. Chúng đang dần tốt hơn, và việc có thể chạy một khối tri thức cục bộ mà không cần Internet thật sự rất hay
  Nhưng phải hạ kỳ vọng xuống. Dù benchmark nói gì thì vẫn không thể so với Sonnet hay Opus
- Tốt nhất là chỉ cần tiêu 10 USD credit OpenRouter để tự kiểm tra. Theo kinh nghiệm của tôi thì hiện tại vẫn còn kém khá nhiều, nhưng thỉnh thoảng thử lại cũng thú vị
- gpt-oss-20B có hiệu năng agent khá ổn, nhưng vẫn không thể so với các model trả phí của Claude Code. Tôi có nghe nói bản 120B tốt hơn nhiều
Tôi đã thử trên MacBook Pro M4 (36GB) bằng LM Studio với frontend open code, nhưng việc gọi tool cứ liên tục thất bại nên lại quay về qwen
Không biết có ai thành công trong môi trường tương tự không
- Lỗi gọi tool là vấn đề của phần triển khai inference engine hoặc lượng tử hóa. Tôi khuyên nên cập nhật rồi thử lại sau vài ngày. Chuyện này xảy ra mỗi lần có mô hình mở mới phát hành
- Tôi dùng M5 (32GB), và khi chạy LM Studio thì máy bị treo phải khởi động lại
  Nhưng gemma-4-26B-A4B-it-GGUF:Q4_K_M chạy tốt trên llama.cpp. Cả tốc độ (38 token/giây) lẫn chất lượng đều rất ấn tượng
- Tôi cũng gặp đúng vấn đề này. Bản Q_8 của LM Studio rơi vào chế độ lặp và cứ lặp lại lệnh mãi
- Theo người khác nói thì phải cập nhật cả bản main lẫn runtime
- Tôi cũng xác nhận lỗi gọi tool trên máy chủ Ubuntu (charmbracelet/crush)
Tôi đang tìm một mô hình mở có thể thay thế Claude Sonnet 4.5
Tôi muốn biết liệu trong Ollama Cloud hay các model trên OpenRouter.ai có cái nào thay thế được không
Tôi muốn nghe trải nghiệm thực tế của lập trình viên hơn là benchmark
- Kết luận là không có model nào thay thế được Sonnet và Opus. Dòng GPT Codex vẫn rất xuất sắc
  Tôi đã thử MiniMax, GLM, Qwen, Kimi..., nhưng với tác vụ phức tạp thì tất cả đều bộc lộ giới hạn lớn
- Tôi cảm thấy GLM5 và KimiK2.5 là các lựa chọn thay thế khá gần với Sonnet
Tôi muốn biết có ai đã chạy bằng bản build oMLX trên M5 Air (32GB, 10 lõi) chưa. Cũng muốn biết có gọi được tool hay không
- Bản phát hành v0.3.2 hiện mới ở trạng thái hỗ trợ một phần. Sinh văn bản thì được nhưng xử lý token đặc biệt vẫn chưa hoàn thiện
  Cá nhân tôi đang thử thêm hỗ trợ cho việc gọi tool và thinking <|channel>
- Tôi nghe nói có người đã chạy Gemma 4 E4B trên MLX (liên kết)
Thật lạ khi các bước cho “Gemma 4 12B” ở giữa lại chuyển sang 26B
Ngoài ra trong ollama ps lại hiện “14%/86% CPU/GPU”, vậy chẳng phải điều đó có nghĩa là hiệu năng GPU kém sao?
- Mac mini dùng bộ nhớ chia sẻ giữa CPU và GPU, nên có lẽ có thể bỏ qua tỷ lệ đó
Chạy model 26B cục bộ thì rất ấn tượng, nhưng độ trễ (latency) cao nên khó dùng cho việc ngoài chat
Chúng tôi đã chuyển tác vụ sinh ảnh từ suy luận cục bộ sang gọi API. Thời gian khởi động nguội và thời gian tạo ảnh quá lâu
Cục bộ thì tốt để thử nghiệm, nhưng với workload production cần chạy đúng giờ, API vẫn có lợi thế hơn
Tuy vậy, khi xử lý dữ liệu nhạy cảm về quyền riêng tư, thiết lập cục bộ lại cực kỳ hữu ích
Tôi thắc mắc vì sao nhiều người lại dùng Ollama đến vậy. Tôi đã thử nhưng thấy nó bị đơn giản hóa quá mức
Dạo này có vẻ Unsloth Studio là lựa chọn mặc định tốt hơn cho người mới
- Ollama dễ tiếp cận vì chỉ cần một dòng ollama pull là có thể tải model
  Không phải tự đi tìm tên model và phiên bản trên Hugging Face một cách phức tạp
  Nhưng nếu muốn đi sâu hơn thì cuối cùng vẫn phải học cấu trúc máy chủ
- Ollama có lợi thế người đi trước ở giai đoạn đầu. Hồi đó việc tự build llama.cpp là một rào cản
  Giờ thì tôi khuyên dùng LM Studio hơn. Tôi cũng tò mò Unsloth Studio khác ở điểm nào
- Tôi không hiểu sao mọi người lại ít nhắc đến LMStudio hơn. Tôi đã chuyển sang nó từ vài tháng trước và thấy tốt hơn nhiều
- Sự phổ biến của Ollama là nhờ hiệu ứng quảng bá. Trên Reddit và Discord nó được quảng cáo là ‘frontend dễ dùng cho llama.cpp’
  Muốn thắng thật sự thì phải xóa Ollama và đi thẳng sang llama.cpp
- Tôi thì muốn hỏi ngược lại — Ollama có vấn đề gì?
  Nó chạy tốt ngay cả với GPU 16GB, và cũng đủ ổn để làm backend thử nghiệm cho các frontend khác
Tôi muốn biết model này có dùng được cho coding cục bộ không, và những IDE hay harness nào tương thích
- Hầu hết harness đều có thể coding cục bộ nếu chỉ định endpoint API tương thích OpenAI
  Tuy nhiên bản Codex mới nhất có vấn đề tương thích API với llama.cpp
  Tôi thích Pi hơn. Nó tối giản và dễ mở rộng. Claude Code hay OpenCode cũng được dùng nhiều
- Nó phải hỗ trợ gọi tool, nhưng nhiều bản gguf lượng tử hóa lại không hỗ trợ điều đó
  Để giải quyết việc này, tôi đã tạo một proxy tên là Petsitter để giả lập tính năng giữa inference engine và harness
  Liên kết GitHub
  Chỉ cần đặt Petsitter phía trên Ollama, rồi đặt agent harness phía trên nó
  Bản Ollama mới nhất đã hỗ trợ "completion", "vision", "audio", "tools", "thinking"
Tối qua muốn dùng model này thì tôi phải cài bản pre-release Ollama v0.20. Vì vậy tôi nghi ngờ hướng dẫn hiện tại có còn chính xác không

Tóm tắt thiết lập Ollama và mô hình Gemma 4 26B trên Mac mini (tính đến tháng 4 năm 2026)

Chuẩn bị trước

Bước 1 — Cài đặt Ollama

Bước 2 — Chạy và kiểm tra Ollama

Bước 3 — Tải mô hình Gemma 4

Bước 4 — Kiểm tra mô hình và xác nhận tăng tốc GPU

Bước 5 — Thiết lập tự khởi chạy và giữ mô hình trong bộ nhớ

5a. Tự khởi chạy ứng dụng Ollama

5b. Tự preload Gemma 4

5c. Giữ mô hình vô thời hạn

Bước 6 — Xác minh cấu hình

Truy cập API

Các lệnh hữu ích

Gỡ Ollama và tắt tự khởi chạy

Các cải tiến chính của Ollama v0.19+ (31 tháng 3 năm 2026)

Backend MLX (Apple Silicon)

Định dạng NVFP4 (NVIDIA)

Cải thiện bộ nhớ đệm (cho tác vụ lập trình và agent)

Ghi chú thêm

Liên kết tham khảo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News