- Tận dụng thư viện MLX để chạy trực tiếp trên Mac, phục vụ cục bộ mô hình mới mạnh mẽ Qwen3-30B-A3B-8bit
- Kết nối nó theo kiểu OpenAI API trong Localforge để xây dựng vòng lặp agent
- Thiết lập thêm mô hình phụ dựa trên ollama (Gemma3) để tách vai trò hỗ trợ agent, cho phép sử dụng công cụ hiệu quả hơn
- Sau khi cấu hình agent trong UI của Localforge, có thể thực hiện "chạy công cụ LS", tạo website, và thậm chí tự động chạy game rắn
- Toàn bộ quá trình này đều miễn phí và có thể hoạt động hoàn toàn tự chủ trên máy cục bộ, là một dự án đáng để người dùng Mac tự thử
Chạy Qwen3 cục bộ trên Mac
Cấu hình Localforge
- Trang chính thức: https://localforge.dev
- Sau khi cài đặt, trong phần cài đặt cần cấu hình như sau:
-
Thêm provider
- a) Provider Ollama (mô hình phụ)
- Tên: LocalOllama
- Loại: ollama
- Cần cài đặt: mô hình
gemma3:latest (phù hợp cho xử lý ngôn ngữ đơn giản)
-
b) Provider Qwen3 (mô hình chính)
-
Tạo agent
- Tên: qwen3-agent
- Mô hình chính: qwen3:mlx:30b (tên mô hình:
mlx-community/Qwen3-30B-A3B-8bit)
- Mô hình phụ: LocalOllama (tên mô hình:
gemma3:latest)
Kết luận
- Trên Mac, có thể chạy cục bộ mô hình lớn miễn phí để tự động viết code dựa trên agent
- Có thể đạt kết quả tinh chỉnh hơn nữa thông qua việc chọn mô hình hoặc tinh chỉnh system prompt
- Localforge + MLX + Qwen3 là một tổ hợp rất hữu ích cho các thử nghiệm LLM cá nhân
3 bình luận
Chạy local bản 30b thì rất ổn đấy chứ? Qwen2.5-Coder thì không ấn tượng lắm, nhưng cái này có vẻ đáng để thử.
Qwen3 - Mô hình ngôn ngữ thế hệ mới suy nghĩ sâu hơn và hành động nhanh hơn
Ý kiến Hacker News
Đang dùng mô hình Qwen3-30B-A3B cục bộ và thấy rất ấn tượng. Với những ai đang chờ GPT-4, đây có vẻ là một lựa chọn thay thế. Trên M3 Max, tôi đạt 70 tok/s nên dùng rất ổn
Chạy qwen3 và gọi công cụ
lskhông phải là "vibe coding". Nó trông giống quảng cáo cho LocalForge hơnMuốn dành lời khen cho MLX và MLX-LM. Tôi đang dùng chúng để tinh chỉnh cục bộ mô hình Gemma 3, và các thư viện cũng như công cụ do các nhà phát triển Apple tạo ra được tổ chức rất tốt
Tình cờ làm Qwen3 rơi vào vòng lặp chỉ với một prompt đơn giản
Có ai biết cấu hình nào mà local LLM có thể phối hợp làm việc với MCP để thực hiện tác vụ, nén ngữ cảnh hoặc cộng tác với tác tử đám mây không?
Muốn chia sẻ một hướng dẫn nhanh về cách chạy tác tử tự chủ thực sự trên máy cục bộ và cho nó làm các tác vụ đơn giản
Rất vui vì đã phát hiện ra LocalForge. Có một câu hỏi về LocalForge: có thể kết hợp hai tác tử để chuyển hình ảnh cho một tác tử đa phương thức nhằm tạo html/css, rồi một tác tử khác viết phần mã còn lại không?
Rất ấn tượng. Nó không nhất thiết phải tốt ngang các mô hình token trả phí
Trông hay đấy. Tôi đang tìm một IDE hỗ trợ AI theo hướng local-first để làm việc với Gemma 3 27B của Google
Việc chạy mô hình cục bộ giờ đang trở nên thú vị. Đặc biệt phiên bản 30B-A3B có vẻ là một hướng đi đầy hứa hẹn. Với 16 GB VRAM thì vẫn chưa tới được, nhưng khá là trong tầm với