18 điểm bởi GN⁺ 2025-05-02 | 3 bình luận | Chia sẻ qua WhatsApp
  • Tận dụng thư viện MLX để chạy trực tiếp trên Mac, phục vụ cục bộ mô hình mới mạnh mẽ Qwen3-30B-A3B-8bit
  • Kết nối nó theo kiểu OpenAI API trong Localforge để xây dựng vòng lặp agent
  • Thiết lập thêm mô hình phụ dựa trên ollama (Gemma3) để tách vai trò hỗ trợ agent, cho phép sử dụng công cụ hiệu quả hơn
  • Sau khi cấu hình agent trong UI của Localforge, có thể thực hiện "chạy công cụ LS", tạo website, và thậm chí tự động chạy game rắn
  • Toàn bộ quá trình này đều miễn phí và có thể hoạt động hoàn toàn tự chủ trên máy cục bộ, là một dự án đáng để người dùng Mac tự thử

Chạy Qwen3 cục bộ trên Mac

  • Mục tiêu: chạy mô hình Qwen3 mới nhất trên Mac và biến nó thành agent với Localforge để thử nghiệm tự động hóa lập trình
  • Qwen3 được phân phối trên Ollama và cộng đồng HuggingFace MLX
  • Bước 1: Cài đặt môi trường MLX

    pip install mlx  
    pip install mlx-lm  
    
  • Bước 2: Chạy máy chủ mô hình

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • Mô hình sẽ tự động được tải xuống và khởi chạy thành máy chủ API ở cổng 8082
    • Nếu trong log xuất hiện thông báo "Starting httpd..." thì nghĩa là đã chạy bình thường

Cấu hình Localforge

  • Trang chính thức: https://localforge.dev
  • Sau khi cài đặt, trong phần cài đặt cần cấu hình như sau:
  • Thêm provider

    • a) Provider Ollama (mô hình phụ)
      • Tên: LocalOllama
      • Loại: ollama
      • Cần cài đặt: mô hình gemma3:latest (phù hợp cho xử lý ngôn ngữ đơn giản)
    • b) Provider Qwen3 (mô hình chính)

  • Tạo agent

    • Tên: qwen3-agent
    • Mô hình chính: qwen3:mlx:30b (tên mô hình: mlx-community/Qwen3-30B-A3B-8bit)
    • Mô hình phụ: LocalOllama (tên mô hình: gemma3:latest)

Kết luận

  • Trên Mac, có thể chạy cục bộ mô hình lớn miễn phí để tự động viết code dựa trên agent
  • Có thể đạt kết quả tinh chỉnh hơn nữa thông qua việc chọn mô hình hoặc tinh chỉnh system prompt
  • Localforge + MLX + Qwen3 là một tổ hợp rất hữu ích cho các thử nghiệm LLM cá nhân

3 bình luận

 
ragingwind 2025-05-02

Chạy local bản 30b thì rất ổn đấy chứ? Qwen2.5-Coder thì không ấn tượng lắm, nhưng cái này có vẻ đáng để thử.

 
GN⁺ 2025-05-02
Ý kiến Hacker News
  • Đang dùng mô hình Qwen3-30B-A3B cục bộ và thấy rất ấn tượng. Với những ai đang chờ GPT-4, đây có vẻ là một lựa chọn thay thế. Trên M3 Max, tôi đạt 70 tok/s nên dùng rất ổn

    • Đặc biệt ấn tượng ở chỗ mô hình 0.6B vẫn có thể hữu ích cho các tác vụ không quan trọng trong nhóm mô hình dưới 1B
    • Nhìn chung rất ấn tượng, hiện đang đánh giá cách tích hợp nó vào thiết lập hiện tại
  • Chạy qwen3 và gọi công cụ ls không phải là "vibe coding". Nó trông giống quảng cáo cho LocalForge hơn

    • Thực tế thì có vẻ nó sẽ không hoạt động tốt cho các tác vụ tự chủ thực sự, ví dụ như đọc nhiều tệp, duyệt thư mục và tự xác định cần chỉnh sửa ở đâu
  • Muốn dành lời khen cho MLX và MLX-LM. Tôi đang dùng chúng để tinh chỉnh cục bộ mô hình Gemma 3, và các thư viện cũng như công cụ do các nhà phát triển Apple tạo ra được tổ chức rất tốt

  • Tình cờ làm Qwen3 rơi vào vòng lặp chỉ với một prompt đơn giản

    • Dùng prompt: "tạo một decorator Python dùng trie để định tuyến topic MQTT"
    • phi4-reasoning thì chạy được nhưng mã có vẻ có lỗi
    • phi4-mini-reasoning thì tỏ ra bối rối
    • qwen3:30b thì rơi vào vòng lặp và quên luôn decorator
    • mistral-small thì nắm được trọng tâm ngay và mã trông ổn
    • Tôi dùng các mô hình Copilot thường xuyên, còn Claude 3.7 và Gemini thì xuất ra mã dùng được kèm theo bài kiểm thử. Nhưng các mô hình cục bộ dường như vẫn chưa tới được mức đó
  • Có ai biết cấu hình nào mà local LLM có thể phối hợp làm việc với MCP để thực hiện tác vụ, nén ngữ cảnh hoặc cộng tác với tác tử đám mây không?

    • Một máy M3 mới chỉ để render UI còn cloud LLM thì refactor codebase nghe khá ngớ ngẩn. Có vẻ chúng nên có thể điều phối công việc với nhau
  • Muốn chia sẻ một hướng dẫn nhanh về cách chạy tác tử tự chủ thực sự trên máy cục bộ và cho nó làm các tác vụ đơn giản

    • Tôi vẫn đang tìm đúng cấu hình MLX hoặc phiên bản mô hình phù hợp, nhưng framework của cách tiếp cận này khá vững chắc
  • Rất vui vì đã phát hiện ra LocalForge. Có một câu hỏi về LocalForge: có thể kết hợp hai tác tử để chuyển hình ảnh cho một tác tử đa phương thức nhằm tạo html/css, rồi một tác tử khác viết phần mã còn lại không?

    • Bài viết có nhắc tới Gemma3 (đa phương thức) và Qwen3 (không đa phương thức). Có thể dùng theo cách như trên không?
    • Tôi cũng tò mò LocalForge biết cách định tuyến prompt tới tác tử nào như thế nào
  • Rất ấn tượng. Nó không nhất thiết phải tốt ngang các mô hình token trả phí

    • Ví dụ, tháng trước tôi đã chi ít nhất $300 cho vibe coding. Lý do là tôi muốn biết các công cụ cạnh tranh, và sau khi hoàn thành phần triển khai của một side project, tôi muốn viết lại nó bằng ngôn ngữ lập trình khác
    • Dù ở đây chậm hơn một chút, một laptop Nvidia tân trang vẫn có thể hoàn vốn trong vòng 1 năm. Hơi thất vọng là Ollama vẫn chưa xử lý được toàn bộ luồng này. Lẽ ra có thể làm được bằng một lệnh duy nhất
  • Trông hay đấy. Tôi đang tìm một IDE hỗ trợ AI theo hướng local-first để làm việc với Gemma 3 27B của Google

    • Tôi nghĩ nên công khai rằng LocalForge là dự án của chính tác giả
  • Việc chạy mô hình cục bộ giờ đang trở nên thú vị. Đặc biệt phiên bản 30B-A3B có vẻ là một hướng đi đầy hứa hẹn. Với 16 GB VRAM thì vẫn chưa tới được, nhưng khá là trong tầm với

    • Đang chờ các card Nvidia RTX mới với 24/32 GB VRAM. Có vẻ trong vài năm tới chúng ta có thể đạt tới mức GPT-4. Điều đó sẽ hữu ích cho nhiều tác vụ