16 điểm bởi GN⁺ 2025-11-01 | 6 bình luận | Chia sẻ qua WhatsApp
  • Một chủ đề Ask HN hỏi người dùng Hacker News họ dùng LLM mã nguồn mở và trợ lý lập trình trên máy cục bộ như thế nào, trên phần cứng laptop nào
  • Họ dùng mô hình nào (ví dụ: Ollama, LM Studio, v.v.) và dùng trợ lý lập trình/giải pháp tích hợp mã nguồn mở nào (ví dụ: plugin VS Code)
  • Họ dùng phần cứng laptop nào (CPU, GPU/NPU, bộ nhớ, GPU rời hay GPU tích hợp, OS), và hiệu năng trong quy trình làm việc ra sao
  • Họ dùng cho tác vụ nào (hoàn thành mã, refactor, gỡ lỗi, rà soát mã)? Và mức độ ổn định thế nào (điểm nào hoạt động tốt và điểm nào còn thiếu)

  • 1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue

    • Ưu điểm
      • Nhờ bộ nhớ hợp nhất của Mac, các mô hình như Qwen3-Coder-30B-A3B, gpt-oss-20b, Gemma 27B có thể chạy cục bộ khá dễ dàng, đủ cho quy trình “đọc mã → tóm tắt → chỉnh sửa nhỏ”
      • Chỉ cần bật LM Studio API hoặc Ollama serve là VS Code Continue.dev, Zed, JetBrains có thể kết nối ngay, mang lại UX gần giống Claude Code
      • Độ trễ thấp kiểu đặc trưng của Mac nên ở mức 50~80 tok/s, việc bổ sung mã và tạo chú thích không quá khó chịu
      • Khả năng chạy trên máy bay/tàu hỏa/ngoại tuyến rất hữu ích, phù hợp khi muốn giữ cho “mã công ty không rời khỏi môi trường nội bộ”
    • Nhược điểm
      • Từ các mô hình trên 20B trở lên sẽ gặp vấn đề nhiệt + tiếng quạt, và ngay cả M4 Max 128GB cũng cho thấy 120B là chậm hoặc chạm giới hạn
      • Các kịch bản tác tử kiểu “đẩy tới cùng như Claude 4.5 Sonnet với bash-in-a-loop” vẫn còn thiếu
      • MacBook 24GB, 32GB có phân bổ VRAM nhỏ nên cuối cùng thường phải hạ xuống mức 7B~12B, và nếu tăng context lớn thì sẽ chậm ngay
  • 2) Cấu trúc gắn RTX 3090·4090·Pro 6000 vào desktop/workstation, còn laptop chỉ dùng như thin client

    • Ưu điểm
      • Có thể thử toàn bộ llama.cpp / vLLM / Ollama, và ngay cả gpt-oss-120B cũng có thể chạy “chậm nhưng thực sự chạy được”
      • Mở Continue hoặc llama-vscode trong VS Code trên laptop, còn suy luận thì để máy ở nhà xử lý, nên gần như không có gánh nặng pin và nhiệt trên laptop
      • Với RTX 3090 24GB, các mô hình như gpt-oss-20B, Qwen2.5/3 Coder 14~30B cho tốc độ token đủ thực dụng, nên tự động hoàn thành + refactor ngắn là đủ dùng
      • Nhiều người dựng Open WebUI + Ollama ở nhà rồi kết nối qua VPN/Tailscale, nên vẫn giữ được môi trường riêng tư ngay cả khi truy cập từ xa
    • Nhược điểm
      • Nếu VRAM GPU từ 24GB trở xuống, 120B phải lượng tử hóa rất mạnh nên chất lượng giảm thấy rõ
      • vLLM cho hiệu năng tốt nhưng cài đặt và build phiền phức, đến mức có người nói kiểu “hãy chạy lại bằng runner đã cập nhật”, tức là chi phí vận hành không nhỏ
      • Gần như không có tính di động, nên nếu mục tiêu là “giải quyết bằng đúng một chiếc laptop” thì cấu trúc này không phù hợp
  • 3) Thiết lập xoay quanh gpt-oss-120B (Aider, Codex, tác tử cục bộ)

    • Ưu điểm
      • Nhiều người nói đây là thứ gần GPT-5 nhất trong số những gì họ đã dùng cục bộ, cho thấy độ chính xác trong tác vụ lập trình khá cao
      • Có những thử nghiệm thực tế gắn nó vào các trợ lý lập trình mở như Aider, Codex, roocode để xử lý liền mạch review → sửa → test → commit
      • Trong llama.cpp, có nhiều mẹo chia sẻ về tải kết hợp CPU+GPU, nên ngay cả với 8GB VRAM vẫn có thể cố chạy thử, khiến yêu cầu phần cứng linh hoạt hơn tưởng tượng
    • Nhược điểm
      • Vấn đề là tốc độ. Cùng 50 câu hỏi, ChatGPT làm xong trong 6 phút thì 120B có thể mất hơn 1 giờ, nên đây là lựa chọn cho người chấp nhận chờ đợi
      • Với công cụ như Codex, phải hardcode các tham số inference để nó không bị treo, và phải viết AGENTS.md khá nặng thì nó mới làm việc giống con người
      • Nếu chỉ dùng riêng laptop thì khó chạy lâu dài vì nhiệt, điện năng và bộ nhớ; thực tế hợp lý hơn là “từ laptop kết nối tới GPU từ xa”
  • 4) Laptop RAM lớn như AMD Strix Halo / Ryzen AI / Framework 128GB + llama.cpp/Continue.dev

    • Ưu điểm
      • Với 128GB RAM, Qwen3 Coder 30B có thể dùng thực tế, và có thể chạy hybrid bằng cách đưa các layer cần thiết lên GPU/NPU còn phần còn lại để trên RAM
      • Theo chia sẻ, đây là lựa chọn thực tế trong các tình huống như “mã không được phép ra khỏi công ty” hoặc “AMD nên driver cloud vẫn chưa thật sự tốt”
      • Kiểu kiến trúc cho chạy tự động khi khởi động một máy chủ llama.cpp đơn giản như lemonade-server rồi để trình soạn thảo kết nối qua mạng hoạt động khá ổn
    • Nhược điểm
      • Có báo cáo rằng trên Linux, tiết kiệm điện/camera/driver vẫn chưa thật trơn tru, và đôi lúc phải trông chờ kernel 6.18
      • Hiệu năng NPU chưa đạt mức NVIDIA, nên khó mơ tới “tác tử cấp frontier”; cuối cùng vẫn dừng ở vai trò “trợ lý” 20~30B
      • Tài liệu cho AMD thường phải tự lần theo repo GitHub hoặc diễn đàn, nên mật độ thông tin kém hơn Mac và NVIDIA
  • 5) Thiết lập laptop phổ thông 16~32GB (MacBook Air, M2/M3 Pro RAM thấp) + mô hình 7B~12B chỉ dùng FIM autocomplete

    • Ưu điểm
      • Chỉ với các mô hình như qwen2.5-coder:7b, mistral 7b instruct, gemma3:12b cũng đã đủ cho các việc như “viết tiếp dòng này”, “cú pháp SQL này là gì nhỉ” với phản hồi khá nhanh
      • Gắn plugin llama-vscode hoặc Continue.dev thì ngay cả khi mất Internet, tự động hoàn thành vẫn tiếp tục nên nhịp làm việc không bị đứt
      • Gánh nặng phần cứng nhỏ, gần như không có nhiệt và tiếng quạt, pin cũng không tụt quá nhanh
    • Nhược điểm
      • Chỉ cần ngữ cảnh dài thêm chút là tỷ lệ trả lời linh tinh tăng rõ rệt, và các việc như refactor hay sinh mã kiểm thử đòi hỏi hiểu đồng thời nhiều tệp thì gần như bất khả thi
      • Phần lớn mọi người đều chốt rằng “đây không phải thay thế cho mô hình cloud, mà chỉ dành cho autocomplete”
      • Vì phải nén mạnh xuống 4-bit nên biên độ lựa chọn mô hình bị thu hẹp
  • 6) Thiết lập hoàn toàn ngoại tuyến/ưu tiên quyền riêng tư (Ollama + Open WebUI + VPN)

    • Ưu điểm
      • Chỉ cần đặt một Mac Studio M4 Max 128GB hoặc desktop ở nhà và chạy Ollama + Open WebUI, thì từ bên ngoài vẫn có thể dùng laptop hoặc điện thoại kết nối qua VPN mà mọi thứ vẫn là cục bộ
      • Những người dùng kiểu này đánh giá cao việc “giờ gần như không còn dùng ChatGPT”, và “vì phiên bản không tự thay đổi nên prompt đã tinh chỉnh không bị hỏng”
      • Đây là cấu trúc dễ giải thích nhất khi trong công ty có yêu cầu kiểu “mọi mã nguồn không được đem đi huấn luyện”
    • Nhược điểm
      • Phải tự lo nâng cấp/thay mô hình, nên không có chuyện “tự động thông minh hơn” như trên cloud
      • Nếu GPU yếu thì từ 20B trở lên sẽ chậm ngay, và cuối cùng phải tăng phần cứng, lúc đó sẽ tự hỏi “sao không dùng cloud luôn nhỉ?”
  • 7) Nhận thức chung được rút ra

    • Với chỉ laptop, hiện vẫn khó thay thế Claude Code / GPT-5 + tác tử; mô hình cục bộ phù hợp nhất cho sinh mã ngắn, trợ giúp, tóm tắt, tự động hoàn thành
    • Vì vậy, cấu hình xuất hiện nhiều nhất là “laptop ↔ cỗ máy lớn ở nhà” hoặc “Mac 128GB chỉ cần chạy nhanh 20~30B”
    • Dù vậy, mọi người đều nói giống nhau: nếu bạn cần đảm bảo quyền riêng tư + gần như không có độ trễ + phiên bản không tự đổi, thì ngay lúc này chạy cục bộ vẫn là câu trả lời

6 bình luận

 
kaydash 2025-11-02

Có vẻ như thiết lập bearer token và dùng SSH tunneling sẽ tốt hơn là dùng VPN.

 
savvykang 2025-11-02

Tôi nghĩ việc bắt đầu self-hosting LLM sẽ tiếp tục là một bài toán không hiệu quả về chi phí trong khoảng 5 năm tới, do chi phí đầu tư ban đầu quá lớn. Có lẽ sau 3~5 năm nữa, khi xuất hiện phần cứng đủ nhanh cho riêng nhu cầu tự động hoàn thành mã và có lợi thế về giá, tôi sẽ cân nhắc lại.

Các cấu hình đã xem xét

  1. Cấu hình all-in-one: không thể chạy LLM trên thiết bị làm việc. Ngay cả để chạy công cụ phát triển và các ứng dụng nền trình duyệt cũng đã thiếu RAM.
  2. Cấu hình máy chuyên cho LLM: ở công ty không có card đồ họa nên không thể chạy. Ngay cả với PC cá nhân cũng không dễ để đầu tư trước cho cấu hình như vậy.
 
GN⁺ 2025-11-01
Ý kiến Hacker News
  • Vì muốn tự tay trải nghiệm AI, một người đã mua lại Dell Precision 3620 Tower i7-7700 đã qua sử dụng
    Người này nâng cấp RAM và thay cả bộ nguồn để gắn RTX 3060 làm GPU
    Sau đó cài Ubuntu Server, cấu hình máy thành nút trong cụm k3s tại nhà, và đang chạy Ollama cùng OpenWebUI
    Chủ yếu dùng cho gắn thẻ và tóm tắt bằng AI của Karakeep, nhưng cũng đang tận dụng để phân tích camera ở lối xe vào nhằm phát hiện xe giao hàng bằng mã Python

  • Một người khác đang chạy Ollama thuần CPU trên Dell Precision T710 (Xeon E6320, 120GB RAM, RAID5 SSD 240TB) mà không dùng GPU
    Họ đang làm một dự án dùng RAG để lập chỉ mục luật bầu cử của cả 50 bang nhằm trực quan hóa vấn đề lệch thuật ngữ và ảo giác
    Mục tiêu là xác định khoảng trống về tính toàn vẹn trong quy trình bầu cử
    Có thể xem mindmap liên quan tại Election Frauds v1.4 Mindmap PDF

    • Dùng tài năng cho những dự án xã hội như thế này thật sự rất tuyệt
  • Có người đúng là lập trình với LLM cục bộ, nhưng nói rằng trên laptop thì không tưởng
    Họ dùng llama.cpp + llama-swap trên máy chủ GPU để chuyển đổi giữa các model
    Thiết lập khiến họ hài lòng nhất là tổ hợp Aider + gpt-oss-120b
    Ryzen AI Max+ 128GB RAM có thể cũng làm được, nhưng phần cứng không phải NVIDIA thì rất chậm
    Cũng có thể chọn chỉ nhà cung cấp không lưu dữ liệu qua OpenRouter
    Tuy vậy GPT5 hay Claude vẫn nhanh hơn và rẻ hơn nhiều so với chạy cục bộ

    • Họ đã tạo agent RAG bằng gpt-oss-120b và cho nó học tài liệu GCP
      ChatGPT đạt 46/50 trong 6 phút, còn gpt-oss-120b đạt 47/50 trong 1 giờ
      Bài test chạy trên môi trường i7 + 64GB RAM + GPU 8GB VRAM
    • Liên kết GitHub của llama-swap
  • Nếu muốn chạy agent code cục bộ trên Mac thì có thể làm như sau

    1. npm install -g @openai/codex
    2. brew install ollama; ollama serve
    3. ollama pull gpt-oss:20b
    4. codex --oss -m gpt-oss:20b
      Cách này chạy không cần Internet và yêu cầu Mac M1 trở lên + 24GB bộ nhớ GPU
      Model 120b mạnh hơn 1,5 lần so với 20b nhưng yêu cầu phần cứng cao gấp 5 lần
    • LM Studio đơn giản hơn và cũng tích hợp được với JetBrains IDE hoặc Zed
    • Có người tò mò liệu model 20b có thực sự tạo ra được đoạn code đủ giá trị hay không
  • Một người đang chạy Qwen3-Coder-30B-A3B Q4 quant bằng llama.cpp trên MacBook Pro 64GB
    Trong VSCode, họ dùng continue.dev và để system prompt thật ngắn
    Tốc độ đạt 50 token/giây khi sinh và 550 token xử lý
    Với các tác vụ ngắn, rõ ràng, chất lượng cho thấy gần tương đương các model frontier
    Họ hài lòng vì máy chạy nhanh và ổn định ngay cả trong môi trường offline
    Với tác vụ phức tạp hơn thì họ dùng API của Claude hoặc Deepseek

    • Có người hỏi đã thử model Instinct của continue.dev chưa và muốn biết so với Qwen thế nào
    • Cũng có yêu cầu chia sẻ link tải từ Hugging Face và hỏi liệu máy 128GB có nên dùng quant khác tốt hơn không
    • Có bình luận khác hỏi cách chạy Qwen3 trên llama-vscode (liên kết issue)
  • Nếu định mua Mac thì có người khuyên nên chọn từ bản Pro trở lên
    Air không có quạt nên không kiểm soát nhiệt tốt, và họ cho rằng Studio tốt hơn Mac mini
    Có thể dùng app TG Pro để chỉnh quạt nhạy hơn (khoảng $20)
    Họ đang chạy model GPT OSS 20B trên MacBook Pro M4 Pro + 24GB RAM nhưng thấy context window khá nhỏ
    Nếu là bản 128GB thì có vẻ đủ để code offline cả ngày

    • Có ý kiến phản hồi rằng Mac mini cũng có quạt, còn Studio chỉ là bản gắn chip mạnh hơn
    • Nếu mua Mac thì cấu hình lý tưởng là chip Max hoặc Ultra + bộ nhớ tối đa
    • MacBook Pro 128GB có hiệu năng context cache vượt trội
    • Context window mặc định nhỏ, nhưng với gpt-oss-20b có thể mở rộng lên 4 lần
    • Cũng có ý kiến cho rằng ngay cả M3/M4 + 128GB thì tốc độ xử lý prompt dài vẫn chậm
  • Một người đang dùng Apple M4 Max 128GB kết nối với GPD Win 4 (Ubuntu 24.04) qua USB-C
    Họ kết hợp Claude Code, RA.Aid và llama.cpp để phân phối công việc bằng Agent Organizer
    Claude tự động hóa từ thiết kế kiến trúc đến review code

    • Có người hỏi GPD Win 4 đóng vai trò gì, liệu có phải dùng để phân tán tải sang model nhỏ hơn không
    • Cũng có bình luận hỏi tốc độ xử lý token của từng model
    • Ngoài ra còn có người tò mò Agent Organizer mà họ dùng là gì
  • Nếu muốn xem các workstation cho LLM thì có người gợi ý kênh YouTube của Alex Ziskind (@AZisk)
    Kênh này có nhiều video review workstation cho local LLM
    Cách trình bày gọn gàng và lời khuyên khá thực tế

    • Có thể có tài trợ, nhưng việc tự bỏ tiền mua thiết bị để review và chấp nhận rủi ro vẫn rất ấn tượng
    • Cũng có bình luận giới thiệu đây là “kênh nói đúng trọng tâm, không lan man”
  • Một người chủ yếu dùng LMStudio và Ollama trên MacBook Pro M4 Max 128GB
    Các model gồm qwen3-coder-30b A3B Instruct 8-bit MLX và gpt-oss-120b-MXFP4-Q8
    Dù còn hạn chế khi sinh lượng code lớn, cấu hình này vẫn đủ tốt để tóm tắt repo cục bộ và viết tài liệu
    Cộng đồng liên quan cũng rất sôi động

    • r/LocalLLM
    • r/LocalLLaMA
    • Trên Mac, dùng Coderunner (liên kết GitHub) thì có thể chạy sandbox an toàn cho code do LLM sinh ra
    • Nếu nối LM Studio API với qwen CLI thì có thể tạo môi trường tương tự Claude Code
      Với việc tạo README, họ thích dùng gemma3-27b-it-qat và gpt-oss-120b hơn
  • Một người đang chạy Qwen3:32b bằng CLI trên MacBook Pro M1 Pro 32GB + Asahi Linux
    Họ dùng nó để nhận trợ giúp về ARMv8 assembly hoặc các chủ đề liên quan đến SoC
    Tốc độ đủ ổn, chỉ chậm hơn tốc độ đọc một chút nên vẫn hoàn toàn dùng được
    Nghe nói Qwen3-coder còn nhanh hơn nên họ bắt đầu thấy hứng thú
    Họ thích môi trường hoàn toàn cục bộ hơn là tích hợp cloud hay agent
    Vì Ollama đã không còn tập trung vào offline như trước, họ đang định chuyển sang llama.cpp
    Do khác định dạng model nên họ đang cân nhắc liệu có thể dùng nguyên model Ollama hay không
    [Lưu ý] Trên Linux, máy tiêu thụ điện cao nên bắt buộc phải cắm nguồn khi dùng

    • Qwen3 Coder dùng kiến trúc MoE (30B nhưng chỉ kích hoạt 3B) nên nhanh hơn nhiều
      Nó kém thông minh hơn ở tác vụ tổng quát, nhưng rất hiệu quả cho tác vụ thiên về lập trình
 
chcv0313 2025-11-02

Đọc tiếp một lúc thì... tôi chợt nghĩ hóa ra DGX SPARK lại có nhu cầu thật nhỉ? Ban đầu tôi từng nghĩ kiểu đó là đồ có hiệu năng/giá thành tệ hại, ai mà mua chứ!

 
aer0700 2025-11-02

Do chính sách bảo mật nội bộ của công ty nên chúng tôi hoàn toàn không sử dụng API LLM bên ngoài, và hiện đang dùng gpt oss được bộ phận quản lý cloud nội bộ cung cấp dựa trên vllm.

 
aer0700 2025-11-02

Nói là chạy cục bộ thì cũng hơi mơ hồ nhỉ.