- Mô hình cục bộ có thể đáp ứng đầy đủ khoảng 90% công việc phát triển, nhưng ở 10% tác vụ đòi hỏi độ chính xác cao còn lại, dịch vụ thương mại vẫn nhỉnh hơn
- Mô hình cục bộ có lợi thế lớn về tiết kiệm chi phí, bảo mật và tính sẵn sàng, đặc biệt hữu ích cho dự án cá nhân hoặc môi trường ngoại tuyến
- Tuy nhiên, khả năng tương thích công cụ, giới hạn bộ nhớ và độ phức tạp khi thiết lập được chỉ ra là những rào cản chính khi áp dụng vào công việc thực tế
- Mô hình cục bộ hữu ích cho các dự án mang tính sở thích, nhưng không phù hợp với môi trường production hay sử dụng trong doanh nghiệp; thực tế hơn là dùng chúng như công cụ bổ trợ cho các công cụ frontier
- Với sự xuất hiện của các công cụ lập trình AI miễn phí của Google (Gemini CLI, Jules, v.v.), hiệu quả tiết kiệm chi phí của mô hình cục bộ đã bị bù trừ đáng kể
Thông báo đính chính bài gốc
- Thừa nhận giả thuyết ban đầu là sai, và đăng đính chính vì điều này có thể ảnh hưởng đến quyết định tài chính của độc giả
- Việc mô hình cục bộ đủ năng lực cho công việc lập trình hơn mức thường được công nhận vẫn là điểm đúng
- Tuy nhiên, rút lại khuyến nghị hủy đăng ký dịch vụ coding và mua MacBook Pro
- Nguyên nhân của sai sót là đã đưa ra lập luận mà không có kiểm chứng thực nghiệm
-
Những lý do cụ thể khiến giả thuyết sai
- Mô hình cục bộ có thể thực hiện khoảng 90% công việc phát triển phần mềm, nhưng 10% cuối cùng mới là phần quan trọng nhất, và đáng để trả tiền cho các mô hình frontier để xử lý
- Bài viết tiếp cận từ góc nhìn của lập trình viên sở thích, nhưng trong môi trường production thì nên để công ty cung cấp cho nhân viên các công cụ như Claude Code
- Nếu chạy đồng thời các công cụ phát triển khác tiêu tốn RAM như Docker, phải giảm kích thước mô hình, và hiệu năng suy giảm mạnh
- Kết luận là mô hình cục bộ có thể dùng như công cụ bổ trợ cho mô hình frontier hoặc để hạ gói thuê bao, nhưng trong các tình huống gắn trực tiếp với sinh kế thì giá trị so với công sức bỏ ra là thấp
Giá trị và ưu điểm của mô hình cục bộ
- Ưu điểm lớn nhất của mô hình cục bộ là tiết kiệm chi phí; nếu dùng phần cứng riêng thì không cần trả phí thuê bao đám mây
- Thay vì trả hơn $100 phí thuê bao mỗi tháng, có thể đầu tư nâng cấp phần cứng để tiết kiệm về dài hạn
- Cũng có lợi thế về độ tin cậy và bảo mật
- Không bị ảnh hưởng bởi việc suy giảm hiệu năng hay giới hạn truy cập của dịch vụ đám mây, và dữ liệu không bị rò rỉ ra bên ngoài
- Cũng có thể áp dụng trong môi trường cần bảo vệ tài sản trí tuệ (IP) nội bộ doanh nghiệp
- Luôn sẵn sàng để sử dụng cũng là một ưu điểm, vì vẫn hoạt động trong môi trường internet bị hạn chế (trên máy bay, mạng bảo mật, v.v.)
Cấu trúc bộ nhớ và tối ưu hóa
- Việc chạy mô hình cục bộ tiêu tốn bộ nhớ cho bản thân mô hình và cửa sổ ngữ cảnh
- Ví dụ: mô hình 30B tham số cần khoảng 60GB RAM
- Cửa sổ ngữ cảnh nên từ 64.000 token trở lên để có thể bao gồm cả codebase
- Kích thước mô hình càng lớn thì yêu cầu bộ nhớ trên mỗi token cũng tăng
- Mô hình 80B cần RAM nhiều gấp khoảng 2 lần mô hình 30B
- Có thể tiết kiệm bộ nhớ thông qua kiến trúc Hybrid Attention hoặc Quantization
- Khi lượng tử hóa từ 16-bit xuống 8-bit, mức suy giảm hiệu năng là nhỏ, nhưng lượng tử hóa KV cache có thể gây tổn thất hiệu năng lớn hơn
Chọn mô hình và công cụ serving
- Mô hình Instruct phù hợp với công cụ lập trình hội thoại, còn mô hình non-instruct phù hợp với tự động hoàn thành
- Các công cụ serving mô hình cục bộ tiêu biểu là Ollama và MLX
- Ollama có tính tổng dụng cao, dễ cấu hình và cung cấp khả năng tương thích OpenAI API
- MLX là công cụ chỉ dành cho Mac, cho tốc độ xử lý token nhanh hơn nhưng việc thiết lập phức tạp hơn
- Khi sử dụng thực tế, thời gian phản hồi token đầu tiên và tốc độ xử lý token mỗi giây là quan trọng
- MLX cho thấy tốc độ phản hồi nhanh hơn Ollama khoảng 20%
Xây dựng môi trường lập trình cục bộ
- Công cụ lập trình được khuyến nghị: OpenCode, Aider, Qwen Code, Roo Code, Continue
- Tất cả đều hỗ trợ chuẩn OpenAI API nên việc thay đổi mô hình khá dễ dàng
- Trong thử nghiệm, tổ hợp Qwen Code và mô hình Qwen3-Coder là ổn định nhất
- Mô hình GPT-OSS có nhiều trường hợp từ chối yêu cầu
- Kiến trúc bộ nhớ hợp nhất của MacBook cho phép chia sẻ bộ nhớ giữa CPU và GPU, thuận lợi cho việc chạy mô hình cục bộ
- Sau khi cài MLX, có thể dùng lệnh
mlx-lm.server để phục vụ mô hình dưới dạng OpenAI-compatible API
- Có thể chọn mô hình từ 4B đến 80B tùy theo dung lượng RAM
- Theo dõi mức sử dụng bộ nhớ là bắt buộc; khi dùng swap memory thì tốc độ giảm rất mạnh
Kết quả thử nghiệm và kết luận
- Giả thuyết ban đầu: “Nâng cấp phần cứng kinh tế hơn so với thuê bao $100/tháng”
- Kết luận đã sửa: “Không”, trong môi trường làm việc thực tế, công cụ thuê bao vẫn hiệu quả hơn
- Mô hình cục bộ phù hợp với vai trò bổ trợ; có thể tiết kiệm chi phí khi dùng song song với gói miễn phí của các mô hình hiệu năng cao
- Mô hình Qwen3-Coder cho hiệu năng chậm hơn khoảng nửa thế hệ so với công cụ thương mại
- Việc Google Gemini 3 Flash được cung cấp miễn phí làm giảm tính kinh tế của mô hình cục bộ
- Trong tương lai, hiệu năng cao hơn và kích thước nhỏ hơn của mô hình cục bộ được kỳ vọng, nên đây vẫn là lựa chọn hấp dẫn với lập trình viên cá nhân
Bài học cốt lõi
- Mô hình cục bộ mạnh về tiết kiệm chi phí, tăng cường bảo mật và khả năng truy cập ngoại tuyến
- Tuy nhiên, độ ổn định của công cụ, giới hạn bộ nhớ và độ phức tạp khi thiết lập là các ràng buộc chính khi áp dụng vào công việc thực tế
- Dùng song song với mô hình đám mây là cách tiếp cận thực tế nhất
- Mô hình cục bộ có giá trị cao hơn như một công cụ bổ sung chứ không phải “giải pháp thay thế”
3 bình luận
Đó là lý do vì sao Mac appa lại là vấn đề.
Vấn đề xa xôi vậy
Ý kiến trên Hacker News
Tôi nhìn bài này từ góc độ lập trình viên làm vì sở thích. Tức là những người làm dự án cá nhân, không phải môi trường production
Dạo này có nhiều người trả các gói thuê bao công cụ coding giá $100~$200 cho mục đích cá nhân, nhưng thật ra đa số không cần đến mức đó
Chỉ với gói $20/tháng của OpenAI hoặc Anthropic cũng đã đi được khá xa. Đặc biệt OpenAI có giá Codex rẻ hơn nhiều nên khá đáng tiền
Mốc phải chi hơn $100 là khi bạn dùng hết hạn mức của gói $20 và bắt đầu thấy bí bách. Khi đó cứ tự đánh giá rồi nâng cấp
Không phải vì tôi keo kiệt, mà vì tôi nghĩ chi phí suy luận giảm xuống rồi cuối cùng mọi thứ sẽ thành ra như vậy
Trước đây tôi tự tìm tài liệu thủ công, giờ tôi tự động hóa bằng lệnh như
$ what-man "câu hỏi". Tôi tạo một embedding DB manpage ở local để LLM tìm tài liệu rồi tóm tắt lạiVì tôi không bắt model phải ‘suy nghĩ’ mà chỉ giao phần xử lý văn bản, nên nó rất ổn định
Người viết tài liệu thường có xu hướng giấu các flag quan trọng rất sâu, và cách này giải quyết được vấn đề đó
Nhưng tôi chủ yếu chỉ dùng cho tìm kiếm code hoặc refactor nên vẫn đủ
Ngược lại, nếu để LLM viết code trực tiếp thì token sẽ cháy rất nhanh. Nếu thử kiểu phát triển “vibecoding” thì mức lãng phí token là rất nghiêm trọng
Các app React đơn giản thì còn ổn, nhưng khi đi vào những vùng không có trong dữ liệu huấn luyện, bạn sẽ thấy model cứ loay hoay mãi
Tôi không muốn đưa tiền cho OpenAI
Dự án vẫn chưa tạo ra doanh thu, nhưng tôi xem đó là đầu tư cho việc học
Trong khi đó Claude thì rất hiệu quả
Và tôi nghĩ đa số mọi người đủ tỉnh táo để chỉ nâng cấp khi thật sự cần. Không ai nhất thiết phải bắt đầu từ gói đắt tiền
Hơn nữa chủ đề của bài này là model cục bộ, nên lời khuyên về gói thuê bao có vẻ hơi lạc đề
Tôi tò mò không biết phép tính nào dẫn tới kết luận rằng một chiếc laptop $5,000 sẽ cạnh tranh được với các model SOTA trong 5 năm tới
Thực tế thì tôi nghĩ ảo tưởng đó vỡ tan chỉ sau hai ngày. Tôi cũng từng bị phần cứng hào nhoáng làm mờ mắt và làm chuyện tương tự
Model cục bộ rốt cuộc chỉ dành cho sở thích hoặc ám ảnh về quyền riêng tư. Nếu thật sự cần riêng tư thì tôi nghĩ thuê server vẫn tốt hơn
Không phải so sánh hoàn hảo, nhưng nhìn vào tốc độ tiến bộ của model cục bộ thì cũng là một mức khá có ý nghĩa
Đằng nào cũng cần laptop, nên tôi nghĩ tốt hơn là mua cấu hình đủ mạnh cho model cục bộ
Điều thú vị ở bài này là tác giả tự thừa nhận mình đã đặt ra giả định sai
Nhưng tiền đề “dùng một chiếc Mac trong 5 năm” là không thực tế. Tốc độ phát triển model quá nhanh
Trong môi trường doanh nghiệp, có thể sẽ cần thiết bị cấu hình cao như Mac Studio RAM 512GB
Thảo luận liên quan cũng từng có trong thread trước
Bài viết chỉ nhắc tới MLX và Ollama mà lại bỏ qua LM Studio, điều này khá đáng tiếc
LM Studio hỗ trợ cả model MLX lẫn GGUF, đồng thời cung cấp GUI macOS nhiều tính năng hơn Ollama
Danh mục model cũng đang được duy trì rất tích cực tại trang chính thức
Bài viết nói “chạy model 80B trên RAM 128GB”, rồi lại đề xuất nếu có 8GB RAM thì thử model 4B, nghe khá kỳ
Hoàn toàn không có thảo luận nào về việc chất lượng sẽ giảm ra sao
Tôi đã chạy 260 triệu token với gói Cursor $20/tháng. Đây là thuê bao trả phí đầu tiên của tôi, nên tôi không hiểu cách tiếp cận trong bài này
Thành thật mà nói, có cảm giác như đang thiếu điều gì đó, và tôi vẫn còn rất nhiều thắc mắc
Vì khấu hao của Mac còn lớn hơn phí thuê bao hàng tháng, nên tôi nghĩ lập luận tiết kiệm chi phí không vững
Có thể có lý do khác để dùng model cục bộ, nhưng về hiệu quả chi phí thì không cao
Hơn nữa còn có rủi ro phần cứng nhanh chóng chạm trần. Cuối cùng nếu dùng model nhỏ trên công cụ online thì cùng một logic đó cũng áp dụng được
Các model mới nhất (Opus 4.5, GPT 5.2) giờ cũng chỉ vừa đủ theo kịp những bài toán tôi đưa ra
Để model cục bộ đạt tới mức không làm lãng phí thời gian của lập trình viên, có lẽ vẫn còn cần thêm 1~2 năm nữa
Lúc đó phải viết prompt cụ thể hơn, mà điều đó lại càng làm chậm đi
MacBook Pro cấu hình tối đa quá đắt so với sức mạnh tính toán mang lại. Apple đặc biệt định giá RAM quá cao
Bạn có thể lắp một desktop Linux cùng tầm cấu hình với giá chỉ bằng một nửa
Nếu tính di động là quan trọng, laptop không phải Apple cũng là lựa chọn rẻ hơn nhiều
Trên Linux có NVidia Spark hoặc dòng AMD Ryzen AI, nhưng mẫu RAM 128GB rất hiếm
Việc nâng cấp cũng khó và giá cũng cao
Thật ra đó là ưu thế lớn của Mac. Giờ với Exo thì thậm chí còn có thể vượt 512GB
Tôi không chạy model cục bộ trên PC làm việc để phát triển. Tôi nghĩ tốt hơn là chạy trên máy riêng
Đỡ tiếng quạt hơn và cũng không ảnh hưởng hiệu năng của PC làm việc
Với LLM thì độ trễ vài trăm ms không thành vấn đề. Trừ khi phải làm việc offline lúc đi xa, chứ bình thường không có lý do gì phải làm vậy