Việc chạy mô hình cục bộ giờ đã tốt hơn

(vickiboykis.com)

20 điểm bởi GN⁺ 2026-06-17 | 7 bình luận | Chia sẻ qua WhatsApp

Ngay cả trên môi trường M2 Mac đời 2022, LLM cục bộ nay đã có hiệu năng đủ thực dụng để dùng cho câu hỏi phát triển, tác vụ code và kiểm tra tài liệu
Các mô hình cục bộ ban đầu chậm, khó dùng và độ chính xác cho công việc lập trình cũng thấp, nhưng sau GPT-OSS thì tần suất phải đối chiếu lại bằng mô hình API đã giảm xuống
Với các bản phát hành mới nhất của dòng Gemma 4, vòng lặp coding agent cục bộ hoạt động với khoảng 75% độ chính xác và tốc độ so với các mô hình frontier
Kết hợp Pi và LM Studio chạy quy trình agent thông qua endpoint suy luận cục bộ, artifact mô hình và cấu hình cô lập Docker
Mô hình cục bộ vẫn còn độ trễ suy luận, cửa sổ ngữ cảnh nhỏ và giới hạn phần cứng, nhưng có thể trực tiếp quan sát và thay đổi xử lý token, system prompt, lượng tử hóa và harness

Vị trí hiện tại của mô hình cục bộ

Các mô hình cục bộ ban đầu chậm, khó dùng và không chính xác trong phần lớn tác vụ lập trình
Đánh giá rằng mô hình cục bộ tụt lại khá xa nhìn chung là đúng theo tiêu chuẩn sử dụng cá nhân cho đến trước khi GPT-OSS ra mắt
Tiêu chuẩn cá nhân cho một “mô hình đủ tốt” là có còn phải kiểm tra lại bằng mô hình API hay không, và GPT-OSS là mô hình đầu tiên làm giảm mạnh tần suất kiểm tra đó
Cho đến gần đây, mô hình cục bộ chủ yếu được dùng như một Google nhanh và cá nhân hóa cho các câu hỏi phát triển không cần tính cập nhật mới nhất
Sau các bản phát hành mới nhất của dòng Gemma 4, vòng lặp coding agent trên máy cục bộ hoạt động ở mức khoảng 75% độ chính xác và tốc độ so với mô hình frontier {p:75}

Mô hình và môi trường chạy đã sử dụng

Đã chạy nhiều mô hình cục bộ trên môi trường M2 Mac đời 2022 với 64GB RAM và 1TB lưu trữ
- Các mô hình sử dụng gồm Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder v.v.
Cấu hình chạy đã lần lượt đi qua raw llama.cpp cùng Open WebUI, llama-cpp-python, Ollama, llamafiles và LM Studio
Mô hình cục bộ mặc định được dùng là triển khai gemma-4-26b-a4b của LM Studio

Các ví dụ tác vụ agent cục bộ thực tế

Đã refactor một script Python từng là notebook thành một repository gồm 5~6 module
Các module đó được lint để dùng generic type hint theo chuẩn PEP 585
Cấu hình cục bộ cũng được dùng để hiệu đính bài blog, viết unit test và thiết lập ban đầu repository mô hình two-tower cho hệ gợi ý
Repository mô hình two-tower do agent tạo từ trạng thái trống còn khá cơ bản, nhưng đã vượt ra ngoài phạm vi từng được cho là khả thi vào năm ngoái
Mọi quy trình agent đều được chạy trong container Docker với quyền truy cập thực thi bị giới hạn

Sử dụng tài nguyên và các mô hình nhỏ mới nhất

Các tác vụ đã thực hiện gần với Google cá nhân hóa hoặc tra cứu tài liệu hơn là những công việc mang tính đột phá
Trong quá trình làm việc, mức sử dụng GPU và RAM tăng cao và K-V cache đã tăng tới 64GB RAM
Ngay cả những tác vụ đơn giản, kiểu công việc mô hình cục bộ này cũng còn bất khả thi chỉ 6 tháng trước
Gemma-4-12b-qat gây ấn tượng về hiệu năng so với kích thước ngay từ khi mới phát hành
Kiến trúc mô hình đặt ra câu hỏi cần những thỏa hiệp kiến trúc nào khi có ràng buộc về hiệu năng và chi phí

Cấu hình chạy mô hình agent cục bộ

Để chạy luồng agent cục bộ cần có engine suy luận mô hình cục bộ, agent harness và artifact mô hình cục bộ
Harness phải được cấu hình để trỏ tới endpoint suy luận cục bộ, và artifact mô hình đã tải xuống phải được cung cấp thông qua engine suy luận
Cấu hình cục bộ hiện tại dùng Pi làm agent harness và LM Studio làm máy chủ suy luận
Đã làm theo bài viết thiết lập coding agent Gemma 4 bằng Pi và LM Studio nhưng thay đổi một số thiết lập
- Thay vì Gemma 26B A4B như trong bài, mô hình dùng là gemma-4-12b-qat, mới hơn, nhỏ hơn và nhanh hơn, trong khi mức giảm độ chính xác không lớn
- Vì lý do bảo mật, mọi phiên Pi đều chạy trong container Docker và chỉ được cấp quyền bash, chặn thực thi mã Python và duyệt web
- Với image riêng cho tác vụ nghiên cứu, có kế hoạch cho phép curl
- Do chạy bên trong Docker nên đã chỉnh models.json của Pi để Pi có thể giao tiếp với mô hình

Cách cô lập dựa trên Docker

Cấu hình Pi đặt baseUrl là http://host.docker.internal:1234/v1, còn API được đặt là openai-completions
Cấu hình Docker Compose mount models.json, thư mục làm việc, cấu hình Pi và thư mục session vào container
Script chạy liên kết thư mục làm việc hiện tại thành workspace của container và, nếu cần, thêm file Compose sandbox an toàn hơn
Pi chạy trong repository đang làm việc và khởi động Docker, nên không thể trực tiếp xóa file hay thư mục trên đĩa vật lý
Có thể truyền cấu hình json mô hình tùy chỉnh vào trong container nên nhìn chung hoạt động khá tốt trong môi trường thử nghiệm

Những giới hạn còn lại

Mô hình cục bộ vẫn có thể suy luận chậm, cửa sổ ngữ cảnh còn nhỏ và lượng ngữ cảnh khả dụng bị giới hạn bởi phần cứng hiện có
Hệ sinh thái đã trở nên dễ dùng hơn nhiều nhờ các công cụ như LM Studio và nút Use This Model của Hugging Face
Các bản phát hành đầu tiên có thể gặp vấn đề không khớp prompt template, nhưng những vấn đề như vậy thường được vá rất nhanh
Vẫn còn khó để khẳng định chắc chắn rằng mọi thứ đã sẵn sàng để dùng ngay cho phát triển phần mềm production

Ưu điểm của mô hình cục bộ và khả năng thử nghiệm

Với mô hình cục bộ, gần như có thể nhìn vào mọi thứ và xem quá trình suy luận token theo thời gian thực
Có thể trực tiếp kiểm tra luồng token đầu vào và đầu ra
Có thể thay đổi cửa sổ ngữ cảnh cục bộ và quan sát khi hiệu năng cải thiện hoặc suy giảm
Có thể đào sâu cách token được xử lý trên GPU, đồng thời thay đổi system prompt và thiết lập lượng tử hóa
Có thể cho các mô hình đối đầu với nhau hoặc thay đổi thiết lập phía harness rồi quan sát, nên khả năng thử nghiệm tiếp tục mở rộng

7 bình luận

syate 2026-06-18

"Do kích thước khối công việc tự nhiên và việc các mô hình nhỏ ưa những chỉ dẫn cụ thể, người dùng sẽ hiểu mã chi tiết hơn rất nhiều.
Điều đó không có nghĩa là mô hình chạy cục bộ không thể tóm tắt cấu trúc dự án hay tìm lỗi, mà là nó bù đắp cho cách làm việc đòi hỏi can thiệp thủ công nhiều hơn rất nhiều."

Có một đoạn rất ấn tượng trong phần bình luận.
Tôi đồng ý với điểm này.

emptybynature 2026-06-17

Nếu muốn nói mô hình cục bộ đã đủ dùng, thì chắc phải gọi ChatGPT là siêu trí tuệ mất... Mô hình cục bộ vẫn còn xa mới tới mức đó. Theo tiêu chuẩn của tôi, để nói mô hình cục bộ đủ dùng thì phải gắn 4 chiếc RTX 5090 và chạy được các mô hình cỡ từ 100B trở lên thì mới xem như "tàm tạm" dùng được.

GN⁺ 2026-06-17

Ý kiến trên Lobste.rs

Hiện tại tôi chưa thật sự muốn dùng kiểu công cụ này trong workflow, nhưng điều khiến tôi khó chịu nhất là sự tập trung hóa, và tôi nghĩ tác động của nó còn lan sang các lĩnh vực như môi trường, quyền riêng tư và phân phối quyền lực
Vì vậy, việc các mô hình có thể tự host cục bộ đang thực sự trở nên tốt hơn là điều đáng mừng
- Tôi nghĩ tương lai nhiều khả năng sẽ đi theo hướng đó. Không ai muốn gửi toàn bộ dữ liệu của mình cho nhà cung cấp dịch vụ, và chuyện tăng giá hay có tiếp tục cung cấp mô hình hay không cũng hoàn toàn phụ thuộc vào bên cung cấp
  Như đã thấy trong vụ Fable của Anthropic, việc tự biến mình thành nông nô số là một rủi ro có thật
  Nếu mô hình cục bộ và các coding harness tiếp tục cải thiện, sẽ ngày càng ít lý do để thuê mô hình từ nhà cung cấp, ngay cả khi hiệu năng tổng thể của mô hình cục bộ thấp hơn. Chẳng hạn, nhiều người dùng DeepSeek thay vì Claude vì nó đủ dùng mà lại rẻ hơn nhiều; với local cũng vậy, đến một thời điểm thì việc mô hình cục bộ có làm được việc hay không sẽ quan trọng hơn chuyện có thể thuê một mô hình tốt hơn hay không
  Khả năng tùy biến và tinh chỉnh công cụ cũng rất lớn. Tôi chưa thấy nhiều ví dụ tạo LoRA cho từng ngôn ngữ cụ thể, nhưng trong những phạm vi hẹp, có thể làm mô hình hiệu quả hơn nhiều, và ở giai đoạn đó nó thậm chí có thể làm tốt hơn một mô hình khổng lồ đa dụng
- Mô hình cục bộ khác biệt theo một cách khá thú vị, và một phần trong đó có thể là ưu điểm. Điện năng cho suy luận chỉ vào khoảng mức của một GPU gaming cao cấp, mà ngay cả vậy cũng chỉ dùng khi tạo token, và thường có thể giới hạn ở khoảng 300W. Nếu bạn vừa đọc vừa viết mã, thì có lẽ chỉ khoảng 25% ngày làm việc là dùng để tạo token, nên điện năng duy trì trung bình chỉ khoảng 75W
  Điện năng để huấn luyện vài mô hình cỡ local mỗi năm có thể nhỏ đến mức bị hòa lẫn vào tiếng ồn nền của nền văn minh công nghiệp. Dữ liệu thì vẫn nằm hoàn toàn ở máy cục bộ, và ta cũng ít phải tiếp tay cho đám con buôn hơn
  Mô hình cục bộ thường kém thông minh hơn, và chính điều đó lại khiến bạn bám sát công việc hơn. Với Fable, bạn có thể ra lệnh kiểu “hãy lấp đầy con phố này bằng nhà cửa”, và nó sẽ phun ra hàng loạt biệt thự McMansion thô kệch; còn với Qwen3.6 27B, cách tự nhiên hơn là nói “hãy sơn bốn căn phòng này”. Do kích thước khối công việc tự nhiên và việc các mô hình nhỏ thích chỉ dẫn cụ thể, người dùng sẽ hiểu code chi tiết hơn nhiều
  Điều đó không có nghĩa là mô hình cục bộ không thể tóm tắt cấu trúc dự án hay tìm bug; ý tôi là nó thưởng cho một cách làm việc đụng tay nhiều hơn. Fable là kiểu mô hình khiến chúng ta thực sự tin rằng mình tiêu rồi, vì nó có thể phun ra cả một dự án hoàn chỉnh trong chớp mắt. Những “McMansion” đó nhìn qua thì ổn, nhưng mái bị dột, móng thì lung lay, và tay nghề chỉ vừa đủ để bán được. Tất nhiên, ngoài thị trường thì rất có thể vẫn thành công lớn, và ngay cả Fable ở ngày tệ nhất cũng còn tốt hơn nhiều SaaS doanh nghiệp. Tất nhiên là trừ phần compliance và bảo mật
  Vì vậy tôi nghĩ mô hình cục bộ là công cụ rất thú vị, nhưng thật sự không mong chờ mớ hỗn loạn mà thế hệ frontier model tiếp theo sẽ tạo ra
Tôi tò mò những người trong giới học thuật đang dùng mô hình cục bộ vào việc gì. qwen3-coder:30b khá ổn cho chỉnh sửa LaTeX và truy vấn kết quả từ các bài báo đã OCR, nhưng không biết còn ứng dụng nào khác không
- Tôi đang ở trong giới học thuật. Tôi không dùng agentic coding, và hoàn toàn không dùng LLM cho việc viết lách. Tôi còn nghĩ hầu hết biên tập viên đều cấm chuyện đó nữa
  Mỗi lần thử tôi đều rất thất vọng, và việc thiết lập pipeline suy luận cục bộ cũng khá phiền và mong manh. GPU laptop thì quá nhỏ nên phải dùng cụm tính toán chia sẻ
  Thỉnh thoảng tôi có dùng ollama/qwen3-coder hoặc duck.ai. Chủ yếu là khi tôi không nghĩ ra được từ khóa để tìm cách làm gì đó trong một ngôn ngữ hay thư viện lạ, hoặc để nhờ hỗ trợ ở những tác vụ rất cụ thể mà tôi không rành như regex hay SQL
- Tôi dùng nó để tạo bản nháp cho bản dịch. Trong lúc hiệu đính bản dịch đó, tôi đã sửa được khá nhiều lỗi trong tài liệu giảng dạy mà lẽ ra có thể tự phát hiện nếu không dịch, nhưng trên thực tế lại không nhận ra. Điều này đặc biệt liên quan khi giảng dạy trong môi trường không dùng một ngôn ngữ duy nhất
  Tôi cũng dùng nó để tạo bản nháp đầu tiên cho các script nhỏ hoặc công cụ mini cá nhân chỉ trong một phát. Ví dụ như một harness loại trừ TikZ khỏi các yêu cầu dịch. Sau đó vẫn cần debug, nhưng debug thú vị hơn nhiều so với tự tay viết những phần nhàm chán mà LLM làm tàm tạm đúng. Chiến lược kiểm chứng còn quan trọng hơn cả khi tự viết tay, và lý tưởng nhất là theo kiểu “nếu còn bug thì khi chạy công cụ sẽ lộ ra khá rõ ràng”
  Thành thật mà nói, tôi khá ngạc nhiên vì Qwen3.6 không tệ như tưởng tượng trong việc tạo bản nháp lời giải mẫu cho các bài tập luyện viết chứng minh tiêu chuẩn. Trong lúc chỉnh sửa cho đúng phong cách mong muốn, nó có thể thành kiểu cháo rìu/cháo đá, nhưng có vài công thức có khả năng sẽ giữ lại đến cuối. Cuối cùng thì vẫn tùy vào mức độ nhàm chán của công việc
- Về cơ bản tôi dùng nó để biên tập ở mức vượt lên trên kiểm tra chính tả/ngữ pháp. Hoặc dùng để viết script nhanh cho phân tích dữ liệu, nhưng là cho mục đích thăm dò như thí nghiệm pilot chứ không phải phân tích cuối cùng.

kaboom45 2026-06-17

Tôi đang chạy qwen3.6 27b trên PC dùng DDR3 + i5 đồ họa tích hợp với tốc độ 1 token/giây.
Ngày xưa dù có chờ kiểu này thì kết quả cũng chỉ là đồ bỏ đi, nhưng giờ ít ra cũng đã cho ra thứ có thể dùng được.
Hiệu năng mà 6 tháng trước còn cần cỡ 80~120B thì giờ chỉ tầm 30B là đã đủ, và tôi nghĩ khoảng 1 năm nữa có lẽ ta sẽ thấy cả hiệu năng code cấp opus4.8, gpt5.5 ngay trên 30B.
Khi đó, tôi tin rằng các mô hình cục bộ kiểu này, dù chỉ nhả ra 50~70 nghìn token mỗi ngày, cũng sẽ hoàn toàn đáng để chọn làm phương án phụ.

beoks 2026-06-17

Để sử dụng mô hình cục bộ cho ra trò thì cũng cần phần cứng tương xứng, mà phần cứng lại quá đắt, nên nếu không có lý do đặc biệt như bảo mật thì hiện tại có vẻ đăng ký thuê bao hoặc gọi API vẫn có hiệu quả chi phí tốt hơn.

kaydash 2026-06-17

Dùng cho agent thông thường thì cũng tạm xoay xở được, nhưng để làm coding agent thì hơi...