Qwen chạy cục bộ không phải là một Opus tệ hơn, mà là một công cụ khác

(blog.alexellis.io)

2 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Qwen 3.6 27B chạy cục bộ tạo ra giá trị thực tế trong những tác vụ khó đưa lên đám mây, như dữ liệu khách hàng và telemetry nội bộ, nhưng không thể thay thế các mô hình SOTA trên đám mây
Điểm mạnh của mô hình cục bộ không nằm ở việc chạy đua điểm số với các mô hình mạnh nhất, mà ở chi phí cố định, bảo vệ quyền riêng tư và giảm rủi ro nhà cung cấp; sự khác biệt này đặc biệt rõ trong mức sử dụng nặng và các tính năng nội bộ của SaaS
Trên SWE-Bench Verified, Qwen 3.6 27B đạt 77,2 điểm, còn Claude Opus 4.8 đạt 88,6%; vì vậy tuyên bố rằng "mô hình cục bộ chỉ kém SOTA 12%" là bỏ qua khả năng tinh chỉnh theo benchmark và khác biệt của các miền thực tế như Go
Thiết bị RTX 6000 Pro Blackwell 96GB mua với giá khoảng 12.000 USD đã hoàn vốn chỉ nhờ một trường hợp thu hồi doanh thu khi phát hiện khách hàng khai báo thiếu giấy phép
Hạn chế lớn nhất là vấn đề lặp vòng gây ra đầu ra lặp lại và ảo giác trong các tác vụ dài; Qwen chạy cục bộ phù hợp hơn với hỗ trợ khách hàng, bảo trì phạm vi hẹp, đọc và giải thích codebase hơn là coding dài hạn không giám sát

Bối cảnh ứng dụng AI và ngữ cảnh kinh doanh

Nhóm nhỏ này vận hành các sản phẩm xoay quanh hạ tầng cấp thấp và Linux primitives như OpenFaaS, SlicerVM, Actuated và Inlets
- Dựa trên container, Firecracker microVM, network protocol, tunnel, CLI và Kubernetes; phần lớn được viết bằng Go, kèm một số UI bằng React
Đã dùng công cụ AI từ thời tự động hoàn thành tab trong VS Code, và hiện nay phần lớn code do Claude hoặc Codex đảm nhiệm, gần như không còn tự viết tay
Để quản lý luồng làm việc kéo dài trong tmux, tác giả đã tạo Superterm.dev và dùng nó để quản lý session, ghi chú cũng như cung cấp phản hồi trực quan cho coding agent

Bước ngoặt của trí tuệ frontier

Một bước ngoặt đã diễn ra trong giai đoạn từ tháng 11/2025 đến tháng 1/2026, khi nhiều lập trình viên trên X đánh giá rằng Claude Opus có thể xử lý toàn bộ công việc của họ
Chi phí cho gói coding cao cấp đã ổn định ở mức khoảng 200 USD/tháng cho cá nhân, và miễn là tránh các tác vụ không giám sát quá mức thì vẫn có thể dùng trong giới hạn 5 giờ và hạn mức hàng tuần

Vì sao mô hình cục bộ lại đáng chú ý

Năm 2026 là thời kỳ mà bất kỳ ai cũng có thể sao chép một ý tưởng chỉ sau một đêm với một gói đăng ký; SlicerVM và Superterm cũng từng bị clone
- Trong một thị trường mà chi phí phần mềm tiến dần về 0, thứ quan trọng có thể là "miễn phí nhưng đủ tốt"
Các mô hình dẫn đầu được ước tính có 0,5~2T tham số, ở quy mô hoàn toàn khác so với phần cứng cục bộ mạnh nhất
Benchmaxxing
- Benchmark là công khai nên có thể tinh chỉnh để tăng điểm, vì thế khó tin chúng như một chỉ số tuyệt đối
- SWE-Bench Verified dựa trên các issue Python, nơi phần lớn code là single-thread và synchronous; trong khi đó các hệ thống phân tán viết bằng Go lại trải rộng trên những vùng thực thi lớn với channel, context và struct
- Chỉ nhìn vào điểm benchmark thì khó kết luận rằng “mô hình cục bộ kém SOTA 12%”, vì trong công việc thực tế, đặc tính của ngôn ngữ và hệ thống ảnh hưởng rất lớn đến thành bại
Chi phí (Cost)
- Câu nói “mô hình cục bộ không phải là vấn đề chi phí” không đúng với mọi người dùng
- Gói coding cho cá nhân mang lại mức sử dụng cao và trí tuệ gần SOTA với giá 200 USD/tháng, nhưng bản thân gói này có vẻ đang được trợ giá
- GitHub Copilot từng cung cấp 1.500 request với giá 39 USD/tháng trước khi chuyển sang tính phí theo token, và điều đó đã vấp phải phản ứng mạnh
- Nếu bị tính phí theo token API, điểm hòa vốn có thể đến rất nhanh
  - Uber giới hạn chi tiêu AI ở mức 1.500 USD/tháng cho mỗi lập trình viên cho mỗi công cụ
  - Với mức lương trung vị 330.000 USD của Uber, nếu một lập trình viên dùng hai công cụ hết trần thì chi phí này tương đương khoảng 12% lương năm
- Với mức sử dụng lớn, vòng lặp, phân tích agent và các tính năng nhúng trong SaaS, mô hình open-weight và cục bộ mang lại giá trị đáng kể
Chủ quyền và quyền riêng tư (Sovereignty and privacy)
- Có những trường hợp dữ liệu không thể đưa lên gói cloud vì dữ liệu khách hàng và các điều khoản hợp đồng
- ChatGPT Pro và Claude Max có thể đặt thời gian lưu giữ 30 ngày, nhưng tác giả cho rằng mức đó vẫn có thể làm vô hiệu hợp đồng với khách hàng
- Trường hợp mô hình Fable 5 của Anthropic bị gỡ bỏ chỉ sau một đêm đối với người dùng ngoài Mỹ là một rủi ro nhà cung cấp
- Mô hình cục bộ là lời giải cho câu hỏi: "nếu frontier lab làm X thì sao?"

Ẩn dụ rèn lưỡi dao — bản chất của mô hình cục bộ

Cũng như trong xử lý nhiệt thép, chỉ cần quá tay một bước là phải làm lại từ đầu; mô hình cục bộ cũng vậy, nếu hoạt động quá nóng thì sẽ vượt mục tiêu và rơi vào vòng lặp
- Cách giải quyết duy nhất là dừng harness và kỳ vọng một kết quả khác với context đã được làm trống
Giống như không thể để mặc việc rèn lưỡi dao mà không giám sát, tác giả không giao các tác vụ có horizon dài cho Qwen 3.6 27B
Điều tôi tìm kiếm (What I was looking for)
- Mục tiêu là quyền riêng tư, chi phí cố định và phòng ngừa rủi ro nhà cung cấp
- Sự thất vọng xuất hiện khi đối xử với mô hình cục bộ giống hệt Claude hay Codex
- Claude có thể chạy một vòng lặp hiệu quả từ viết PR, tự review code đến lặp lại chỉ với chỉ dẫn ngắn như "do it and test it end to end", thường trong vòng 5~15 phút

Bài học rút ra từ 3090

Bắt đầu vào năm 2023 với một chiếc 3090, sau đó cần thêm một chiếc nữa để tải mô hình và có đủ context
- Đó là thời điểm tác giả lần đầu thấy Qwen 3.5 thực sự làm được việc như một agent
Khi được yêu cầu "khảo sát máy từ mọi góc độ và viết báo cáo forensic", mô hình đã đọc từng file một cho đến khi lấp đầy context và ảo giác về tên file và tool call (~/faas-netes→~/faaned)
- Khi thu hẹp phạm vi tác vụ và bảo nó "chỉ xem lướt qua", nó tạo ra báo cáo rõ ràng ở khoảng 40~50 tok/s
Mô hình 27B không thể chứa vừa trên một chiếc 3090 ở full precision, nên các biến số cần điều chỉnh là quantization trọng số, độ dài context và nén KV cache
- Theo kinh nghiệm chung, phần key của KV cache gặp vấn đề ở Q4_0, nên ngay cả khi nén mạnh nhất cũng chỉ dùng keys Q8_0 / values Q4_0
Thử nghiệm với vLLM + NVLink + tensor parallelism cho thấy tốc độ sinh chậm hơn llama.cpp 3 token/giây, đồng thời vẫn gặp vòng lặp và mất vài phút để nạp trọng số
- vLLM phù hợp cho phục vụ đồng thời quy mô lớn, nhưng trong môi trường prosumer thì thời gian khởi động, sự đơn giản và độ trễ cho một người dùng quan trọng hơn

Khoản chi lớn — đưa RTX 6000 Pro vào sử dụng

Để xử lý nhanh các ticket hỗ trợ khách hàng, tác giả đã mua RTX 6000 Pro Blackwell (96GB VRAM) giá khoảng 12.000 USD
- Sau đó giá tăng lên khoảng 15.400 USD nên khó có thể thêm thẻ thứ hai
- Vì PCI lanes, băng thông, khoảng cách giữa các card và tải PSU, không thể đơn giản gắn thêm vào một máy tiêu dùng
Đây là một canh cược có tính toán và đã đem lại kết quả, nhưng không thể thay thế gói đăng ký Claude

Hỗ trợ khách hàng dễ dàng mà không rò rỉ dữ liệu

Tác giả tạo công cụ CLI tên là diag để operator có thể dễ dàng chạy và chụp một snapshot hoàn chỉnh của cài đặt OpenFaaS trên Kubernetes
- Các dump nhận được sau đó được phân tích bằng mô hình cục bộ airgapped trong ephemeral VM do Slicer tạo ra
Thu hồi doanh thu (Revenue recovery)
- Khi đưa cơ sở dữ liệu telemetry vào mô hình cục bộ, tác giả phát hiện một khách hàng khai báo thiếu giấy phép hơn 12 tháng và chưa thanh toán thấp hơn 4~5 lần, và chỉ riêng khoản thu hồi này đã đủ bù chi phí card
- Telemetry và dump diag không được đưa vào bất kỳ gói cloud nào, bất kể chính sách lưu giữ dữ liệu là gì
- ChatGPT Pro và Claude Max có thể đặt lưu giữ 30 ngày, nhưng mức đó vẫn có thể làm vô hiệu hợp đồng với khách hàng
- Các mô hình ban đầu thất bại ở phép tính số học (tính 27.3K thành 273.000) và đánh giá sai nguy cơ churn vì bỏ qua tần suất sử dụng cao chỉ do số lượng function ít
- Cuối cùng, tốt hơn là khiến mô hình tập trung vào phân tích hơn là diễn giải

Thiết lập hiện tại

Trên rig RTX 6000, tác giả đang chạy song song thế hệ mới nhất của Qwopus và base Qwen 3.6 27B, thay đổi theo finetune mới và các bản phát hành point release
- Qwopus là mô hình finetune thêm khả năng theo dõi Chain of Thought trên nền Qwen để nâng hiệu năng suy luận và coding
- Cho đến gần đây, tác giả tắt hoàn toàn thinking; thời điểm bật lại trùng với việc vòng lặp tăng lên
Hệ thống được phục vụ bằng hai instance llama.cpp độc lập để giữ nguyên độ dài context đầy đủ; --parallel 2 sẽ làm giảm context xuống còn một nửa
Với speculative decoding (MTP), tỷ lệ chấp nhận đạt khoảng 93%, tốc độ tăng từ mức ổn định 67 tok/s lên 130~200 tok/s, cho cảm giác nhanh hơn cloud
- Cần tuân thủ hướng dẫn tuning trong model card; Qwopus hoạt động tốt nhất khi tắt thinking và đặt temperature rất nóng ở mức 0.85~1.0

Hạn chế của đầu ra lặp lại và tác vụ dài hạn

Vấn đề lớn nhất của Qwen là hiện tượng rơi vào vòng lặp trong các tác vụ phạm vi dài
Khi được hỏi nên thêm lệnh nào vào faas-cli, ban đầu nó đưa ra đề xuất hợp lý nhưng sau đó lặp lại cùng một danh sách lệnh, tiêu tốn 600W điện trong khoảng 30 phút
Khi được giao thêm --json cho toàn bộ lệnh get và list, một hai mục đầu tiên trông có vẻ ổn và thậm chí còn viết test, nhưng sau đó mọi thứ xấu đi
Khi được yêu cầu dùng Python reverse proxy để chặn cảnh báo insecure TLS của endpoint từ xa http:// trong đầu ra --json, phiên bản đầu tiên trông khá ổn nhưng thụt lề sai; trong quá trình sửa, nó làm hỏng file rồi tiếp tục lặp lại trong trạng thái bị kẹt
Đồng đội Han cũng gặp những vòng lặp tương tự, đặc biệt ở dạng mô hình hoặc agent chạm đến giới hạn năng lực nhưng không dừng lại để xin trợ giúp
Vì vấn đề này, rất khó để tin tưởng Qwen cục bộ cho các mục đích ngoài hỗ trợ khách hàng và phân tích telemetry/diag phục vụ gia hạn

Đo lường và phân phối truy cập

Ban đầu chỉ dùng một tunnel inlets; khi hai agent cùng kết nối vào một instance llama.cpp thì cached prefix của chúng vô hiệu hóa lẫn nhau, dẫn đến xử lý lại toàn bộ prompt
Khi nhiều người cùng dùng, hệ thống vượt khỏi mức prototype, phát sinh các vấn đề quản lý như ai dùng instance nào, dùng bao nhiêu, dùng mô hình gì, chi phí điện năng và cách xử lý khi người dùng rời đi
Thay vì chỉnh sửa và phân phối opencode.json thủ công, tác giả viết provider "Toilgate" cho opencode, cho phép chọn từ model base đến các biến thể Qwopus mang tính thử nghiệm trong model picker
- Toilgate được viết 100% theo kiểu vibe-coded, và việc open source nó là một gánh nặng lớn
Điện năng tiêu thụ được đo bằng 2 Shelly Plus Plug ở ổ cắm tường; RTX 6000 Pro dùng 600W khi suy luận và chạy êm, trong khi hai chiếc 3090 cộng lại dùng khoảng 750W và rất ồn
So sánh sai lệch (The wrong comparison)
- So sánh chi phí I/O trên một triệu token với giá API của GPT-5.5 là một so sánh sai lệch nếu xét tới năng lực hiện tại
- "AI cục bộ" rốt cuộc là một bài toán vận hành đòi hỏi nhận dạng, kiểm soát truy cập, metering, quota, định tuyến mô hình và giám sát điện năng

Các mẫu sử dụng thực sự hữu ích

Điều quan trọng là phải chuyên biệt hóa mô hình cục bộ và harness cho những tác vụ phù hợp
- hỗ trợ khách hàng
- bảo trì với phạm vi được xác định rõ
- kiểm thử end-to-end
Nếu thêm hướng dẫn chi tiết vào AGENTS.md, mô hình cục bộ có thể thêm CLI mới nhanh và hiệu quả hơn, đồng thời tự kiểm thử được
- Tác giả đã thấy hiệu quả này trong alexellis/arkade
Mô hình cục bộ có thể có giới hạn trong việc trực tiếp viết code, nhưng lại mạnh ở khả năng đọc và giải thích codebase một cách nhanh chóng
Agent Skills cũng hữu ích, và từng có trường hợp agent cục bộ thiết lập Slicer từ đầu trên một mini PC mới
Cần phổ biến cách chạy cùng một tác vụ trên cả mô hình cục bộ và mô hình cloud
- Giống như trường hợp so sánh cùng một tác vụ, đôi khi kết quả gây thất vọng, đôi khi lại khiến người ta thấy mình gặp may
Nên tránh các tác vụ agent không giám sát với phạm vi dài; ngay cả thiết bị gần 15.000 USD cũng không giải quyết được vấn đề này

Kết luận hiện tại và giới hạn trong lựa chọn mô hình

Qwen cục bộ không hẳn là “gần đạt cấp độ Opus” mà là một công cụ khác có giá trị trong các tác vụ và quy trình làm việc nhất định
Qwen 3.5 được xem là mô hình đầu tiên cho ra kết quả đủ dùng; dù có tin đồn về 3.7, tác giả kỳ vọng cải tiến lặp dần chứ không phải thay đổi mang tính cách mạng
Các mô hình 70B phần lớn đã cũ và bị xem là tụt hậu một thế hệ
Qwen 35-A3B được ưa chuộng vì trông nhanh trên MacBook, nhưng vì chỉ có 3B tham số được kích hoạt khi sinh nên tác giả chọn chất lượng thay vì tốc độ
Những mô hình lớn hơn như GLM 5.2, Kimi 2.7, Minimax M3 hay Deepseek V4 Flash có thể chạy trên một số thiết bị cục bộ, nhưng ngay cả bản quantized cũng thường cần tới 4~6 chiếc RTX 6000 Pro nên nằm ngoài phạm vi
Hiện tại, mô hình dense 27B vẫn chưa đủ tốt để viết code Go cả ngày; tri thức và khả năng chú ý hạn chế của nó lộ rõ ngay trong code review
Qwen không giỏi tuân theo chỉ thị phải súc tích, và trong tự động review code nó thường viết dài dòng không cần thiết hoặc ảo giác ra các vấn đề concurrency và race condition, khiến thử nghiệm nhanh chóng bị dừng lại
Grok Coder Fast 1 rẻ hơn và nhanh hơn đã hoạt động tốt trong vài tháng trước khi bị deprecated
Các trường hợp liên quan được tổng hợp trong code review bot và OpenFaaS no painless customer support and architecture review

1 bình luận

GN⁺ 4 giờ trước

Ý kiến trên Hacker News

Nếu dùng các mô hình này đủ lâu, bạn sẽ nhận ra vấn đề không chỉ đơn giản ở mức “X thông minh hơn Y” hay “Y rẻ hơn Z”. Chúng là những công cụ khác nhau và cách viết prompt cũng khác, khá giống với việc chơi nhạc cụ
Với Claude, đôi khi cần cố ý bớt tường minh hoặc diễn đạt gián tiếp để thêm màu sắc cho phần triển khai hoặc kéo ra kết quả sáng tạo. Và nghe có thể kỳ lạ, nhưng nếu bạn đối xử tử tế với Claude thì sẽ được đền đáp, còn nếu thô bạo thì sẽ bị thiệt. Claude có xu hướng bắt chước giọng điệu mạnh hơn, nên tốt nhất là đừng rơi vào vòng lặp tiêu cực
Với GPT, cần phải chính xác và giảm mơ hồ. GPT thường cố giải quyết sự mơ hồ theo kiểu tối thiểu-tối đa như “tôi sẽ làm X nhưng không phải Y”, và nếu bạn không nói rõ phạm vi thì nó sẽ cố bao hết mọi trường hợp biên và có xu hướng thiết kế quá mức
Với Qwen, bạn cần dựng sẵn khung rồi để nó điền vào bên trong. Qwen thích XML, JSON, danh sách, và làm tốt nếu bạn cho xem nhiều ví dụ về công việc trước đó. Đây hoàn toàn không phải nhận xét khoa học mà chỉ là cảm giác cá nhân, nên kết quả có thể khác
- Chính chỗ “không khoa học, chỉ là cảm giác” mới là vấn đề. Sẽ rất hay nếu có một kiểu sổ tay sản phẩm ghi điểm mạnh và điểm yếu của từng mô hình, kèm cây quyết định như “việc này thì dùng mô hình X”, “mô hình Y phải dùng theo cách Z”
  Nhưng bề ngoài chúng đều trông khá giống nhau, và để tìm ra cái gì nhỉnh hơn ở đâu thì bạn phải tự làm các bài thử nghiệm rất rộng, rất tốn thời gian và có thể còn tốn kém nữa
- Trước đây tôi đã thử rất nhiều việc như chạy lại cùng một prompt với cùng đầu vào, hoặc đưa vào các đầu vào mà về mặt ý nghĩa thì giống nhau nhưng khác cách diễn đạt hay cấu trúc, để xem kết quả phân kỳ đến mức nào. Tôi đặc biệt làm điều này giữa Sonnet và Opus, cũng như giữa nhiều mô hình Qwen khác nhau
  Tôi khuyên ai cũng nên thử, vì không cần dữ liệu đặc biệt nào ngoài dữ liệu bạn vốn đã dùng, và kết quả khá gây sốc. Có nhiều tính ngẫu nhiên hay bất ổn hơn bạn tưởng rất nhiều, và những gì bạn cho là kỹ thuật prompt tốt hơn, hay kết quả đặc biệt tốt hoặc tệ, có thể chỉ là ngẫu nhiên hoặc là khác biệt hành vi giữa các phiên bản/kích cỡ mô hình. Những khác biệt nhỏ trong đầu vào cũng có thể làm lệch kết quả rất mạnh. Ở công ty, chúng tôi gọi một phần trong số này là từ khóa ma thuật, nơi chỉ cần nhắc đến một thuật ngữ kỹ thuật, tham chiếu hay kỹ thuật cụ thể là kết quả đã cải thiện đáng kể
  Ở đây có kỹ thuật. Trong vòng lặp agent, nếu đặt mô hình vào một cấu trúc tự đánh giá khiến nó khó dùng mánh hay đường tắt, và nếu điều đó khớp với cấu trúc hoặc miền mà nó đã được huấn luyện, thì nó sẽ làm rất tốt. Nhưng rất khó tìm được điểm tối ưu. Một mẹo là bảo Opus 4.8 chuyển mô hình PyTorch sang ONNX hoặc mô hình lượng tử hóa, hoặc chạy trên phần cứng khác, thì nó làm tốt như thể vừa bật một năng lực đặc biệt vậy. Ngược lại, tôi hoàn toàn không thể khiến nó viết và kiểm thử việc hình thức hóa EBNF cho ngôn ngữ hay định dạng thông thường một cách đúng đắn mà không gian lận
  Điều tệ nhất là loại kiến thức này thay đổi quá thường xuyên, đến mức nếu bạn không phải là người thực sự huấn luyện mô hình thì gần như không đáng để đào sâu. Tôi ước gì độ ổn định của đầu ra được nhấn mạnh hơn trong huấn luyện để mọi thứ dễ dự đoán hơn. Làm vậy mà không gây overfitting hay phá hỏng vòng lặp khám phá-khai thác có lẽ rất khó, nhưng nếu công việc theo lô có thể chạy ổn định hơn thì có lẽ tôi sẽ chi nhiều tiền hơn nữa cho LLM
- Trông nó giống việc kéo máy đánh bạc hơn là chơi nhạc cụ, còn phần còn lại là tự tưởng tượng ra
- Tôi đồng ý với phần lớn, nhưng có một điểm khác. Có những lúc nói thô với Claude đúng thời điểm lại cực kỳ hiệu quả. Đặc biệt, F-bomb đôi khi có vẻ khá hữu ích để kéo Claude ra khỏi trạng thái bị mắc kẹt
- Tôi từng nhờ GLM 5.2 port một game C#/XNA cũ sang HTML5, và nó gần như bê nguyên mã sang, chỉ trừ phần nạp thêm mã để làm cho chạy được sau khi bỏ toán tử nạp chồng vốn không có trong JS
  Khi tôi đưa cùng yêu cầu đó cho Claude Sonnet 4.6, kết quả lại giống như thể trò chơi đó ngay từ đầu đã được viết bằng JS. Hơn nữa, vì lý do nào đó nó còn làm thành một file HTML duy nhất, xóa hết mọi asset, rồi tạo đồ họa và âm nhạc một cách động, thậm chí còn làm luôn nền mới đẹp hơn
  Tôi chỉ yêu cầu port game thôi nên khá bất ngờ. Tôi thực ra khá thích lựa chọn đó, nhưng không biết phải bật hay tắt kiểu hành vi này như thế nào. Có lúc bạn cần sự sáng tạo, có lúc bạn chỉ muốn nó làm đúng theo những gì mình nói
Đọc bài này và những lời khen dành cho nó khiến tôi có cảm giác như đang nhìn ông hoàng cởi truồng. Ngay từ câu này đã vô lý rồi
“These products use very low level Linux primitives like containers, Kubernetes, Firecracker microVMs, and networked protocols.”
Trong số những thứ có thể gọi là “các thành phần nguyên thủy Linux cấp thấp”, có lẽ chỉ giao thức mạng là còn có thể miễn cưỡng tranh luận được. Và nó trông rõ ràng như văn bản do AI tạo ra. Nếu chỉ cần tin vào nội dung thì không sao, nhưng tôi lại không thể tin được
- Dạo này cấp thấp nghĩa là JavaScript thay vì TypeScript
- Đúng là câu đó đã bị nén quá mức. Tôi đã diễn đạt lại và ý nghĩa vẫn giữ nguyên
  Bài viết không phải do AI tạo ra; tôi dùng AI để sinh code nhưng tự viết bài. Tôi muốn biết chỗ nào khiến bạn thấy khó hiểu. Bài này mô tả kinh nghiệm và hành trình của chính chúng tôi, và với các tuyên bố cụ thể thì tôi sẵn sàng đưa ra căn cứ
Tôi vẫn tin rằng điểm mạnh của AI chỉ thực sự xuất hiện khi nó được triển khai an toàn và riêng tư trên máy cục bộ, chứ không phải như thêm một dịch vụ đám mây khác mà cuối cùng bạn phải trả tiền mãi mãi và theo thời gian lại tệ đi để nuôi lòng tham của cổ đông doanh nghiệp
ChatGPT hay Anthropic sẽ không bao giờ khiến tôi trói dữ liệu sức khỏe của mình vào hệ thống của họ, nhưng tôi vẫn tin vào khả năng AI tìm ra các mẫu dữ liệu mà tôi có thể bỏ lỡ. Vì vậy tôi rất cần một hệ sinh thái chỉ dành cho cục bộ có thể xử lý dữ liệu bằng cách cho những thứ như Qwen hay Gemma tiếp cận dữ liệu đó một cách an toàn và riêng tư
Nhà thông minh và trợ lý cá nhân cũng vậy. Cách tiếp cận kiểu doanh nghiệp, nơi công ty A truy cập dữ liệu được lưu ở công ty B, công ty D và E xử lý rồi bán cho nhà quảng cáo và môi giới dữ liệu, trong khi tôi không có cách nào trích xuất hay xem nó trên phần cứng cục bộ của mình, là điều không bền vững cho những mục đích riêng tư như thế này. Dữ liệu của tôi phải do tôi sở hữu, kiểm soát và cho phép truy cập theo điều kiện của tôi, và trước hết phải được dùng để cải thiện cuộc sống của tôi, chứ không phải để cải thiện bảng lãi lỗ của người khác. Tôi muốn công nghệ trả lại thời gian cho mình và cải thiện kết quả, và vì đã quá ngán Big Tech nên tôi kiên quyết bác bỏ tiền đề rằng mô hình kinh doanh AI-as-a-Service có sự cao quý hay giá trị công ích nào đó
Năng lực thì đã có rồi, và tôi cho rằng những người đang làm công cụ cục bộ để hỗ trợ và mở khóa tiềm năng của các mô hình cục bộ đang đi đúng hướng. Tôi thích nhìn những gì họ tạo ra
- Điểm cốt lõi của các mô hình “cục bộ” thường là chúng có trọng số mở, và đôi khi còn là mã nguồn mở. Vì thế bạn có thể dùng trên máy cục bộ, nhưng cũng có thể để các nhà cung cấp độc lập lưu trữ
  Nếu dùng các mô hình như Qwen, DeepSeek, bạn có thể chuyển qua lại giữa các nhà cung cấp độc lập mà không bị trói vào một công ty duy nhất, đồng thời có thể nhận được cam kết bảo vệ quyền riêng tư tốt hơn. Khi đó, miễn là có kết nối Internet, bạn vẫn có thể dùng mô hình trên các thiết bị không thể tự chạy nó trực tiếp
  Điểm mạnh của AI nằm ở các mô hình mã nguồn mở. Cần dùng những mô hình giúp tránh bị khóa vào nhà cung cấp, đồng thời cho phép cả sử dụng cục bộ lẫn lưu trữ bởi nhà cung cấp độc lập
Bài viết hay. Tuy vậy, có vẻ như nó đang đánh giá thấp khả năng cải thiện
Chính tác giả cũng thừa nhận rằng so sánh mô hình cục bộ của 1 năm trước với hiện tại là không có nhiều ý nghĩa. Trên thực tế, nhiều người xem tháng 11 năm ngoái, tức Opus 4.5 cách đây 8 tháng, là thời điểm đầu tiên mà agent coding trở nên khả thi rộng rãi ngay cả với các mô hình frontier được lưu trữ
Vậy tại sao ở thời điểm hiện tại lại phải cố định quan niệm về việc mô hình cục bộ làm tốt hay không tốt điều gì? Một năm nữa, có lẽ mọi thứ sẽ khác. Có thể cho rằng việc chúng sẽ làm được cả các tác vụ dài trên phần cứng tiêu dùng lẫn chuyên nghiệp là lạc quan ngây thơ, nhưng cho đến giờ thì chính những người lạc quan ngây thơ đó vẫn đang thắng
- Đúng vậy. Nếu Opus 4.5 đã đủ tốt cho agent coding từ 8 tháng trước, thì các mô hình trọng số mở hiện đang chậm hơn bao nhiêu? Có hơn 8 tháng không? Hơn bao nhiêu? Vài tháng nữa sẽ đạt mức Opus 4.5, hay 1 năm nữa, hay là sẽ không bao giờ làm được?
- Điều bị thiếu lớn là so sánh harness. Yếu tố này đóng vai trò rất lớn. Tôi đang dùng forge, và ngay cả khi tính đến mọi giới hạn của mô hình cục bộ thì những gì nó làm được vẫn rất ấn tượng
- Vì tác giả đang bàn về một mô hình cụ thể, nên tôi nghĩ có thể bỏ qua việc mô hình đó hay mô hình cục bộ nói chung sẽ cải thiện thế nào theo thời gian
  Nó giống như mua một chiếc xe. Bạn lái chiếc xe đó và làm quen với các đặc tính của nó, chứ không nghĩ xem chiếc xe đó hay những chiếc tương tự sẽ được cải thiện thế nào trong tương lai. Nó là công cụ của bạn, và bạn muốn tận dụng nó tối đa
  Tất nhiên, chi phí kỹ thuật để thay đổi mô hình cục bộ là rất thấp, nhưng để khai thác hiệu năng tối đa từ mô hình đó thì vẫn tốn khá nhiều thời gian, và nỗ lực đó có thể không còn áp dụng được ở phiên bản mới
- Tôi đồng ý 100% rằng Claude 4.5 là bước ngoặt của agent coding. Mô hình đó đã khiến tôi thay đổi hoàn toàn cách nghĩ
Bài viết thú vị. Cá nhân tôi thấy tác giả lẽ ra nên làm tốt hơn ở hai điểm
Thứ nhất, lẽ ra nên dùng vLLM thay vì llama.cpp. Trên phần cứng NVIDIA, chênh lệch của vLLM ở tải nhiều người dùng và bộ nhớ đệm là cực lớn. Ở những đoạn phàn nàn về việc hơn một người dùng mô hình hoặc việc cache bị mất, tôi chỉ nghĩ “thế thì đương nhiên rồi”
Thứ hai, số tiền chi cho một card đơn lẽ ra có thể dùng hiệu quả hơn nhiều cho SPARK. Có thể dùng cụm 2 x GX10, mà tổng chi phí ngay cả theo giá hiện tại vẫn chưa tới một nửa số tiền tác giả đã bỏ ra, và đang chạy vLLM cùng Deepseek v4 Flash. So với Qwen thì khác biệt là rất lớn. Tôi chưa từng thấy nó bị kẹt trong vòng lặp, và trong tất cả những gì tôi đã thử nghiệm cho đến nay, đây là mô hình giống Sonnet nhất. Có vẻ antirez cũng đồng ý nên mới tạo nhánh ds4 fork
Đây là cách cấu hình trên 2 GX10: https://forums.developer.nvidia.com/t/deepseek-v4-flash-offi...
Hiệu năng là prefill 2K token/giây nên rất hữu ích khi đưa lượng lớn mã nguồn vào cửa sổ ngữ cảnh khổng lồ, còn khi coding với harness pi.dev thì tốc độ sinh khoảng 50~60 token/giây. Với số tiền tác giả đã bỏ ra thì có thể mua 4 GX10, và vLLM gần như mở rộng tuyến tính trong tensor parallelism, nên có thể tăng gấp đôi cả hai con số này
- Tôi cũng đã chạy thử vLLM trên 3090. Với kiểu sử dụng từ một đến vài người như chúng tôi, tốc độ sinh chậm hơn khoảng 3 token/giây, độ linh hoạt lượng tử hóa thấp hơn, và thời gian khởi động thực tế mất vài phút chứ không phải chỉ vài giây
  Có thể sau này tôi sẽ thử thêm, nhưng tôi không có vô hạn thời gian để mày mò, và đây chỉ là chia sẻ về hành trình và nhận định của tôi cho tới lúc này
  Với phục vụ theo lô đồng thời thì vLLM là lựa chọn đúng, và điều barrkel nói bên dưới là chính xác. Nhưng với cách chúng tôi sử dụng, llama.cpp vẫn tốt hơn
  Hướng Spark/GX10 thực sự là một nước cược khác hẳn, và cảm ơn vì đã chia sẻ các con số. Chỉ vài tháng trước thôi, không khí chung vẫn là GX10 chỉ dành cho fine-tuning và các chỉ số hiệu năng thì thấp một cách nghiêm trọng
  Và chiếc card đó hoàn toàn không được mua để thay thế gói Claude Max. Thực tế, với các tác vụ đúng mục đích mà tôi mua nó, nó đang cho 140~200 token/giây, và đó mới là điều quan trọng
Bài viết dài, nhưng tôi vẫn không biết rốt cuộc tác giả muốn nói điều gì. Ngoài những gì có thể suy ra từ tiêu đề
Dù sao thì tôi cũng biết được rằng tác giả là một người khá ngầu, vừa làm phần cứng vừa làm phần mềm, và người khác còn trả tiền cho anh ấy. Còn điều đó có liên quan đến chủ đề mà tiêu đề ám chỉ hay không thì tôi không rõ
- Dạo này cái gì cũng là quảng cáo. Bài viết không phải là vô dụng, nhưng xét theo lượng thông tin nó cung cấp thì hai đoạn là đủ rồi
Bài này tóm tắt khá tốt về các mô hình cục bộ. Khác với việc đôi khi chúng bị thổi phồng như một công cụ tuyệt vời cho lập trình và công việc agent chạy cục bộ, thực tế chúng khá hạn chế, yếu ở các tác vụ dài hoặc phức tạp, và dễ rơi vào vòng lặp hoặc quên việc đang làm
Điều bài viết chưa nhắc tới là chi phí cũng khá cao. Không chỉ có chi phí phần cứng mà còn có cả tiền điện. Máy dùng 3090 hay 5090 tiêu thụ rất nhiều điện, và vì mô hình trên các máy này chạy khá chậm nên mức điện năng trên mỗi token còn cao hơn
Điểm sáng là khả năng kiểm soát, quyền riêng tư và tính dự đoán được. Ví dụ, chúng phù hợp với các công việc lặp lại như phân loại thư viện ảnh·video, và tùy theo giá điện thì cũng có thể có lợi thế về chi phí
- Tôi tin rằng mô hình cục bộ là một phần mở rộng thiết yếu của máy tính cá nhân. Có lẽ những chiếc máy tính cá nhân thời kỳ đầu cũng từng nhận các chỉ trích tương tự
- Điều tôi mong muốn là một mô hình cục bộ có thể xử lý khoảng 80% các công việc hằng ngày. Ví dụ như “X Handler được nối với Y storage như thế nào?”, “hãy commit tính năng đó nhưng bỏ phần liên quan đến thanh toán ra”
  Việc gọi công cụ phải đáng tin ở mức 99%, và trên hết phải có khả năng nói “việc này vượt ngoài năng lực của tôi” rồi chuyển tiếp sang một mô hình hiệu năng cao trực tuyến đâu đó trong một trung tâm dữ liệu khổng lồ
  Khi đó, mọi việc đơn giản sẽ được xử lý ngay trên thiết bị, đồng thời thu thập dữ liệu và nắm bắt ngữ cảnh vấn đề, rồi sau khi phần dễ xong thì một mô hình thông minh hơn sẽ vào giải quyết vấn đề
  Việc một mô hình cục bộ lại gọi mô hình trực tuyến cho kỹ năng /commit mà nó có thể làm được 100% thật sự rất ngớ ngẩn. Tuy vậy, đây chủ yếu là vấn đề của harness nên có thể giải quyết được phần lớn
- Mô hình cục bộ thực sự rất tuyệt cho nhiều mục đích sử dụng, và tôi cho rằng phần lớn mọi người không cần đến mô hình tối tân nhất. Khi chạy mô hình Qwen trên một chiếc 4070 12GB nhỏ cho agent email cá nhân, điều quan trọng nhất vẫn là quyền riêng tư
  Nó làm rất tốt, và với công việc lập trình cũng rất ổn nếu biết cách dùng thay vì quăng nguyên cả một kế hoạch hoành tráng cho nó
- Sau khi có thay đổi MTP, tôi đang đạt 40~50 token/giây với qwen3.6:27b trên chiếc 4090 giới hạn ở 350W. Tính theo mức trần thì khoảng 8.75J/token
  Tôi không biết so với các lựa chọn khác thì thế nào, nhưng 5090 hẳn sẽ nhanh hơn trong cùng giới hạn điện năng nên tôi đoán sẽ rẻ hơn một chút
- Đó là theo phần cứng hiện tại. Còn phần cứng tương lai thì sao? Phần cứng tối ưu cho suy luận thì sao? Còn phần cứng được tối ưu để chạy một mô hình cụ thể thì sao?
Tôi thấy thú vị khi vLLM bị xem như chậm hơn llama.cpp
Theo kinh nghiệm của tôi thì vLLM nhanh hơn llama.cpp khá nhiều, và đặc biệt áp đảo ở xử lý batch dưới tải đồng thời. Điểm yếu là độ linh hoạt trong tinh chỉnh thấp hơn hẳn. Có rất ít lựa chọn để chạy trọng số lượng tử hóa, và thời gian khởi động lâu hơn nhiều vì phải tối ưu đồ thị tính toán. Vì vậy, với một người dùng đơn đang thử nghiệm mô hình hơi quá sức so với dàn máy thì vLLM có thể gây bực bội
- Có thể nói thế này: vLLM không phải Llama.cpp tệ hơn mà là một công cụ khác
- vLLM rất tốt cho continuous batching và phục vụ mô hình trong môi trường production, nhưng ở nhóm prosumer thì nó là một thứ hoàn toàn khác và kém đa dụng hơn nhiều
  Cụm “xem như vậy” nghe hơi nặng, nhưng nói cụ thể hơn thì trên dàn 2x 3090, việc load mất hơn 4 phút, còn yêu cầu đơn lẻ thì chậm hơn 3 token/giây
  Điều tệ nhất là đã tốn công thiết lập và tinh chỉnh xong mà nó vẫn rơi vào vòng lặp. Tôi đã hy vọng lời khuyên “cứ dùng vLLM đi” mà nghe khắp nơi sẽ là lời giải vạn năng
  Có một điều cần cẩn thận ở đây là đừng bắt đầu hạ thấp llama.cpp như cách người ta từng làm với Ollama. llama.cpp là một công cụ rất có năng lực, và phù hợp hơn với mục đích mà chúng ta thực sự muốn dùng các card đó
  Nếu muốn thay thế gói đăng ký Claude cho một đội lớn thì vLLM có thể là lựa chọn duy nhất, nhưng để dựng thứ như GLM 5.2 thì có lẽ còn phải thêm khoảng 5 card RTX 6000 nữa
- Nếu tôi nhớ không nhầm thì đồng thuận chung vẫn là người dùng đơn thì llama.cpp, còn nhiều người dùng hay doanh nghiệp thì vLLM. Khá giống nhau nhưng mục đích sử dụng khác nhau
- Tôi hơi ngạc nhiên khi vẫn tiếp tục dùng llama.cpp và không chuyển sang vLLM, trong khi lại phàn nàn rằng nhiều người cùng truy cập mô hình thì cache prefix bị hỏng
Có đoạn nói rằng “mô hình chạy quá nóng nên vượt qua mục tiêu và quay vào vòng lặp”, rồi ở sau lại nói đã cấu hình vLLM làm thử nghiệm mới nhất nhưng ngay cả khi bật NVLink và tensor parallelism thì tốc độ sinh vẫn chậm hơn llama.cpp 3 token/giây
Trong mọi bài test của tôi, việc chạy vLLM đều xứng đáng. Đây là yếu tố đơn lẻ giúp nhiều nhất với các vấn đề như vòng lặp, agent trở nên kỳ quặc, mất tập trung vào tác vụ, hay ngữ cảnh dài trở nên gần như vô dụng
Dùng mô hình FP8 và cache không lượng tử hóa trên vLLM giúp trải nghiệm tổng thể tốt hơn hẳn so với bất kỳ stack nào khác. Sau đó có thể ngừng mày mò cấu hình và tập trung dùng mô hình cho việc khác
- Tôi thực sự tò mò về phần này. Không phải vì tôi không đồng ý, mà vì tôi muốn tránh chuyện agent trở nên kỳ quặc. Tôi muốn biết bạn dùng vLLM cho riêng mình, cho đội nhóm hay cho ứng dụng
  Và tôi cũng muốn biết liệu bạn có cảm thấy để vLLM hữu ích theo cách này thì có một mức yêu cầu phần cứng tối thiểu nào đó không. Tôi đang định làm một máy chủ suy luận tại nhà như dự án cuối tuần bằng các linh kiện trung tâm dữ liệu cũ, và vẫn đang liên tục chỉnh lại cấu hình cuối cùng trong đầu
- Tôi tò mò vì sao lại dùng cache không lượng tử hóa thay vì Q8
Với những ai muốn mua và tự ráp thiết bị AI của riêng mình, tôi khuyên trước hết hãy kết nối tới một trong nhiều nhà cung cấp suy luận rồi tự dùng thử nhiều mô hình trong một thời gian
Chi phí hầu như không đáng kể, nhưng đó là một bản xem trước khá tốt về những gì bạn có thể nhận được với dàn máy của riêng mình. Chỉ là một mẹo thân thiện thôi

Qwen chạy cục bộ không phải là một Opus tệ hơn, mà là một công cụ khác

Bối cảnh ứng dụng AI và ngữ cảnh kinh doanh

Bước ngoặt của trí tuệ frontier

Vì sao mô hình cục bộ lại đáng chú ý

Benchmaxxing

Chi phí (Cost)

Chủ quyền và quyền riêng tư (Sovereignty and privacy)

Ẩn dụ rèn lưỡi dao — bản chất của mô hình cục bộ

Điều tôi tìm kiếm (What I was looking for)

Bài học rút ra từ 3090

Khoản chi lớn — đưa RTX 6000 Pro vào sử dụng

Hỗ trợ khách hàng dễ dàng mà không rò rỉ dữ liệu

Thu hồi doanh thu (Revenue recovery)

Thiết lập hiện tại

Hạn chế của đầu ra lặp lại và tác vụ dài hạn

Đo lường và phân phối truy cập

So sánh sai lệch (The wrong comparison)

Các mẫu sử dụng thực sự hữu ích

Kết luận hiện tại và giới hạn trong lựa chọn mô hình

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News