Qwen 3.6 27B là điểm tối ưu cho phát triển cục bộ
(quesma.com)- Qwen 3.6 27B có vẻ là một lựa chọn đáng cân nhắc cho các tác vụ đa dụng ngay cả với những người vốn hoài nghi về mô hình cục bộ; dù chậm hơn 35B A3B, đây là mô hình dense mạnh hơn và đáng được khuyến nghị
- Trong các bài kiểm tra sáng tạo và lập trình, khả năng tuân thủ ràng buộc nổi bật rõ rệt; trong OpenCode, mô hình đã tạo ra trò dò mìn lục giác dùng
pnpmdưới dạng gói Node chỉ với một prompt duy nhất - Kết hợp
llama.cppvới bản lượng tử hóa GGUF 8-bit từ Hugging Face cho phép chạy cục bộ, đồng thời có thể dựng cả môi trường agent coding với MTP, nạp layer lên GPU, flash attention và ngữ cảnh 64k - Trong bài test trên Macbook Max M5 128GB, Qwen3.6-27B 8-bit đạt 32 tok/s với
llama.cpp + MTP, dùng khoảng 42GB RAM; dù 35B A3B nhanh hơn, chất lượng mã tốt hơn khiến 27B được ưu tiên - Theo Artificial Analysis, Qwen3.6-27B đạt 37 điểm, tương đương mặt bằng giữa năm 2025 như GPT-5 / Claude Sonnet 4.5, và thực tế hữu dụng cho dữ liệu nhạy cảm, công việc ngoại tuyến và vận hành mô hình riêng không thể bị thu hồi
Vì sao nên khuyên dùng Qwen 3.6 27B
- Qwen 3.6 được cung cấp dưới hai biến thể
- Qwen 3.6 35B A3B: mô hình mixture-of-experts
- Qwen 3.6 27B: mô hình dense, chậm hơn nhưng là lựa chọn mạnh hơn
- Qwen 3.6 27B nhận được nhiều phản hồi kiểu “hiệu năng vượt xa quy mô”, ví dụ liên quan có Will it Mythos?
- Khi chạy cục bộ, máy tính có thể nóng lên, nhưng hiệu năng mang lại là đáng để chấp nhận
Các bài test đơn giản và kết quả công việc thực tế
- Thay vì dùng “penguins on a bicycle” của Simon Willison làm bài smoke test đơn giản, tác giả dùng viết có ràng buộc
- Khi yêu cầu một bài thơ 8 dòng về điệu nhảy Zouk và vật lý lượng tử, quá trình suy nghĩ để xử lý thuật ngữ lượng tử và vần điệu diễn ra tự nhiên
- Có thể xem cuộc trò chuyện liên quan tại transcript
- Khi yêu cầu trong OpenCode tạo dò mìn lục giác bằng
pnpm, mô hình đã tạo ra một gói Node đúng nghĩa chỉ với một prompt duy nhất - Qwen 3.6 35B A3B nhanh hơn, nhưng lại không làm theo chỉ dẫn tạo gói mà triển khai thành một
index.htmlđơn lẻ - Ngay cả với các tác vụ công việc thông thường, mô hình cũng tạo ra kết quả dùng được chỉ từ prompt ngắn, với độ phản hồi và mặc định khá ổn
- So với các frontier model thì chưa có gì đặc biệt, nhưng với mô hình cục bộ thì đã ở mức thực dụng
Chạy cục bộ bằng llama.cpp
-
Việc chạy mô hình cục bộ có thể thực hiện bằng vài dòng CLI, và công cụ được khuyên dùng là llama.cpp
-
Mô hình được tải từ Hugging Face dưới dạng mô hình lượng tử hóa đã giảm dung lượng
- Các nguồn cung cấp mô hình lượng tử hóa phổ biến gồm unsloth và bartowski
- Mô hình gốc thường dùng độ chính xác
BF16 - Lượng tử hóa 8-bit gần như không làm giảm chất lượng nhưng giảm một nửa dung lượng
- Lượng tử hóa ở số bit thấp hơn có thể làm mô hình nhỏ hơn và tiềm năng nhanh hơn, nhưng phải đánh đổi chất lượng
- So sánh 27B có tại Reddit benchmark, còn so sánh 35B A3B có tại Hugging Face discussion
-
Ví dụ chạy server
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: tải mô hình từ Hugging Face và tái sử dụng ở các lần chạy sau-m ~/models/Qwen3.6-27B-Q8_0.gguf: nếu đã có sẵn file mô hình thì có thể dùng thay thếdraft-mtp: dùng multi-token prediction để tăng tốc bằng cách dự đoán token tiếp theo với một mô hình nhanh hơn-ngl 999: đưa toàn bộ layer lên GPU-fa on: bật flash attention-c 65536: đặt kích thước ngữ cảnh là 64k token- Ngữ cảnh gốc của Qwen 3.6 27B là 256k
--port 8080: cố định cổng để dùng trong các cấu hình khác- Mở
http://127.0.0.1:8080là có thể chat trực tiếp
-
Cấu hình OpenCode
- Có thể dùng chính server này cho cả vibe coding
- Trong OpenCode, thêm cấu hình sau vào
~/.config/opencode/opencode.jsonc
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
Chạy để chat trong terminal
- Nếu chỉ muốn chat trong terminal thì có thể dùng
llama-clithay chollama-server
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - Nếu chỉ muốn chat trong terminal thì có thể dùng
Đo hiệu năng trên Apple Silicon
- Kết quả thử nghiệm được tổng hợp tại benching-local-llms-on-apple-silicon, chạy trên Macbook Max M5 128GB
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
- 30 tok/s không phải là tốc độ tệ, và vẫn nằm trong phạm vi API frontier model thông thường
- mlx-lm hướng đến Apple Silicon, nhưng trong bài test này thì llama.cpp nhanh hơn
- Khi chạy, mức sử dụng GPU là 95%, cho thấy tài nguyên sẵn có được tận dụng hiệu quả
- Cả hai biến thể của Qwen 3.6 đều chạy được trong mức RAM dùng chung 48GB của Apple Silicon
- Trên các card Nvidia RTX dành cho người dùng, cần lượng tử hóa mạnh tay hơn nhưng suy luận sẽ chạy nhanh hơn
- gfosco trên Hacker News cho biết với lượng tử hóa Q6_K và Q4_0 KV trên 5090, họ đạt ổn định 50 tok/s ở ngữ cảnh 123k và dùng khoảng 28/32GB VRAM với LM Studio
- 35B A3B nhanh gấp 3 lần, nhưng vẫn có lý do để chọn 27B nếu chất lượng cao hơn dù lượng mã tạo ra chỉ bằng một phần ba
So sánh với các mô hình tối tân hiện có
- Trong bảng điểm của Artificial Analysis, Qwen3.6-27B đạt 37 điểm
- Các mục chính trong bảng so sánh như sau
- Gemma 4 31B: 29 điểm, mức cuối năm 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 điểm, mức đầu năm 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 điểm, mức giữa năm 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 điểm, mức cuối năm 2025, GPT-5.2 / Claude Opus 4.5
- Benchmark bổ sung có tại notes, và xu hướng tổng thể là tương tự
- Gemma 4 31B được đưa vào so sánh vì nhiều người dùng nó như mặc định cho coding cục bộ
- Cả benchmark lẫn phản ứng trực tuyến đều nghiêng mạnh về Qwen 3.6 27B hơn Gemma 4 31B
- Tuy vậy, cần chú ý đến điều kiện lượng tử hóa
- Lượng tử hóa 8-bit có thể không ảnh hưởng nhiều đến kết quả
- DwarfStar4 dùng lượng tử hóa 2–4 bit mạnh tay hơn nhiều cho DeepSeek V4 Flash, nên chắc chắn kém hơn mô hình đầy đủ
- Trong điều kiện này, Qwen 3.6 27B tạo ấn tượng ngang bằng hoặc nhỉnh hơn một chút so với DwarfStar4
- Với các dự án ngữ cảnh dài hơn, DS4 có thể chiếm ưu thế
Bước tiếp theo của việc vận hành mô hình cục bộ
- Việc tự chạy mô hình ngày càng trở thành một lựa chọn thực tế
- Tình trạng của các frontier model độc quyền có thể càng thúc đẩy xu hướng này
- Claude Fable 5 đang đi xuống
- Các frontier model khác vận hành trên nền trợ giá quy mô lớn, theo mô hình trả 100 USD mỗi tháng để dùng số token trị giá hàng nghìn USD
- Mô hình chạy cục bộ có thể được fine-tune theo nhu cầu và không thể bị thu hồi từ bên ngoài
- Doanh nghiệp có thể dùng mô hình cục bộ cho dữ liệu độc quyền và dữ liệu nhạy cảm
- Cá nhân có thể dùng mô hình cục bộ cho các dự án ngoại tuyến, hoặc trong các tình huống không muốn chia sẻ bí mật sâu hoặc dữ liệu y tế với Mỹ hay Trung Quốc
- Việc công bố frontier-level open-weight GLM 5.2 sẽ càng đẩy nhanh xu hướng mô hình cục bộ
- Qwen 3.6 là một bước đệm, và GLM 5.2 cũng có thể chạy cục bộ
- GLM 5.2 không chạy được trên Macbook hay một chiếc RTX 5090 đơn lẻ, nhưng vẫn ở mức ngân sách doanh nghiệp có thể gánh được
- Trong tương lai có thể xuất hiện những mô hình thông minh hơn chuẩn tối tân hiện nay nhưng vẫn chạy được trên thiết bị cục bộ, thậm chí là điện thoại thông minh
- Các mô hình hiện tại gộp trí tuệ thô và tri thức thực tế vào cùng một bộ trọng số, nhưng mô hình tương lai nhiều khả năng sẽ tách hai phần này ra bằng cách chuyển tri thức sang tool calling
1 bình luận
Ý kiến trên Hacker News
Tôi thích MacBook Pro M5 RAM 128GB và qwen3.6, nhưng nếu định nghiêm túc dùng LLM cục bộ để code thì tốt nhất là đừng mua chiếc MacBook này
Lý do rất đơn giản: ngón tay sẽ nóng ran và tiếng quạt ồn đến mức muốn nổ đầu
Việc chạy các tác vụ phức tạp trên chiếc laptop đang trực tiếp sử dụng là không thực tế, và dù có thể làm trong chế độ clamshell thì trong lúc làm AI coding hay agent task cũng rất khó đụng vào máy
Nếu muốn chạy Qwen3.6 27B/35B cho ra hồn thì tốt hơn nên mua MacMini M4 64GB, đặt ở tầng hầm hoặc ít nhất cách xa vài mét rồi truy cập qua LAN hoặc Tailscale, mà giá cũng chỉ gần bằng 1/3 MacBook Pro
Tôi biết rõ ngay cả khi chỉ chạy các model tương đối nhỏ như Qwen 27B hay Gemma 4 31B trên GPU desktop thì nó vẫn ồn và nóng đến mức nào
Strix Halo có một quạt lớn nên không quá ồn, nhưng vẫn nóng, còn để các quạt nhỏ của laptop tản được lượng nhiệt đó thì cuối cùng chúng chỉ có thể gào lên mà thôi
Ý tưởng về một chiếc laptop có thể chạy model ở mọi nơi thì hay đấy, nhưng việc đó hợp hơn với model cloud, và vì dữ liệu qua lại cũng không nhiều nên không phải vấn đề lớn
Với các tác vụ cần riêng tư, chỉ cần tự host model trên dàn máy lớn ở nhà rồi truy cập qua VPN là được
Tuy vậy, các model như Gemma 4 12B QAT 4-bit chạy tốt ngay cả trên thiết bị 16GB hay tablet lại rất tuyệt cho một số tác vụ cụ thể, và với vai trò model vision tự host cho các việc như phân loại, nhận diện, gán nhãn thì đây là thứ tốt nhất tôi từng thử
Nó cũng viết văn xuôi ổn và dùng công cụ khá được, nhưng không thể nhét quá nhiều kiến thức thế giới vào 7GB nên vẫn cần tìm kiếm cho việc nghiên cứu, và tôi cũng không muốn dùng nó để code vượt quá mức mã cực kỳ đơn giản
--powertrên DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...Khoảng nửa năm qua tôi đã chạy coding agent trên laptop ở chế độ YOLO, phần lớn không phải cục bộ, và cách để dùng mà không lo sợ là cấp cho agent một user Linux riêng tên
agentAgent có thể phá
/agenthome directory của nó, nhưng không được đụng hay thậm chí đọc home directory của tôiTôi phải
sudosang user đó mỗi lần nên đã tạo alias, và nếu phát sinh vấn đề quyền hạn hay ownership thì xử lý bằng một hàm sửa mỗi ngày một lầnDù vậy vẫn khá phiền, nên nếu có máy chuyên dụng thì có lẽ tôi đã cho luôn quyền root, và tôi từng đùa vui giao quyền root của một VPS $3 cho Claude thì nó vẫn chạy ổn
Sau vài tháng thử sai, rốt cuộc tôi cũng tự phát minh lại lời khuyên “cứ mua Mac mini đi” ngay từ đầu
Ngay cả khi cách vài inch vẫn cảm nhận được nhiệt tỏa ra, và nó còn cho cảm giác nóng hơn cả những chiếc Intel MacBook tôi từng dùng nên tôi đã dừng lại
Vì vấn đề nguồn cung và giá tăng, có thể tôi sẽ phải giữ chiếc laptop này suốt 10 năm nên không muốn làm hỏng nó
Tai tôi không phải quá thính, nhưng đáng lẽ nếu có tiếng quạt thì tôi phải nghe thấy, vậy mà chưa từng nghe lần nào, đến mức tôi còn phải đi tìm xem nó có quạt thật không
Bài viết dựa trên việc chạy Qwen 3.6 trên MacBook Pro 128GB
Tham khảo thêm, MBP 128GB hiện có giá khởi điểm từ $6699 [0]
Có thể sẽ có người sẵn sàng trả mức chênh đó vì quyền riêng tư, nhưng với chi phí gần gấp 10 lần MacBook Neo thì cũng có thể mua được khá nhiều tín dụng API của OpenRouter hoặc các phòng nghiên cứu hàng đầu
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
Việc có một cỗ máy có thể chạy một local LLM vừa phải như Gemma 4 12B thực sự rất đáng giá
Tôi không biết mình sẽ làm bao nhiêu tác vụ agent coding không giám sát nghiêm túc chỉ với một chiếc MacBook, nhưng nếu chưa từng trực tiếp vọc local model, llama.cpp, LM Studio và những thứ tương tự, có lẽ tôi đã không thể hiểu lĩnh vực này theo cách này
Lĩnh vực này quá lớn, quá mệt mỏi, đầy rẫy thuật ngữ chuyên môn, và với một người đã ngoài 50 như tôi thì rất dễ bị choáng ngợp
Chỉ sau khi tự cấu hình trên một cỗ máy cũ, xem các lệnh gọi API và hiểu các thuật ngữ, tôi mới bắt đầu thực sự nắm bắt được nó
Neo quá nhỏ để biến cơ hội kiểu này thành thứ có thể cảm nhận và hiểu được rõ ràng hơn
Tôi nghĩ nếu dùng lượng tử hóa quyết liệt hơn thì yêu cầu còn có thể thấp hơn nữa
Xét về kinh tế, việc chạy model trên laptop không có nhiều ý nghĩa, và chỉ tính riêng chi phí điện thuần túy thôi thì cũng có thể khó mà đánh bại mức giá token được tạo ra ở quy mô lớn
Dù vậy, đây vẫn là một bước đột phá có thể thay đổi cuộc chơi
Trước đây, kiểu vibe coding này trên thiết bị tiêu dùng không phải là khó hay đắt, mà là hoàn toàn bất khả thi
Asus Ascent GX10 cũng đang được nhiều nơi bán với giá $3999
Về mặt lý thuyết, cũng có thể dùng hai chiếc 3090 để có 48GB VRAM, nhưng so với MacBook Pro hoặc GB10 thì sẽ chiếm nhiều không gian hơn và tỏa nhiệt nhiều hơn
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
128GB không phải là điều bắt buộc ở đây
Cũng có thể chạy các model khác trên chính chiếc MacBook đó
Nhìn vào số tiền mọi người đốt vào SaaS mỗi tháng thì có những trường hợp chỉ sau 5 tháng là đã hoàn vốn chiếc MacBook
Và đây không chỉ đơn thuần là vấn đề “quyền riêng tư dữ liệu”
Dùng Claude tức là gửi mọi thứ cho Anthropic, điều đó khá điên rồ
Khó mà xem các ví dụ này là phản ánh “công việc thực tế”
Ít nhất thì đó không phải điều mà tôi xem là công việc thực tế
Việc làm đúng một dự án mới zero-shot tương đối dễ ngay cả với các mô hình nhỏ
Vì không có nhiều ngữ cảnh cần tích lũy, và chúng có thể dễ dàng quay về các ví dụ tương tự trong dữ liệu huấn luyện
Trừ khi bạn yêu cầu nó phát minh ra thứ gì đó hoàn toàn mới, khả năng cao là nó vẫn làm tạm ổn
Bài kiểm tra thật sự là liệu nó có làm việc được trong một codebase hiện có hay không
Trong các thử nghiệm hạn chế tôi đã làm, Qwen 3.5 ổn với ứng dụng Rust+React, nhưng kém hơn với monolith C#
Không đến mức không dùng được, nhưng tệ đến mức tôi quay lại Claude sau 20 phút, và nếu mất quyền truy cập các mô hình đám mây rồi chỉ được dùng Qwen thì chắc tôi sẽ khá buồn
Qwen3.6 cho kết quả đáng ngạc nhiên so với cỡ mô hình của nó ở những ứng dụng đơn giản đầy rẫy khắp nơi
Nếu bảo nó tạo một ứng dụng boilerplate nhỏ với React TODO app hay các công cụ phổ biến như shadcn thì kết quả khá ra gì
Nhưng khi ra khỏi các tác vụ thông dụng và đi vào những việc ngách hơn của tôi, nó loay hoay hàng tiếng rồi cuối cùng cho ra kết quả vô dụng đến mức chỉ biết rên rỉ
Nếu chỉ dùng để thay mình gõ cho các tác vụ nhỏ như refactor đơn giản hoặc những chỉ dẫn cực kỳ rõ ràng thì nó làm khá tốt
Nhưng khi vào các phiên ngữ cảnh dài hoặc chủ đề không phổ biến thì điểm yếu lộ ra rất rõ
Việc lượng tử hóa vốn thường dùng để nhét vào phần cứng nhỏ cũng làm vấn đề tệ hơn
Trên mạng có không khí kiểu như lượng tử hóa 4-bit gần như không mất mát và lượng tử hóa bộ nhớ đệm key-value
q8_0/q8_0cũng hầu như không ảnh hưởng, nhưng trong các dự án thực tế thì những kiểu lượng tử hóa này làm giảm đáng kể hiệu năng ngữ cảnh dàiNó không hoàn hảo, nhưng đủ để tăng tốc luồng phát triển thường ngày của tôi, chủ yếu dùng để viết Go và C#
Chẳng hạn thiết kế một dự án lớn gồm các thư viện nhỏ để mỗi phần có thể được code và test độc lập, dọn dẹp các dự án code cũ, thêm README, thêm chú thích mã, đưa ví dụ dùng API mới rồi cập nhật các chỗ sử dụng API
Tất cả đều là các tác vụ quy mô nhỏ
Với các dự án tích hợp lớn, API thương mại DeepSeek v4 Pro đang rất rẻ và giúp tạo ra kết quả tốt
Có quá nhiều quyết định phải đưa ra, và chúng không làm tốt việc đó
Nếu không kỳ vọng nó tự xử lý thông minh, thì sửa code có sẵn sẽ dễ hơn nhiều
Tốt hơn là đừng nói kiểu “thêm tính năng X” rồi để nó tự khám phá codebase; hãy chỉ rõ các file liên quan rồi nói “mục tiêu là thêm tính năng X vào đoạn mã này và hãy tuân theo hướng dẫn Y”
Khi con người xử lý phần quyết định khó nhất, mô hình chỉ cần làm theo chỉ dẫn và tô màu trong đường viền
Nếu chạy mô hình này offline trên MacBook Pro 48GB RAM thì nó vẫn làm được việc, nhưng dĩ nhiên chậm hơn Claude hay Codex
Nhìn cảnh bỏ ra vài nghìn đô để mua một MBP 128GB rồi chạy một mô hình khách quan là kém hơn rất nhiều so với tối tân thì đúng là có cảm giác phát điên
Với số tiền cho một chiếc 128GB M5 MAX thì ở chỗ tôi còn mua được cả xe mới
Tôi không biết mình đang bỏ lỡ điều gì, hay là các lập trình viên ở nước khác thật sự đang sống trong một thế giới khác
Tôi biết ở nơi tôi sống thì giá tuyệt đối còn đắt hơn ở Mỹ, nên lại càng thấy như vậy
Nếu một người tỉnh táo ở nước khác mua cái này thì chắc vừa về đến đây sẽ bán ngay để tiết kiệm tiền
Mùa thu năm ngoái tôi ráp một workstation bằng hai chiếc 3090 cũ, mỗi chiếc 850 đô Canada, nhưng giờ giá thấp nhất chắc khoảng 1200
48GB VRAM là khá hợp lý, và tôi đang dùng Qwen 3.6 27B cho nhiều tác vụ tạo đồ thị tri thức từ corpora văn bản rồi suy luận trên đó
Tôi đã so với những thứ có trên OpenRouter, và với chi phí token là $0 thì Qwen 27B chạy local rất khó bị đánh bại
Nó chậm hơn và văn phòng cũng ấm hơn vài độ, nhưng sẽ không ai có thể rút phích cắm, không ai đứng sau lưng giám sát, và kết quả thì ngang ngửa các mô hình tối tân
Tôi rất mong chờ Qwen 3.7 có kích cỡ tương tự
Những gì tôi thấy đến giờ cho thấy đó là một bước nhảy lớn so với bản trước
Có phải chỉ để khoe là nó mang đi được không
Trả góp hàng tháng của Apple nên $5k là $416 mỗi tháng trong 1 năm và không lãi
Nó có thể chạy các mô hình cỡ DS4 và các mô hình mở khác mà không cần lượng tử hóa, đôi khi còn chạy nhiều mô hình cùng lúc
Hãy tưởng tượng giá trị của nó nếu xảy ra các kịch bản đen tối về chiến tranh Đài Loan–Trung Hoa, kết nối toàn cầu, hay độ tin cậy của các mô hình thương mại
Đây là loại thiết bị rất khó chế tạo ở bất kỳ thời điểm nào khác trong lịch sử, và tôi ước mình đã mua nhiều hơn
Tôi đã theo dõi tín hiệu, xu hướng giá và tình trạng cháy hàng theo thời gian thực, và chắc chắn những người khác có điều kiện cũng đang tích trữ
Chỗ các bạn thì thu nhập của người dân thấp hơn người Mỹ hơn một bậc độ lớn
Có nhiều ý kiến nói phần cứng để chạy model local rất đắt, nhưng nếu không quan tâm đến thiết bị Apple thì Intel Arc Pro B50/B60/B70 có vẻ là lựa chọn khá đáng tiền mà lại ít được nhắc đến
Gần đây tôi mua mẫu B70 32GB RAM với giá khoảng $1200, đã gồm thuế bán hàng và thuế nhập khẩu tại nơi tôi ở ngoài Mỹ, và ở khu vực khác có thể còn rẻ hơn
Băng thông bộ nhớ là 608GB/s
M5 Max GPU 32 lõi là 460GB/s, GPU 40 lõi là 614GB/s, còn 3090 vẫn nhanh hơn ở khoảng 900GB/s, nhưng bạn có được 32GB VRAM rẻ hơn rất nhiều so với card Nvidia cùng hạng
Tức là bạn nhận được khoảng 1/3 băng thông của 5090 với 1/3 giá tiền nhưng vẫn có cùng 32GB VRAM, nên đây là một sự đánh đổi hấp dẫn nếu muốn chạy model lượng tử hóa lớn hơn và một mức ngữ cảnh nhất định với ngân sách thấp
Tôi vẫn đang khám phá model local nên không muốn tiêu số tiền tương đương $5000~$10000 chỉ để thử nghiệm; nếu có thể thử rẻ hơn thì chậm đi một chút cũng không sao
Ban đầu tôi mua B50 16GB với TDP 70W để thử card Intel trong stack của mình, và nó chạy dễ dàng trên Ubuntu và Vulkan
Tôi đã thấy nhiều bài viết bảo nó phiền phức và không dùng được, nhưng có vẻ đa phần liên quan đến SYCL, mà SYCL cũng không có vẻ cho hiệu năng tốt hơn Vulkan nên tôi không thấy lý do phải dùng
B50 giá $370 đã gồm thuế và thuế nhập khẩu, và đúng nghĩa là chỉ cần
apt installthư viện Vulkan là chạy được với driver xe mặc định của 26.04 và bản build Vulkan của llama.cppSR-IOV PF/VF cũng hoạt động trên qemu/kvm mà không cần mẹo vặt gì riêng, và sau khi mua về thì fwupdmgr đã cập nhật firmware hai lần, nên có vẻ Intel thực sự muốn hỗ trợ các sản phẩm này
Theo tôi, điểm ngọt hiện tại là hai chiếc 3090 cùng bo mạch chủ PCIe 4 và 64~128GB RAM DDR4
Hiện có thể ráp khoảng $3k, và chạy Qwen 27B/35B ở int4 cực nhanh
Nhân tiện, tôi đang chạy gemma4 31B trên 5090 và nó khá xuất sắc
Dùng QAT, MTP, ngữ cảnh 128k
Qwen 3.6 27B cũng tốt, nhưng có vẻ Gemma4 đang bị đánh giá thấp đôi chút
Tôi đang chạy gemma4 31B trên 4090 với llm.cpp và model unsloth
Tôi cũng dùng Qwen 3.6; Qwen nhanh hơn nên tốt cho suy luận và lập kế hoạch, còn Gemma4 cho chất lượng code sinh ra ở lần thử đầu cao hơn hẳn
Với Rust, C++, C#, nó cần ít chỉnh sửa hơn trước khi tôi cảm thấy đủ ổn để merge
Nó luôn bị cắt đột ngột hoặc tạo ra lệnh gọi công cụ sai, chắc là do tôi cấu hình sai oMLX hoặc Opencode
Tôi dùng luân phiên giữa Qwen 3.5 9B Q6_M và Gemma4 12B Q4_K_M trên 4080 Super
Hai model có tốc độ tương tự nhau và có thể để chúng review kế hoạch hoặc phần thay đổi của nhau
Với dự án nhỏ thì chúng khá có năng lực, còn việc khó hơn một chút thì có thể nâng lên lượng tử hóa tốt hơn
Trước khi đi mua một máy bộ nhớ hợp nhất, cần biết rằng trên các thiết bị như DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, model dense nhìn chung khá chậm
GPU rời xử lý model dense tốt hơn nhiều
Nên tìm benchmark của thiết bị bạn định mua, và nếu thực sự muốn loại máy này thì chạy Qwen 3.6 35B hoặc các model MoE thưa khác sẽ hợp lý hơn
Tôi đã chạy qwen 3.6 35b a3b bằng opencode trên MacBook Pro 16 inch M3 Max 64GB RAM, và nó rất tốt cho việc lập kế hoạch và viết code local
Thành thật mà nói, thấy 64GB mạnh đến vậy đôi lúc tôi tự hỏi có nên chọn 128GB để dự phòng tương lai không
Mặt khác, đến giờ tôi vẫn chưa từng đụng trần chỉ vì model nào đó lớn hơn Qwen một chút
Nó không nhanh, chỉ vài token mỗi giây, chậm hơn tốc độ đọc, nhưng bạn có thể giao việc rồi quay lại sau
Đây là chiếc laptop $600 tôi mua trên eBay vài năm trước, không phải cỗ máy $6000
Tôi tò mò liệu các máy Mac bộ nhớ hợp nhất hay desktop GPU 24GB khổng lồ đó có thực sự cho ra vài chục đến vài trăm token mỗi giây tương xứng với mức chi phí gấp 10~20 lần hay không
Theo kinh nghiệm của tôi, chỉ riêng model 20~35GB và cache key-value đã ngốn khá nhiều trong 64GB cơ bản, nên nếu còn muốn mở trình duyệt, trình soạn thảo và các thứ khác cùng lúc thì 128GB đầy đủ chắc chắn sẽ hữu ích