Qwen 3.6 27B là điểm tối ưu cho phát triển cục bộ

(quesma.com)

5 điểm bởi GN⁺ 6 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Qwen 3.6 27B có vẻ là một lựa chọn đáng cân nhắc cho các tác vụ đa dụng ngay cả với những người vốn hoài nghi về mô hình cục bộ; dù chậm hơn 35B A3B, đây là mô hình dense mạnh hơn và đáng được khuyến nghị
Trong các bài kiểm tra sáng tạo và lập trình, khả năng tuân thủ ràng buộc nổi bật rõ rệt; trong OpenCode, mô hình đã tạo ra trò dò mìn lục giác dùng pnpm dưới dạng gói Node chỉ với một prompt duy nhất
Kết hợp llama.cpp với bản lượng tử hóa GGUF 8-bit từ Hugging Face cho phép chạy cục bộ, đồng thời có thể dựng cả môi trường agent coding với MTP, nạp layer lên GPU, flash attention và ngữ cảnh 64k
Trong bài test trên Macbook Max M5 128GB, Qwen3.6-27B 8-bit đạt 32 tok/s với llama.cpp + MTP, dùng khoảng 42GB RAM; dù 35B A3B nhanh hơn, chất lượng mã tốt hơn khiến 27B được ưu tiên
Theo Artificial Analysis, Qwen3.6-27B đạt 37 điểm, tương đương mặt bằng giữa năm 2025 như GPT-5 / Claude Sonnet 4.5, và thực tế hữu dụng cho dữ liệu nhạy cảm, công việc ngoại tuyến và vận hành mô hình riêng không thể bị thu hồi

Vì sao nên khuyên dùng Qwen 3.6 27B

Qwen 3.6 được cung cấp dưới hai biến thể
- Qwen 3.6 35B A3B: mô hình mixture-of-experts
- Qwen 3.6 27B: mô hình dense, chậm hơn nhưng là lựa chọn mạnh hơn
Qwen 3.6 27B nhận được nhiều phản hồi kiểu “hiệu năng vượt xa quy mô”, ví dụ liên quan có Will it Mythos?
Khi chạy cục bộ, máy tính có thể nóng lên, nhưng hiệu năng mang lại là đáng để chấp nhận

Các bài test đơn giản và kết quả công việc thực tế

Thay vì dùng “penguins on a bicycle” của Simon Willison làm bài smoke test đơn giản, tác giả dùng viết có ràng buộc
Khi yêu cầu một bài thơ 8 dòng về điệu nhảy Zouk và vật lý lượng tử, quá trình suy nghĩ để xử lý thuật ngữ lượng tử và vần điệu diễn ra tự nhiên
- Có thể xem cuộc trò chuyện liên quan tại transcript
Khi yêu cầu trong OpenCode tạo dò mìn lục giác bằng pnpm, mô hình đã tạo ra một gói Node đúng nghĩa chỉ với một prompt duy nhất
Qwen 3.6 35B A3B nhanh hơn, nhưng lại không làm theo chỉ dẫn tạo gói mà triển khai thành một index.html đơn lẻ
Ngay cả với các tác vụ công việc thông thường, mô hình cũng tạo ra kết quả dùng được chỉ từ prompt ngắn, với độ phản hồi và mặc định khá ổn
- So với các frontier model thì chưa có gì đặc biệt, nhưng với mô hình cục bộ thì đã ở mức thực dụng

Chạy cục bộ bằng llama.cpp

Việc chạy mô hình cục bộ có thể thực hiện bằng vài dòng CLI, và công cụ được khuyên dùng là llama.cpp
Mô hình được tải từ Hugging Face dưới dạng mô hình lượng tử hóa đã giảm dung lượng
- Các nguồn cung cấp mô hình lượng tử hóa phổ biến gồm unsloth và bartowski
- Mô hình gốc thường dùng độ chính xác BF16
- Lượng tử hóa 8-bit gần như không làm giảm chất lượng nhưng giảm một nửa dung lượng
- Lượng tử hóa ở số bit thấp hơn có thể làm mô hình nhỏ hơn và tiềm năng nhanh hơn, nhưng phải đánh đổi chất lượng
- So sánh 27B có tại Reddit benchmark, còn so sánh 35B A3B có tại Hugging Face discussion
Ví dụ chạy server
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: tải mô hình từ Hugging Face và tái sử dụng ở các lần chạy sau
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: nếu đã có sẵn file mô hình thì có thể dùng thay thế
- draft-mtp: dùng multi-token prediction để tăng tốc bằng cách dự đoán token tiếp theo với một mô hình nhanh hơn
- -ngl 999: đưa toàn bộ layer lên GPU
- -fa on: bật flash attention
- -c 65536: đặt kích thước ngữ cảnh là 64k token
- Ngữ cảnh gốc của Qwen 3.6 27B là 256k
- --port 8080: cố định cổng để dùng trong các cấu hình khác
- Mở http://127.0.0.1:8080 là có thể chat trực tiếp

Cấu hình OpenCode

Có thể dùng chính server này cho cả vibe coding
Trong OpenCode, thêm cấu hình sau vào ~/.config/opencode/opencode.jsonc

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

Chạy để chat trong terminal
- Nếu chỉ muốn chat trong terminal thì có thể dùng llama-cli thay cho llama-server
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Đo hiệu năng trên Apple Silicon

Kết quả thử nghiệm được tổng hợp tại benching-local-llms-on-apple-silicon, chạy trên Macbook Max M5 128GB
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
30 tok/s không phải là tốc độ tệ, và vẫn nằm trong phạm vi API frontier model thông thường
mlx-lm hướng đến Apple Silicon, nhưng trong bài test này thì llama.cpp nhanh hơn
Khi chạy, mức sử dụng GPU là 95%, cho thấy tài nguyên sẵn có được tận dụng hiệu quả
Cả hai biến thể của Qwen 3.6 đều chạy được trong mức RAM dùng chung 48GB của Apple Silicon
Trên các card Nvidia RTX dành cho người dùng, cần lượng tử hóa mạnh tay hơn nhưng suy luận sẽ chạy nhanh hơn
- gfosco trên Hacker News cho biết với lượng tử hóa Q6_K và Q4_0 KV trên 5090, họ đạt ổn định 50 tok/s ở ngữ cảnh 123k và dùng khoảng 28/32GB VRAM với LM Studio
35B A3B nhanh gấp 3 lần, nhưng vẫn có lý do để chọn 27B nếu chất lượng cao hơn dù lượng mã tạo ra chỉ bằng một phần ba

So sánh với các mô hình tối tân hiện có

Trong bảng điểm của Artificial Analysis, Qwen3.6-27B đạt 37 điểm
Các mục chính trong bảng so sánh như sau
- Gemma 4 31B: 29 điểm, mức cuối năm 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 điểm, mức đầu năm 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 điểm, mức giữa năm 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 điểm, mức cuối năm 2025, GPT-5.2 / Claude Opus 4.5
Benchmark bổ sung có tại notes, và xu hướng tổng thể là tương tự
Gemma 4 31B được đưa vào so sánh vì nhiều người dùng nó như mặc định cho coding cục bộ
Cả benchmark lẫn phản ứng trực tuyến đều nghiêng mạnh về Qwen 3.6 27B hơn Gemma 4 31B
Tuy vậy, cần chú ý đến điều kiện lượng tử hóa
- Lượng tử hóa 8-bit có thể không ảnh hưởng nhiều đến kết quả
- DwarfStar4 dùng lượng tử hóa 2–4 bit mạnh tay hơn nhiều cho DeepSeek V4 Flash, nên chắc chắn kém hơn mô hình đầy đủ
- Trong điều kiện này, Qwen 3.6 27B tạo ấn tượng ngang bằng hoặc nhỉnh hơn một chút so với DwarfStar4
- Với các dự án ngữ cảnh dài hơn, DS4 có thể chiếm ưu thế

Bước tiếp theo của việc vận hành mô hình cục bộ

Việc tự chạy mô hình ngày càng trở thành một lựa chọn thực tế
Tình trạng của các frontier model độc quyền có thể càng thúc đẩy xu hướng này
- Claude Fable 5 đang đi xuống
- Các frontier model khác vận hành trên nền trợ giá quy mô lớn, theo mô hình trả 100 USD mỗi tháng để dùng số token trị giá hàng nghìn USD
Mô hình chạy cục bộ có thể được fine-tune theo nhu cầu và không thể bị thu hồi từ bên ngoài
Doanh nghiệp có thể dùng mô hình cục bộ cho dữ liệu độc quyền và dữ liệu nhạy cảm
Cá nhân có thể dùng mô hình cục bộ cho các dự án ngoại tuyến, hoặc trong các tình huống không muốn chia sẻ bí mật sâu hoặc dữ liệu y tế với Mỹ hay Trung Quốc
Việc công bố frontier-level open-weight GLM 5.2 sẽ càng đẩy nhanh xu hướng mô hình cục bộ
- Qwen 3.6 là một bước đệm, và GLM 5.2 cũng có thể chạy cục bộ
- GLM 5.2 không chạy được trên Macbook hay một chiếc RTX 5090 đơn lẻ, nhưng vẫn ở mức ngân sách doanh nghiệp có thể gánh được
Trong tương lai có thể xuất hiện những mô hình thông minh hơn chuẩn tối tân hiện nay nhưng vẫn chạy được trên thiết bị cục bộ, thậm chí là điện thoại thông minh
Các mô hình hiện tại gộp trí tuệ thô và tri thức thực tế vào cùng một bộ trọng số, nhưng mô hình tương lai nhiều khả năng sẽ tách hai phần này ra bằng cách chuyển tri thức sang tool calling

1 bình luận

GN⁺ 6 giờ trước

Ý kiến trên Hacker News

Tôi thích MacBook Pro M5 RAM 128GB và qwen3.6, nhưng nếu định nghiêm túc dùng LLM cục bộ để code thì tốt nhất là đừng mua chiếc MacBook này
Lý do rất đơn giản: ngón tay sẽ nóng ran và tiếng quạt ồn đến mức muốn nổ đầu
Việc chạy các tác vụ phức tạp trên chiếc laptop đang trực tiếp sử dụng là không thực tế, và dù có thể làm trong chế độ clamshell thì trong lúc làm AI coding hay agent task cũng rất khó đụng vào máy
Nếu muốn chạy Qwen3.6 27B/35B cho ra hồn thì tốt hơn nên mua MacMini M4 64GB, đặt ở tầng hầm hoặc ít nhất cách xa vài mét rồi truy cập qua LAN hoặc Tailscale, mà giá cũng chỉ gần bằng 1/3 MacBook Pro
- Cũng vì lý do đó mà tôi đã mua một laptop 32GB bình thường
  Tôi biết rõ ngay cả khi chỉ chạy các model tương đối nhỏ như Qwen 27B hay Gemma 4 31B trên GPU desktop thì nó vẫn ồn và nóng đến mức nào
  Strix Halo có một quạt lớn nên không quá ồn, nhưng vẫn nóng, còn để các quạt nhỏ của laptop tản được lượng nhiệt đó thì cuối cùng chúng chỉ có thể gào lên mà thôi
  Ý tưởng về một chiếc laptop có thể chạy model ở mọi nơi thì hay đấy, nhưng việc đó hợp hơn với model cloud, và vì dữ liệu qua lại cũng không nhiều nên không phải vấn đề lớn
  Với các tác vụ cần riêng tư, chỉ cần tự host model trên dàn máy lớn ở nhà rồi truy cập qua VPN là được
  Tuy vậy, các model như Gemma 4 12B QAT 4-bit chạy tốt ngay cả trên thiết bị 16GB hay tablet lại rất tuyệt cho một số tác vụ cụ thể, và với vai trò model vision tự host cho các việc như phân loại, nhận diện, gán nhãn thì đây là thứ tốt nhất tôi từng thử
  Nó cũng viết văn xuôi ổn và dùng công cụ khá được, nhưng không thể nhét quá nhiều kiến thức thế giới vào 7GB nên vẫn cần tìm kiếm cho việc nghiên cứu, và tôi cũng không muốn dùng nó để code vượt quá mức mã cực kỳ đơn giản
- Có thể thử dùng cờ --power trên DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- Nếu đúng là “ngón tay bị bỏng và đầu như muốn nổ vì tiếng ồn” thì chẳng phải chỉ cần đặt Mac mini ở phòng khác là xong sao
  Khoảng nửa năm qua tôi đã chạy coding agent trên laptop ở chế độ YOLO, phần lớn không phải cục bộ, và cách để dùng mà không lo sợ là cấp cho agent một user Linux riêng tên agent
  Agent có thể phá /agent home directory của nó, nhưng không được đụng hay thậm chí đọc home directory của tôi
  Tôi phải sudo sang user đó mỗi lần nên đã tạo alias, và nếu phát sinh vấn đề quyền hạn hay ownership thì xử lý bằng một hàm sửa mỗi ngày một lần
  Dù vậy vẫn khá phiền, nên nếu có máy chuyên dụng thì có lẽ tôi đã cho luôn quyền root, và tôi từng đùa vui giao quyền root của một VPS $3 cho Claude thì nó vẫn chạy ổn
  Sau vài tháng thử sai, rốt cuộc tôi cũng tự phát minh lại lời khuyên “cứ mua Mac mini đi” ngay từ đầu
- Khi thử nghiệm công việc LLM cục bộ bằng pi trên M4 Max, tôi thấy nó nóng hơn bất kỳ chiếc MacBook nào mình từng dùng
  Ngay cả khi cách vài inch vẫn cảm nhận được nhiệt tỏa ra, và nó còn cho cảm giác nóng hơn cả những chiếc Intel MacBook tôi từng dùng nên tôi đã dừng lại
  Vì vấn đề nguồn cung và giá tăng, có thể tôi sẽ phải giữ chiếc laptop này suốt 10 năm nên không muốn làm hỏng nó
- Tôi đang dùng đúng kiểu đó: kết hợp Mini M4 Pro 64GB với qwen3.6
  Tai tôi không phải quá thính, nhưng đáng lẽ nếu có tiếng quạt thì tôi phải nghe thấy, vậy mà chưa từng nghe lần nào, đến mức tôi còn phải đi tìm xem nó có quạt thật không
Bài viết dựa trên việc chạy Qwen 3.6 trên MacBook Pro 128GB
Tham khảo thêm, MBP 128GB hiện có giá khởi điểm từ $6699 [0]
Có thể sẽ có người sẵn sàng trả mức chênh đó vì quyền riêng tư, nhưng với chi phí gần gấp 10 lần MacBook Neo thì cũng có thể mua được khá nhiều tín dụng API của OpenRouter hoặc các phòng nghiên cứu hàng đầu
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- Rất khó bác bỏ phép tính đó, nhưng nếu là tôi thì tôi sẽ không vạch ranh giới như vậy
  Việc có một cỗ máy có thể chạy một local LLM vừa phải như Gemma 4 12B thực sự rất đáng giá
  Tôi không biết mình sẽ làm bao nhiêu tác vụ agent coding không giám sát nghiêm túc chỉ với một chiếc MacBook, nhưng nếu chưa từng trực tiếp vọc local model, llama.cpp, LM Studio và những thứ tương tự, có lẽ tôi đã không thể hiểu lĩnh vực này theo cách này
  Lĩnh vực này quá lớn, quá mệt mỏi, đầy rẫy thuật ngữ chuyên môn, và với một người đã ngoài 50 như tôi thì rất dễ bị choáng ngợp
  Chỉ sau khi tự cấu hình trên một cỗ máy cũ, xem các lệnh gọi API và hiểu các thuật ngữ, tôi mới bắt đầu thực sự nắm bắt được nó
  Neo quá nhỏ để biến cơ hội kiểu này thành thứ có thể cảm nhận và hiểu được rõ ràng hơn
- Trong mọi thử nghiệm với Qwen 3.6, chỉ cần 48GB Apple Silicon là đủ
  Tôi nghĩ nếu dùng lượng tử hóa quyết liệt hơn thì yêu cầu còn có thể thấp hơn nữa
  Xét về kinh tế, việc chạy model trên laptop không có nhiều ý nghĩa, và chỉ tính riêng chi phí điện thuần túy thôi thì cũng có thể khó mà đánh bại mức giá token được tạo ra ở quy mô lớn
  Dù vậy, đây vẫn là một bước đột phá có thể thay đổi cuộc chơi
  Trước đây, kiểu vibe coding này trên thiết bị tiêu dùng không phải là khó hay đắt, mà là hoàn toàn bất khả thi
- Mô hình dense Qwen 3.6 27B cũng có thể chạy trên DGX Spark với hiệu năng tương tự [1][2], và giá khoảng $4000
  Asus Ascent GX10 cũng đang được nhiều nơi bán với giá $3999
  Về mặt lý thuyết, cũng có thể dùng hai chiếc 3090 để có 48GB VRAM, nhưng so với MacBook Pro hoặc GB10 thì sẽ chiếm nhiều không gian hơn và tỏa nhiệt nhiều hơn
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- Các model được nhắc tới có thể chạy dễ dàng với VRAM từ 24GB trở lên, và cũng có những model tương tự chạy tốt trên 16GB VRAM
  128GB không phải là điều bắt buộc ở đây
- Token hay tín dụng thì dùng là hết, nhưng MacBook thì vẫn còn đó
  Cũng có thể chạy các model khác trên chính chiếc MacBook đó
  Nhìn vào số tiền mọi người đốt vào SaaS mỗi tháng thì có những trường hợp chỉ sau 5 tháng là đã hoàn vốn chiếc MacBook
  Và đây không chỉ đơn thuần là vấn đề “quyền riêng tư dữ liệu”
  Dùng Claude tức là gửi mọi thứ cho Anthropic, điều đó khá điên rồ
Khó mà xem các ví dụ này là phản ánh “công việc thực tế”
Ít nhất thì đó không phải điều mà tôi xem là công việc thực tế
Việc làm đúng một dự án mới zero-shot tương đối dễ ngay cả với các mô hình nhỏ
Vì không có nhiều ngữ cảnh cần tích lũy, và chúng có thể dễ dàng quay về các ví dụ tương tự trong dữ liệu huấn luyện
Trừ khi bạn yêu cầu nó phát minh ra thứ gì đó hoàn toàn mới, khả năng cao là nó vẫn làm tạm ổn
Bài kiểm tra thật sự là liệu nó có làm việc được trong một codebase hiện có hay không
Trong các thử nghiệm hạn chế tôi đã làm, Qwen 3.5 ổn với ứng dụng Rust+React, nhưng kém hơn với monolith C#
Không đến mức không dùng được, nhưng tệ đến mức tôi quay lại Claude sau 20 phút, và nếu mất quyền truy cập các mô hình đám mây rồi chỉ được dùng Qwen thì chắc tôi sẽ khá buồn
- Không liên quan trực tiếp đến câu “làm đúng một dự án mới zero-shot tương đối dễ ngay cả với các mô hình nhỏ”, nhưng đã có thời mà chỉ để dựng một bản proof of concept cũng mất cả tuần, và những câu như vậy nghe chẳng khác gì khoa học viễn tưởng thuần túy
- Khi đánh giá mô hình nhỏ, người ta thường xem nhẹ việc điểm yếu của chúng lộ ra rõ hơn càng rời xa các đoạn mã ví dụ tiêu chuẩn
  Qwen3.6 cho kết quả đáng ngạc nhiên so với cỡ mô hình của nó ở những ứng dụng đơn giản đầy rẫy khắp nơi
  Nếu bảo nó tạo một ứng dụng boilerplate nhỏ với React TODO app hay các công cụ phổ biến như shadcn thì kết quả khá ra gì
  Nhưng khi ra khỏi các tác vụ thông dụng và đi vào những việc ngách hơn của tôi, nó loay hoay hàng tiếng rồi cuối cùng cho ra kết quả vô dụng đến mức chỉ biết rên rỉ
  Nếu chỉ dùng để thay mình gõ cho các tác vụ nhỏ như refactor đơn giản hoặc những chỉ dẫn cực kỳ rõ ràng thì nó làm khá tốt
  Nhưng khi vào các phiên ngữ cảnh dài hoặc chủ đề không phổ biến thì điểm yếu lộ ra rất rõ
  Việc lượng tử hóa vốn thường dùng để nhét vào phần cứng nhỏ cũng làm vấn đề tệ hơn
  Trên mạng có không khí kiểu như lượng tử hóa 4-bit gần như không mất mát và lượng tử hóa bộ nhớ đệm key-value q8_0/q8_0 cũng hầu như không ảnh hưởng, nhưng trong các dự án thực tế thì những kiểu lượng tử hóa này làm giảm đáng kể hiệu năng ngữ cảnh dài
- Tôi đã dùng pi và codex cli đời cũ cho phát triển công việc cùng với Qwen 3.6 27B ngữ cảnh 100k, và tôi rất ngạc nhiên vì mức độ nó hoạt động tốt
  Nó không hoàn hảo, nhưng đủ để tăng tốc luồng phát triển thường ngày của tôi, chủ yếu dùng để viết Go và C#
- Có vài việc mà các mô hình cỡ Gemma 4 12B làm khá tốt
  Chẳng hạn thiết kế một dự án lớn gồm các thư viện nhỏ để mỗi phần có thể được code và test độc lập, dọn dẹp các dự án code cũ, thêm README, thêm chú thích mã, đưa ví dụ dùng API mới rồi cập nhật các chỗ sử dụng API
  Tất cả đều là các tác vụ quy mô nhỏ
  Với các dự án tích hợp lớn, API thương mại DeepSeek v4 Pro đang rất rẻ và giúp tạo ra kết quả tốt
- Theo kinh nghiệm của tôi, các mô hình nhỏ còn chật vật cả với việc bắt đầu dự án mới ngay từ mức khái niệm dự án cơ bản
  Có quá nhiều quyết định phải đưa ra, và chúng không làm tốt việc đó
  Nếu không kỳ vọng nó tự xử lý thông minh, thì sửa code có sẵn sẽ dễ hơn nhiều
  Tốt hơn là đừng nói kiểu “thêm tính năng X” rồi để nó tự khám phá codebase; hãy chỉ rõ các file liên quan rồi nói “mục tiêu là thêm tính năng X vào đoạn mã này và hãy tuân theo hướng dẫn Y”
  Khi con người xử lý phần quyết định khó nhất, mô hình chỉ cần làm theo chỉ dẫn và tô màu trong đường viền
Nếu chạy mô hình này offline trên MacBook Pro 48GB RAM thì nó vẫn làm được việc, nhưng dĩ nhiên chậm hơn Claude hay Codex
Nhìn cảnh bỏ ra vài nghìn đô để mua một MBP 128GB rồi chạy một mô hình khách quan là kém hơn rất nhiều so với tối tân thì đúng là có cảm giác phát điên
Với số tiền cho một chiếc 128GB M5 MAX thì ở chỗ tôi còn mua được cả xe mới
Tôi không biết mình đang bỏ lỡ điều gì, hay là các lập trình viên ở nước khác thật sự đang sống trong một thế giới khác
Tôi biết ở nơi tôi sống thì giá tuyệt đối còn đắt hơn ở Mỹ, nên lại càng thấy như vậy
Nếu một người tỉnh táo ở nước khác mua cái này thì chắc vừa về đến đây sẽ bán ngay để tiết kiệm tiền
- Tôi thấy đi theo form factor laptop là ngu ngốc
  Mùa thu năm ngoái tôi ráp một workstation bằng hai chiếc 3090 cũ, mỗi chiếc 850 đô Canada, nhưng giờ giá thấp nhất chắc khoảng 1200
  48GB VRAM là khá hợp lý, và tôi đang dùng Qwen 3.6 27B cho nhiều tác vụ tạo đồ thị tri thức từ corpora văn bản rồi suy luận trên đó
  Tôi đã so với những thứ có trên OpenRouter, và với chi phí token là $0 thì Qwen 27B chạy local rất khó bị đánh bại
  Nó chậm hơn và văn phòng cũng ấm hơn vài độ, nhưng sẽ không ai có thể rút phích cắm, không ai đứng sau lưng giám sát, và kết quả thì ngang ngửa các mô hình tối tân
  Tôi rất mong chờ Qwen 3.7 có kích cỡ tương tự
  Những gì tôi thấy đến giờ cho thấy đó là một bước nhảy lớn so với bản trước
- Tôi không hiểu vì sao ở tầm giá này mọi người lại mua Mac laptop thay vì desktop có GPU
  Có phải chỉ để khoe là nó mang đi được không
- Trong sổ sách của tôi, nó đã là một tài sản đang tăng giá khá nhiều, và nhiều khả năng trong 7~10 năm tới vẫn có thể bán lại gần bằng giá mua
  Trả góp hàng tháng của Apple nên $5k là $416 mỗi tháng trong 1 năm và không lãi
  Nó có thể chạy các mô hình cỡ DS4 và các mô hình mở khác mà không cần lượng tử hóa, đôi khi còn chạy nhiều mô hình cùng lúc
  Hãy tưởng tượng giá trị của nó nếu xảy ra các kịch bản đen tối về chiến tranh Đài Loan–Trung Hoa, kết nối toàn cầu, hay độ tin cậy của các mô hình thương mại
  Đây là loại thiết bị rất khó chế tạo ở bất kỳ thời điểm nào khác trong lịch sử, và tôi ước mình đã mua nhiều hơn
  Tôi đã theo dõi tín hiệu, xu hướng giá và tình trạng cháy hàng theo thời gian thực, và chắc chắn những người khác có điều kiện cũng đang tích trữ
- Đúng vậy, với nhiều người thì 6 nghìn đô chỉ là tiền lẻ
- Đúng thế
  Chỗ các bạn thì thu nhập của người dân thấp hơn người Mỹ hơn một bậc độ lớn
Có nhiều ý kiến nói phần cứng để chạy model local rất đắt, nhưng nếu không quan tâm đến thiết bị Apple thì Intel Arc Pro B50/B60/B70 có vẻ là lựa chọn khá đáng tiền mà lại ít được nhắc đến
Gần đây tôi mua mẫu B70 32GB RAM với giá khoảng $1200, đã gồm thuế bán hàng và thuế nhập khẩu tại nơi tôi ở ngoài Mỹ, và ở khu vực khác có thể còn rẻ hơn
Băng thông bộ nhớ là 608GB/s
M5 Max GPU 32 lõi là 460GB/s, GPU 40 lõi là 614GB/s, còn 3090 vẫn nhanh hơn ở khoảng 900GB/s, nhưng bạn có được 32GB VRAM rẻ hơn rất nhiều so với card Nvidia cùng hạng
Tức là bạn nhận được khoảng 1/3 băng thông của 5090 với 1/3 giá tiền nhưng vẫn có cùng 32GB VRAM, nên đây là một sự đánh đổi hấp dẫn nếu muốn chạy model lượng tử hóa lớn hơn và một mức ngữ cảnh nhất định với ngân sách thấp
Tôi vẫn đang khám phá model local nên không muốn tiêu số tiền tương đương $5000~$10000 chỉ để thử nghiệm; nếu có thể thử rẻ hơn thì chậm đi một chút cũng không sao
Ban đầu tôi mua B50 16GB với TDP 70W để thử card Intel trong stack của mình, và nó chạy dễ dàng trên Ubuntu và Vulkan
Tôi đã thấy nhiều bài viết bảo nó phiền phức và không dùng được, nhưng có vẻ đa phần liên quan đến SYCL, mà SYCL cũng không có vẻ cho hiệu năng tốt hơn Vulkan nên tôi không thấy lý do phải dùng
B50 giá $370 đã gồm thuế và thuế nhập khẩu, và đúng nghĩa là chỉ cần apt install thư viện Vulkan là chạy được với driver xe mặc định của 26.04 và bản build Vulkan của llama.cpp
SR-IOV PF/VF cũng hoạt động trên qemu/kvm mà không cần mẹo vặt gì riêng, và sau khi mua về thì fwupdmgr đã cập nhật firmware hai lần, nên có vẻ Intel thực sự muốn hỗ trợ các sản phẩm này
Theo tôi, điểm ngọt hiện tại là hai chiếc 3090 cùng bo mạch chủ PCIe 4 và 64~128GB RAM DDR4
Hiện có thể ráp khoảng $3k, và chạy Qwen 27B/35B ở int4 cực nhanh
Nhân tiện, tôi đang chạy gemma4 31B trên 5090 và nó khá xuất sắc
Dùng QAT, MTP, ngữ cảnh 128k
Qwen 3.6 27B cũng tốt, nhưng có vẻ Gemma4 đang bị đánh giá thấp đôi chút
- Trải nghiệm của tôi cũng tương tự
  Tôi đang chạy gemma4 31B trên 4090 với llm.cpp và model unsloth
  Tôi cũng dùng Qwen 3.6; Qwen nhanh hơn nên tốt cho suy luận và lập kế hoạch, còn Gemma4 cho chất lượng code sinh ra ở lần thử đầu cao hơn hẳn
  Với Rust, C++, C#, nó cần ít chỉnh sửa hơn trước khi tôi cảm thấy đủ ổn để merge
- Tôi chưa làm cho Gemma4 kết thúc lượt trả lời một cách đúng đắn được
  Nó luôn bị cắt đột ngột hoặc tạo ra lệnh gọi công cụ sai, chắc là do tôi cấu hình sai oMLX hoặc Opencode
- Hay đấy
  Tôi dùng luân phiên giữa Qwen 3.5 9B Q6_M và Gemma4 12B Q4_K_M trên 4080 Super
  Hai model có tốc độ tương tự nhau và có thể để chúng review kế hoạch hoặc phần thay đổi của nhau
  Với dự án nhỏ thì chúng khá có năng lực, còn việc khó hơn một chút thì có thể nâng lên lượng tử hóa tốt hơn
Trước khi đi mua một máy bộ nhớ hợp nhất, cần biết rằng trên các thiết bị như DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, model dense nhìn chung khá chậm
GPU rời xử lý model dense tốt hơn nhiều
Nên tìm benchmark của thiết bị bạn định mua, và nếu thực sự muốn loại máy này thì chạy Qwen 3.6 35B hoặc các model MoE thưa khác sẽ hợp lý hơn
Tôi đã chạy qwen 3.6 35b a3b bằng opencode trên MacBook Pro 16 inch M3 Max 64GB RAM, và nó rất tốt cho việc lập kế hoạch và viết code local
Thành thật mà nói, thấy 64GB mạnh đến vậy đôi lúc tôi tự hỏi có nên chọn 128GB để dự phòng tương lai không
Mặt khác, đến giờ tôi vẫn chưa từng đụng trần chỉ vì model nào đó lớn hơn Qwen một chút
- Tôi cũng đang chạy Qwen 3.6 35B A3b trên laptop Windows, với 64GB RAM và GPU 4GB, và ít nhất là vẫn chịu được
  Nó không nhanh, chỉ vài token mỗi giây, chậm hơn tốc độ đọc, nhưng bạn có thể giao việc rồi quay lại sau
  Đây là chiếc laptop $600 tôi mua trên eBay vài năm trước, không phải cỗ máy $6000
  Tôi tò mò liệu các máy Mac bộ nhớ hợp nhất hay desktop GPU 24GB khổng lồ đó có thực sự cho ra vài chục đến vài trăm token mỗi giây tương xứng với mức chi phí gấp 10~20 lần hay không
- Tôi tò mò về tốc độ phản hồi cụ thể, tính theo token mỗi giây
  Theo kinh nghiệm của tôi, chỉ riêng model 20~35GB và cache key-value đã ngốn khá nhiều trong 64GB cơ bản, nên nếu còn muốn mở trình duyệt, trình soạn thảo và các thứ khác cùng lúc thì 128GB đầy đủ chắc chắn sẽ hữu ích

Qwen 3.6 27B là điểm tối ưu cho phát triển cục bộ

Vì sao nên khuyên dùng Qwen 3.6 27B

Các bài test đơn giản và kết quả công việc thực tế

Chạy cục bộ bằng llama.cpp

Ví dụ chạy server

Cấu hình OpenCode

Chạy để chat trong terminal

Đo hiệu năng trên Apple Silicon

So sánh với các mô hình tối tân hiện có

Bước tiếp theo của việc vận hành mô hình cục bộ

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News