7 điểm bởi GN⁺ 2026-04-23 | 4 bình luận | Chia sẻ qua WhatsApp
  • Được công bố là mô hình đa phương thức dense 27 tỷ tham số, hỗ trợ đồng thời chế độ thinking·non-thinking cùng xử lý hình ảnh và video trong một checkpoint hợp nhất
  • Hiệu năng agentic coding vượt thế hệ open-source flagship trước đó là Qwen3.5-397B-A17B trên hầu hết benchmark coding quan trọng, đồng thời vượt cả các mô hình có tổng số tham số lớn hơn tới 15 lần
  • Ghi nhận SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2; đồng thời công bố thêm các chỉ số suy luận văn bản và STEM như GPQA Diamond 87.8, AIME26 94.1
  • Nhờ sử dụng kiến trúc dense, không có độ phức tạp của định tuyến MoE nên triển khai đơn giản hơn, đồng thời cung cấp open weights, API, lộ trình dùng ngay qua Qwen Studio và hỗ trợ tích hợp với OpenClaw·Qwen Code·Claude Code
  • Cho thấy một mô hình dense được huấn luyện tốt có thể vượt qua cả thế hệ trước lớn hơn nhiều trong các tác vụ cốt lõi của lập trình viên, đồng thời mở rộng thêm định hướng agentic coding của dòng Qwen3.6

Tổng quan

  • Qwen3.6-27B được công bố là mô hình đa phương thức dense 27 tỷ tham số, hỗ trợ đồng thời chế độ thinking và non-thinking đa phương thức
  • Về hiệu năng agentic coding, mô hình này vượt Qwen3.5-397B-A17B, flagship open-source của thế hệ trước, trên các benchmark coding chủ chốt
  • Việc áp dụng kiến trúc dense không có độ phức tạp của định tuyến MoE giúp triển khai đơn giản hơn, đồng thời mang lại hiệu năng coding hàng đầu ở quy mô thực tiễn và dễ phổ biến rộng rãi
  • Có thể dùng ngay trên Qwen Studio, đồng thời cung cấp open weights cho cộng đồng và đường truy cập API
  • Các đặc tính cốt lõi gồm agentic coding cấp flagship, suy luận văn bản mạnh và năng lực suy luận đa phương thức

Hiệu năng

  • Qwen3.6-27B được đánh giá tổng hợp so với các mô hình chuẩn dense và MoE, ghi nhận cải thiện lớn ở các benchmark agentic coding
  • Được nêu rõ là vượt cả những mô hình có tổng số tham số lớn hơn tới 15 lần
  • Các hạng mục đánh giá gồm ngôn ngữ, tri thức, STEM và suy luận, vision-language, hiểu tài liệu, hiểu video, visual agent
  • Ngôn ngữ

    • Chỉ với 27 tỷ tham số, mô hình đã vượt Qwen3.5-397B-A17B trên toàn bộ benchmark coding quan trọng
      • SWE-bench Verified 77.2 so với 76.2
      • SWE-bench Pro 53.5 so với 50.9
      • Terminal-Bench 2.0 59.3 so với 52.5
      • SkillsBench 48.2 so với 30.0
    • Cũng dẫn trước đáng kể các mô hình dense khác cùng quy mô
    • Ở các bài toán suy luận, mô hình đạt 87.8 điểm GPQA Diamond, mức điểm có thể cạnh tranh với các mô hình lớn hơn công ty này nhiều lần
    • Bảng chi tiết gồm so sánh giữa Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B và Qwen3.6-27B
    • Các chỉ số chính trong mục Coding Agent
      • SWE-bench Multilingual 71.3
      • QwenWebBench 1487
      • NL2Repo 36.2
      • Claw-Eval Avg 72.4
      • Claw-Eval Pass^3 60.6
      • QwenClawBench 53.4
    • Các chỉ số chính trong mục Knowledge
      • MMLU-Pro 86.2
      • MMLU-Redux 93.5
      • SuperGPQA 66.0
      • C-Eval 91.4
    • Các chỉ số chính trong mục STEM và suy luận
      • HLE 24.0
      • LiveCodeBench v6 83.9
      • HMMT Feb 25 93.8
      • HMMT Nov 25 90.7
      • HMMT Feb 26 84.3
      • IMOAnswerBench 80.8
      • AIME26 94.1
  • Thiết lập đánh giá ngôn ngữ

    • SWE-Bench Series dùng agent scaffold nội bộ cùng công cụ bash và chỉnh sửa tệp, với temp 1.0, top_p 0.95, cửa sổ ngữ cảnh 200K
      • Tất cả mô hình chuẩn đều được đánh giá trên refined benchmark đã chỉnh sửa một số tác vụ có vấn đề trong bộ SWE-bench Pro công khai
      Quảng cáo
    • Terminal-Bench 2.0 dùng Harbor hoặc harness Terminus-2
      • timeout 3 giờ, 32 CPU, 48 GB RAM
      • temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
      • Trung bình của 5 lần chạy
    • SkillsBench đánh giá 78 tác vụ bằng OpenCode
      • Dùng tập con self-contained đã loại các tác vụ phụ thuộc API
      • Trung bình của 5 lần chạy
    • Đánh giá các mô hình khác trên NL2Repo dùng Claude Code
      • temp 1.0, top_p 0.95, max_turns 900
    • QwenClawBench là benchmark Claw agent dựa trên phân bố người dùng thực
      • temp 0.6, ctx 256K
    • QwenWebBench là benchmark nội bộ cho sinh mã frontend
      • Cấu hình song ngữ EN và CN
      • Gồm 7 hạng mục: Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D
      • Đánh giá độ phù hợp giữa mã và kết quả hiển thị bằng auto-render và multimodal judge
      • Dùng hệ thống đánh giá BT hoặc Elo
    • AIME 26 dùng toàn bộ AIME 2026 I và II
      • Có lưu ý rằng điểm số có thể khác với ghi chú của Qwen 3.5
    Quảng cáo
  • Vision-language

    • Qwen3.6-27B hỗ trợ đồng thời chế độ thinking và non-thinking vision-language trong một checkpoint hợp nhất duy nhất
    • Có thể xử lý hình ảnh và video cùng với văn bản
    • Hỗ trợ suy luận đa phương thức, hiểu tài liệu và các tác vụ visual question answering
    • Bảng so sánh được trình bày theo các mốc Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B và Qwen3.6-27B
    • STEM và câu đố

      • MMMU 82.9
      • MMMU-Pro 75.8
      • MathVista mini 87.4
      • DynaMath 85.6
      • VlmsAreBlind 97.0
    • VQA tổng quát

      • RealWorldQA 84.1
      • MMStar 81.4
      • MMBench EN-DEV-v1.1 92.3
      • SimpleVQA 56.1
    • Hiểu tài liệu

      • CharXiv RQ 78.4
      • CC-OCR 81.2
      • OCRBench 89.4
    • Trí tuệ không gian

      • ERQA 62.5
      • CountBench 97.8
      • RefCOCO avg 92.5
      • EmbSpatialBench 84.6
      • RefSpatialBench 70.0
    • Hiểu video

      • VideoMME(w sub.) 87.7
      • VideoMMMU 84.4
      • MLVU 86.6
      • MVBench 75.5
    • Visual Agent

      • V* 94.7
      • AndroidWorld 70.3
    • Ghi chú

      • Ô trống (--) trong bảng nghĩa là chưa có điểm hoặc không áp dụng
    Quảng cáo

Cách sử dụng Qwen3.6-27B

  • Có nêu rõ rằng hỗ trợ Alibaba Cloud Model Studio sẽ sớm được cung cấp
  • Cung cấp open weights trên Hugging FaceModelScope, cho phép self-hosting
  • Đồng thời có đường sử dụng qua Alibaba Cloud Model Studio API và trải nghiệm ngay trên Qwen Studio
  • Hỗ trợ tích hợp với các trợ lý coding bên thứ ba như OpenClaw, Claude Code, Qwen Code
  • Có đề cập đến việc đơn giản hóa workflow phát triển và hỗ trợ context-aware coding experience
  • Sử dụng API

    • Bản phát hành này hỗ trợ tính năng preserve_thinking
    • Đây là tính năng giữ lại toàn bộ nội dung thinking được tạo ra ở mọi lượt trước đó trong hội thoại, và được khuyến nghị cho agentic task
  • Alibaba Cloud Model Studio

    • Hỗ trợ chat completions và responses API tương thích chuẩn OpenAI
    • Đồng thời hỗ trợ giao diện API tương thích Anthropic
    • Tài liệu chính thức cung cấp ví dụ biến môi trường
      • DASHSCOPE_API_KEY
      • DASHSCOPE_BASE_URL
      • DASHSCOPE_MODEL
    • Cũng đưa ra ví dụ Base URL theo khu vực
    • Trong mã ví dụ, tên mô hình mặc định là qwen3.6-27b
    • extra_body gồm enable_thinking: True
      • preserve_thinking: True được hiển thị ở dạng chú thích
    • Có ví dụ thu thập riêng reasoning_contentanswer content trong phản hồi streaming
    • Để biết thêm thông tin, tài liệu hướng dẫn tham chiếu đến liên kết API doc
  • Coding & Agents

    • Qwen3.6-27B có năng lực agentic coding và có thể tích hợp mượt mà với OpenClaw, Claude Code và Qwen Code
    • OpenClaw

      • OpenClaw là AI coding agent open-source self-hosted, trước đây có tên là Moltbot hoặc Clawdbot
      • Khi kết nối với Model Studio, công cụ này mang lại trải nghiệm agentic coding đầy đủ ngay trong terminal
      • Script khởi động gồm Node.js 22+, chạy script cài đặt, thiết lập DASHSCOPE_API_KEY, rồi chạy openclaw dashboard hoặc openclaw tui
      • Khi dùng lần đầu cần chỉnh sửa ~/.openclaw/openclaw.json
        • Có nêu rõ không được ghi đè toàn bộ tệp
        • Chỉ nên gộp các trường cần thiết để giữ nguyên cấu hình hiện có
        Quảng cáo
      • Cấu hình mẫu gồm provider modelstudio và đăng ký mô hình qwen3.6-27b
        • apiopenai-completions
        • Giá trị reasoning là true
        • Kiểu đầu vào là text, image
        • contextWindow131072
        • maxTokens16384
        • Mô hình primary mặc định là modelstudio/qwen3.6-27b
    • Qwen Code

      • Qwen Code là AI agent open-source cho terminal, được tối ưu sâu cho Qwen Series
      • Script khởi động gồm Node.js 20+, cài @qwen-code/qwen-code@latest, rồi chạy qwen
      • Có ví dụ dùng các lệnh /help, /auth trong phiên làm việc
      • Khi dùng lần đầu sẽ hiện lời nhắc đăng nhập, và có thể chuyển phương thức xác thực bằng /auth
    • Claude Code

      • Qwen APIs cũng hỗ trợ giao thức Anthropic API
      • Có nêu rõ rằng có thể dùng cùng các công cụ như Claude Code
      • Ví dụ cấu hình gồm các biến môi trường sau
      • Lệnh chạy là claude

Kết luận

  • Một mô hình dense được huấn luyện tốt có thể vượt qua cả thế hệ trước lớn hơn rất nhiều ở những bài toán quan trọng với lập trình viên, và Qwen3.6-27B đã chứng minh điều đó
  • Với quy mô 27 tỷ tham số, mô hình vẫn vượt Qwen3.5-397B-A17B trên toàn bộ benchmark agentic coding quan trọng
  • Cấu trúc đơn giản hơn cho triển khai và phục vụ, đồng thời dòng open-source Qwen3.6 nay có thêm Qwen3.6-27B để mở rộng dải cấu hình mô hình

4 bình luận

 
kaydash 2026-04-23

Phải là a3b thì may ra mới chạy được cục bộ một chút chứ haha

 
kirinonakar 2026-04-23

Benchmark thì nghe nói khá tốt, nhưng trong sử dụng thực tế có vẻ vẫn chưa đến mức đủ dùng như một coding agent.

 
b89kim 2026-04-26

Tôi đã thử dùng và không có vấn đề lớn nào với agentic coding. Tuy nhiên, đúng như bạn nói, khi dùng thực tế + lập trình thông thường thì chắc chắn vẫn kém hơn các mô hình có số tham số lớn hơn. Các giá trị thiết lập cũng khác với 3.5 và còn được bổ sung chế độ preserve_thinking, nên xin lưu ý. Với mức lượng tử hóa 4bit của bản 27B thì dùng cục bộ cũng không có vấn đề gì.

 
GN⁺ 2026-04-23
Ý kiến Hacker News
  • Theo tiêu chuẩn của tôi thì với một mô hình local được lượng tử hóa xuống 16.8GB, kết quả pelican thực sự rất xuất sắc. Tôi đã ghi lại ở https://simonwillison.net/2026/Apr/22/qwen36-27b/, chạy trên M5 Pro RAM 128GB nhưng bộ nhớ thực tế cần khoảng 20GB nên có lẽ máy 32GB cũng chạy ổn. Tốc độ đọc là xử lý 20 token trong 0.4 giây, tương đương 54.32 tokens/s, còn sinh thì tạo 4,444 token trong 2 phút 53 giây, tương đương 25.57 tokens/s. Tôi còn thích kết quả lần này hơn cả pelican làm bằng Opus 4.7 vài ngày trước. https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
    • Lần này ra tốt quá nên lại có cảm giác không biết có phải nó đã có trong dữ liệu huấn luyện hay không. Tôi muốn chạy thêm vài bài test khác để xem khác biệt thế nào
    • Đùa chút thôi nhưng tôi nghĩ sẽ đến lúc các nhà cung cấp mô hình bắt đầu tối ưu theo bài test pelican riding a bicycle có sức ảnh hưởng của Simon
    • Cả chiếc nơ bướm trên Qwen Flamingo nữa cũng rất tinh tế
    • Theo tôi nhớ thì hiếm khi nghe người ta dùng từ excellent cho bài test pelican đến mức này, nhưng lần này có vẻ hoàn toàn xứng đáng. Xu hướng một thời gian qua nghiêng về MoE, nên việc dense model lại được chú ý lần này cũng khá thú vị. Tôi cũng tò mò không biết các mô hình đóng có đang đi theo hướng dòng nhanh dùng MoE, còn dòng pro dùng dense hay không
    • Chắc đến lúc này LLM đã hiểu rằng khung xe đạp thực chất là một hình thoi gần như bị chia đôi rồi → ◿◸. Hy vọng tôi không vừa phá hỏng bài test khi nói điều này
  • Từ khi Gemma 4 ra mắt vào khoảng Easter vừa rồi, tôi cảm thấy khoảng cách giữa mô hình self hosting và Claude đã thu hẹp đáng kể. Dĩ nhiên khác biệt vẫn còn lớn, nhưng vì các mô hình local trước đó quá thiếu sức cạnh tranh nên tình hình bây giờ đã khá hơn nhiều. Và nếu Qwen 3.6 còn tiến thêm một bậc so với Gemma 4 thì thực sự rất đáng phấn khích. Dù vậy, mô hình local vẫn hay lạc hướng hoặc thất bại theo cách kỳ quặc nên tôi vẫn luôn để Opus ở gần. Nhưng mỗi lần mô hình local thực sự giúp được tôi, tôi lại cảm thấy coding vẫn nên là thứ tự do. Vừa là miễn phí, vừa là tự do. Thiết lập của tôi là một máy Ubuntu riêng gắn RTX 5090, và ngay lúc này Qwen 3.6 27B đang dùng 29GB trong tổng 32GB VRAM. Tôi chạy Ollama trong một instance podman không phải root, và nối OpenCode vào editor dưới dạng ACP Service, cực kỳ khuyến nghị. ACP là Agent Client Protocol, và theo tôi thế giới nên đi theo hướng này. Tôi cũng biết ơn đội Qwen vì đã làm thế giới tốt hơn trong một thế giới đầy những Sam Altman
    • Trong số các mô hình tôi chạy local trên M5 MBP, Gemma4 cho cảm giác giống Claude nhất
    • Tôi cũng đồng cảm với lý tưởng free và local, nhưng cuối cùng điều quan trọng là cạnh tranh bền vững. Chỉ riêng việc tạo ra áp lực kéo mức phí 200 USD/tháng xuống thấp hơn rất nhiều là tôi đã thấy đáng giá
    • Tôi tò mò một mô hình 27B thực tế có thể gánh được tới mức nào về các tác vụ lập trình. Ngay cả Claude đôi lúc còn chưa đã, nên cũng khó hình dung 27B thực dụng đến đâu
    • Tôi muốn biết trên RTX 5090 thì tokens/s đạt bao nhiêu
  • Mỗi lần công bố mô hình, tôi mong họ cho thấy luôn là có thể chạy ngay trên consumer hardware nào, chi phí bao nhiêu, và tok/s cỡ nào
    • Để chạy native bản 27B họ phát hành ở 16-bit thì cần phần cứng khá mạnh. Bạn sẽ cần Mac hoặc hệ thống Strix Halo 128GB, nhiều GPU tiêu dùng dung lượng lớn, hoặc card workstation cỡ RTX 6000. Có lẽ vì vậy họ không quảng bá mạnh chuyện nó chạy được trên phần cứng tiêu dùng nào. Bản gốc tạo ra kết quả đó không thực sự vừa với hệ thống tiêu dùng thông thường. Đa số mọi người sẽ chạy bản lượng tử hóa ít bit hơn thay vì bản gốc. Nhưng lượng tử hóa rõ ràng có đánh đổi, nên khó mong chất lượng y hệt kết quả được quảng bá. Bản Qwen3.5 27B trước đây khá dùng được tới mức Q5 hoặc Q4 tùy bạn chấp nhận giảm chất lượng đến đâu, và trên hệ thống unified memory thì cần thêm 32GB RAM, nên nhìn chung Mac 64GB là hợp lý. Cũng có thể chạy bằng NVIDIA 5090 32GB hoặc hai GPU 16GB hay 24GB, nhưng tốc độ chậm hơn do phải phân tán. Tôi nghĩ nên cẩn thận với các tuyên bố chạy được trên iPhone hay hệ thống nhỏ hơn. Dù có thể khởi chạy bằng lượng tử hóa cực mạnh và nhiều mẹo vặt, chất lượng đầu ra thường không đủ dùng thực tế. Thỉnh thoảng có các repo khoe chạy được trên phần cứng nhỏ để đăng SNS, nhưng kết quả thực tế thường không tốt lắm
    • Tôi đạt khoảng ~5 tokens/s trên M4 RAM 32GB. Tôi chạy unsloth/Qwen3.6-27B-GGUF:Q4_K_M bằng llama-server, còn model 35B-A3B thì khoảng 25 t/s. Để so sánh, trên A100 hai con này lần lượt khoảng 41 t/s và 97 t/s. Tôi chưa test dài với 27B, nhưng 35B-A3B thường trật bánh khi context vượt 15k~20k token. Có thể giao các việc cơ bản một cách ổn định, nhưng tôi không xem nó ở cấp frontier model
    • Các tổ hợp CPU/GPU có thể chạy local LLM thực tế là gần như vô hạn, nên đa số mọi người sẽ chọn hệ thống theo ngân sách và mục tiêu, rồi nhìn kích thước mô hình và mức lượng tử hóa để ước lượng đại khái VRAM cần dùng. Nếu cần phân tích chi tiết hơn thì dùng các máy tính VRAM online, ví dụ https://smcleod.net/vram-estimator/. Nếu có tài khoản huggingface, bạn còn có thể nhập cấu hình hệ thống và xem màu bên cạnh từng quant để biết khả năng phù hợp. Còn t/s thì chịu ảnh hưởng rất lớn bởi nhiều biến số, gồm cả kích thước context, nên tốt nhất cũng chỉ ước lượng được thôi. Local LLM hiện tại đúng nghĩa là ở mọi điểm đều có trade-off, nên bạn luôn phải chọn xem muốn tối ưu cái gì cho từng tác vụ
    • Qwen3.5-27B với 4bit quant chạy ngon trên card 24GB. Tôi đang dùng hai Nvidia L4 cùng một số cờ vllm để phục vụ 10 developer ở mức 20~25 tok/s, lúc vắng có thể lên khoảng 40 tok/s. Các developer vẫn hài lòng với hiệu năng này, dù đã yêu cầu thêm GPU để tăng throughput
    • Tôi đạt khoảng 30 t/s trên RTX 4090D, và VRAM dùng 42GB trên tổng 48GB. Mức lượng tử hóa là UD-Q6_K_XL và có thảo luận liên quan ở https://huggingface.co/unsloth/Qwen3.6-27B-GGUF/discussions/7
  • Khi các nơi như Qwen hay Minimax phát hành mô hình mã nguồn mở cho ra benchmark hơi kém OpenAI hay Anthropic một chút nhưng khá tương đồng, tôi tự hỏi chính xác lợi thế cạnh tranh hiện tại của OpenAI hay Anthropic là gì. Hơn nữa, giá token của những mô hình mở này cũng chỉ bằng một phần của Anthropic Opus 4.6. https://artificialanalysis.ai/models/#pricing
    • Trong coding, vài phần trăm cuối cùng của chênh lệch chất lượng đủ quan trọng để xứng đáng trả premium. Nó khác với việc sản xuất hàng loạt email spam hay comment HN. Tôi nghĩ đây cũng là lý do chênh lệch đãi ngộ giữa một engineer trung bình và một engineer P99 lại lớn đến vậy. Và việc các hãng frontier hiện vẫn duy trì năng lực cạnh tranh dù phải gánh chi phí R&D cao thực ra có lợi lâu dài, vì nó buộc họ tạo ra sản phẩm tốt hơn và nhiều giá trị gia tăng hơn. Đặc biệt Anthropic có vẻ đang nhắm tới vị thế nhà cung cấp đáng tin cậy hơn. Ngay cả Ali cũng host mô hình frontier trả phí, nhưng nếu không phải công ty Trung Quốc thì liệu bạn có đặt workload phát triển mã nguồn production lên một nhà cung cấp hosting Trung Quốc không? OpenAI cũng có những điểm khiến người ta lấn cấn, nhưng ít nhất tôi ít nghi ngờ họ sẽ bê nguyên bí mật kinh doanh đi hơn. Tôi tin Anthropic hơn OpenAI một chút nữa. Vì vậy tôi nghĩ premium là có cơ sở. Tiền lệ lịch sử về việc các công ty hosting Trung Quốc tận dụng mọi lợi thế cạnh tranh có thể có và chia sẻ với chính phủ hay doanh nghiệp khác là quá mạnh, nên mọi người phản ánh rủi ro đó vào giá
    • Tôi dùng cả Opus lẫn Qwen, và cảm nhận thực tế là khoảng cách giữa hai bên lớn hơn rất nhiều so với trên biểu đồ benchmark. Nếu muốn so với mô hình hosted thì lúc này nhìn sang GLM có lẽ hợp lý hơn. Nó là bên tiến gần nhất tới các tay chơi lớn, và trước đây bán rất rẻ nhưng gần đây đã bắt đầu tăng giá
    • Nếu những kết quả này là do vampire attacks, thì có thể khi các mô hình đóng học được cách làm nhiễm bẩn các kênh nơi câu trả lời của chúng bị hút ra, hiệu năng sẽ không còn tốt như bây giờ. Và khi đem dùng trong workflow hằng ngày thì chúng chưa thực sự cùng đẳng cấp. Suy luận nông có thể ổn, nhưng coding hay các tác vụ khó hơn thì khác biệt vẫn lớn. Ít nhất trong số mô hình mở tôi từng dùng, tôi vẫn chưa thấy cái nào tốt bằng mô hình đóng. Nếu ai có cấu hình hay thì tôi rất muốn được chia sẻ
    • Ở thời điểm này tôi cho là không có lợi thế cạnh tranh. Nhưng một khi một hệ sinh thái nào đó bắt đầu được tích hợp thì từ lúc đó lợi thế sẽ xuất hiện
    • Mức giá token cao của Opus theo tôi lại là bằng chứng rằng mọi người sẵn sàng trả tiền cho mô hình tốt hơn đến mức đó. Các mô hình OpenAI và Anthropic mới rõ ràng tốt hơn mã nguồn mở; open source không phải là vô dụng, nhưng frontier chắc chắn tốt hơn và có lẽ sẽ còn như vậy một thời gian. Nếu thời gian của SWE đáng giá hơn 1 USD mỗi phút, thì ngay cả một cuộc trò chuyện tốn 10 USD vẫn xứng đáng nếu giúp tiết kiệm 10 phút. Đặc biệt trong công việc với mã, cải thiện chất lượng dù tinh tế cũng có thể chuyển thành tiết kiệm thời gian rất lớn
  • Tôi đang dùng Qwen 3.6 35B và Gemma 4 26B trên M4 MBP, và dù chưa tới mức Opus, chúng vẫn làm được 95% những gì tôi cần; việc tất cả chạy hoàn toàn local tự nó đã là điều đáng kinh ngạc
    • Tôi tò mò bạn làm những công việc kiểu gì, và bạn nối Qwen hay Gemma bằng harness hay cách tiếp cận nào. Nói cách khác, tôi muốn biết workflow và software stack của bạn trông như thế nào
    • Giờ nó đủ dùng nên giống như Codex đang tự làm mình bớt việc, tôi cũng bắt đầu ủy quyền thêm nhiều tác vụ cho các mô hình local này. Và trên M4 của tôi thì bản 122B lại có throughput tốt hơn nhiều so với dense 27B, nên tôi cũng rất kỳ vọng vào nó
    • Tôi muốn biết bạn dùng cái này qua Ollama hay bằng thứ gì khác
    • Tôi muốn nghe rõ hơn ý bạn nói 95% là gì. Tôi tò mò hai điều. Thứ nhất, có phải bạn muốn nói về mức độ chính xác bằng 95% so với Opus 4.5 hay 4.6 xét theo chất lượng đầu ra không. Thứ hai, có phải là mức thực hiện 95% so với Opus trong việc gọi công cụ hay tác vụ agentic, ví dụ như lập kế hoạch du lịch không
  • Tôi chưa quen local LLM lắm nên hôm qua đã dành thời gian set up và test vài mẫu Qwen3.6-35B-A3B. Có lẽ là mlx 4b và 8b, gguf Q4_K_M và Q4_K_XL. Chạy trên M4 64GB của tôi trông khá ấn tượng. Tuy nhiên nhìn bảng của TFA thì model mới lần này có vẻ thông minh hơn một chút nhưng cũng ngốn VRAM hơn, nên tôi tò mò khác biệt cốt lõi có phải là vì nó là dense không. Và vì 27B nhỏ hơn 35B, tôi cũng kỳ vọng sắp tới sẽ có các bản lượng tử hóa giảm yêu cầu VRAM hơn nữa
    • Điểm cốt lõi không phải là so số lượng tham số một cách đơn giản. 35B-A3B là mô hình Mixture of Experts, nên mỗi lần chỉ có khoảng 3B tham số được kích hoạt. Vì thế nhu cầu tính toán thực tế không scale theo 35B mà gần với 3B hơn. Dĩ nhiên vẫn cần truy cập băng thông cao tới toàn bộ các lớp 35B. Ngược lại, model lần này là dense nên trên Mac có khả năng chậm hơn nhiều. Ví dụ trên M4 Pro của tôi, bản Q6 gguf chỉ được khoảng 9 tok/s, còn 35-A3B là khoảng 70 tok/s với Q4 trên mlx, dù đây không phải so sánh hoàn toàn công bằng. Nói chung các dense model kiểu này chạy tốt hơn trên GPU chuyên dụng, và nếu VRAM đủ để giữ thường trú toàn bộ mô hình thì đánh giá sẽ dễ hơn. Tôi đoán model này sẽ ổn nếu có khoảng 24GB VRAM trở lên, và dòng NVIDIA 3090, 4090, 5090 có lẽ sẽ phù hợp
  • Nếu chạy bằng llama server với Q4_K_M thì ở mức 24GB sẽ được khoảng 91k context, tính ra KV-Cache vào khoảng 70MB cho mỗi 1K context. Nếu lên Q5 thì có lẽ vẫn còn chỗ cho khoảng 30K token, và tôi thấy như vậy là khá ấn tượng
  • Tôi đã thử tạo một con pelican đạp xe bằng SVG, kết quả ở https://codepen.io/chdskndyq11546/pen/yyaWGJx. Tôi cũng làm thử một con rồng vừa lái ô tô vừa ăn hotdog, kết quả ở https://codepen.io/chdskndyq11546/pen/xbENmgK. Chưa hoàn hảo nhưng chỉ nhìn những kết quả này thôi cũng thấy các mô hình đã mạnh đến mức nào
    • Ảnh con rồng có vấn đề như một mắt hay cái đuôi kỳ quặc, nhưng phía pelican thì gần như hoàn hảo, đến mức tôi cảm thấy đó là thứ tốt nhất mình từng thấy
    • Nó đã trở thành một benchmark quá nổi tiếng, nên tôi tự hỏi liệu các mô hình có phải đã được huấn luyện để vượt qua bài test này rồi không
  • Cho tới giờ, trải nghiệm suy luận local của tôi vẫn chưa thật sự ấn tượng. Trên M5 Pro RAM 128GB với omlx tôi chỉ được khoảng 11 tokens/s, và cuối cùng mất một tiếng để viết ra vài trăm dòng mã không chạy được. Cùng tác vụ đó, Opus và Sonnet làm xong thành công trong vài phút trên CC. Bản 3.6 35b chạy qua Ollama hôm qua trông cũng tạm ổn. Ngoài Claude Code, tôi định thử thêm các harness khác, nhưng cảm giác hiện tại là mô hình local vẫn quá chậm
    • Đây là dense model nên chậm trên Mac là điều khá tự nhiên. Nếu dùng Mac thì bạn nên thử bản Qwen3.6-35B-A3B, tức bản Mixture of Experts của Qwen3.6. Trên M4 Pro của tôi nó đạt khoảng 70 tok/s. Nếu chậm hơn nhiều mức đó thì có thể bạn đang vô tình dùng định dạng GGUF. Trên Mac, định dạng MLX dành riêng cho Apple thường nhanh hơn
    • Tôi đạt tốc độ sinh khoảng 7 tokens/sec với bản lượng tử hóa MLX 8-bit trên MacBook M2 Max
    • Tôi có cảm giác OpenCode khai thác mô hình local tốt hơn Claude
  • Tôi tò mò với M4 Pro có 48GB RAM thì có thể chạy được gì