- Qwen3-Coder đạt hiệu năng hàng đầu trong lĩnh vực lập trình tác tử среди các mô hình mở, với kiến trúc Mixture-of-Experts 480B tham số, 35B tham số kích hoạt và hỗ trợ ngữ cảnh 256K~1M token
- Áp dụng các kỹ thuật học tăng cường quy mô lớn tối ưu cho các bài toán kỹ thuật phần mềm thực tế như Code RL, Long-Horizon RL, giúp tăng mạnh tỷ lệ thực thi thành công và hiệu năng trên nhiều tác vụ
- Có thể dùng ngay trong nhiều môi trường phát triển khác nhau thông qua tích hợp với công cụ dòng lệnh và API như Qwen Code và Claude Code, cùng Node.js và API tương thích OpenAI
- Nhờ môi trường song song quy mô lớn và hạ tầng mạnh, mô hình có thể xử lý cả các tương tác phức tạp như lập kế hoạch, phản hồi và sử dụng công cụ trong tác vụ lập trình thực tế
- Trong thời gian tới, dự án báo trước các thử nghiệm và bước tiến mới như nhiều kích cỡ mô hình hơn, triển khai chi phí thấp hơn và khả năng tự cải thiện của coding agent
Qwen3-Coder
- Qwen3-Coder là mô hình AI mã nguồn mở có năng lực agentic được tăng cường mạnh nhất trong số các mô hình tạo mã hiện có
- Phiên bản chủ lực đầu tiên được công bố là Qwen3-Coder-480B-A35B-Instruct, áp dụng kiến trúc Mixture-of-Experts trong đó 35 tỷ trên tổng 480 tỷ tham số được kích hoạt
- Hỗ trợ mặc định ngữ cảnh 256K token và có thể mở rộng tới 1M token
- Với hiệu năng nổi bật, mô hình cho kết quả ở mức cao nhất trong nhóm mô hình mở trên các benchmark chính như Agentic Coding, Browser-Use, Tool-Use, đồng thời cho thấy chất lượng tác vụ code/tác tử có thể so sánh với Claude Sonnet 4
- Công cụ CLI Qwen Code được công bố cùng lúc được fork từ Gemini Code, áp dụng prompt đặc biệt và giao thức gọi hàm để phát huy tối đa năng lực tác tử của Qwen3-Coder
- Qwen3-Coder cũng có thể tích hợp mượt mà với nhiều công cụ phát triển phổ biến trong cộng đồng như OpenAI SDK, Claude Code
- Mục tiêu là hiện thực hóa lập trình tác tử trên toàn bộ thế giới phần mềm như một mô hình nền tảng đa dụng
Tiền huấn luyện (Pre-Training)
- Mở rộng quy mô token: sử dụng tổng cộng 7,5 nghìn tỷ token (70% là mã), qua đó tăng cường đồng đều cả năng lực code lẫn năng lực tổng quát và toán học
- Mở rộng phạm vi ngữ cảnh: hỗ trợ mặc định 256K và 1M token dựa trên YaRN, cho phép xử lý cả dữ liệu động ở cấp độ kho mã lớn như Pull Request
- Nâng chất lượng dữ liệu tổng hợp: cải thiện mạnh chất lượng dữ liệu tổng thể bằng cách dùng dữ liệu đã được loại nhiễu và viết lại từ Qwen2.5-Coder hiện có
Hậu huấn luyện (Post-Training)
-
Mở rộng học tăng cường cho mã (Code RL): khó giải nhưng dễ kiểm chứng
- Khác với cách tiếp cận thiên về cạnh tranh trong cộng đồng sinh mã, mô hình áp dụng phương thức thực thi/kiểm chứng mọi tác vụ code dựa trên học tăng cường (RL) quy mô lớn
- Mở rộng test case tự động hóa cho nhiều tác vụ lập trình thực tế, tạo lượng lớn instance huấn luyện RL và tối đa hóa tỷ lệ thành công
- Cách làm này cho thấy không chỉ tăng tỷ lệ thực thi mã thành công mà còn cải thiện cả hiệu năng ở các tác vụ khác
- Trong tương lai, dự án sẽ tiếp tục chú ý tới các lĩnh vực mới khó giải nhưng dễ kiểm chứng
-
Học tăng cường dài hạn (Long-Horizon RL)
- Trong các tác vụ kỹ thuật phần mềm thực tế như SWE-Bench, lập kế hoạch, dùng công cụ, xử lý phản hồi và ra quyết định thông qua tương tác nhiều lượt là điều bắt buộc
- Qwen3-Coder được huấn luyện với Long-Horizon RL (Agent RL) để giải quyết các tác vụ nhiều lượt bằng cách tương tác với công cụ trong môi trường thực
- Dựa trên hạ tầng Alibaba Cloud, nhóm đã xây dựng 20.000 môi trường song song độc lập, hỗ trợ cả huấn luyện RL quy mô lớn lẫn đánh giá thời gian thực
- Đạt hiệu năng cao nhất trong số các mô hình mã nguồn mở trên benchmark SWE-Bench Verified
Cách dùng Qwen3-Coder
-
Qwen Code: lập trình tác tử trên dòng lệnh
- Qwen Code là công cụ CLI được tạo cho mục đích nghiên cứu, dựa trên Gemini CLI và bổ sung parser cùng công cụ chuyên dụng cho Qwen-Coder
- Yêu cầu môi trường Node.js 20+ và có thể dễ dàng cài đặt, chạy bằng npm
- Hỗ trợ giao thức OpenAI SDK nên có thể cấu hình bằng biến môi trường hoặc file .env để dùng trên nhiều hạ tầng LLM khác nhau
- Có thể dễ dàng khai thác sức mạnh của Qwen3-Coder bằng lệnh Qwen-Code
-
Tích hợp Claude Code
- Qwen3-Coder cũng có thể được sử dụng trong môi trường Claude Code
- Có thể cấp API key từ Alibaba Cloud Model Studio rồi cài đặt tích hợp với Claude Code
- Hỗ trợ chọn nhiều mô hình backend và cấu hình dễ dàng thông qua proxy API và gói claude-code-config
-
Tích hợp Cline
- Có thể cấu hình và sử dụng mô hình Qwen3-Coder-480B-A35B-Instruct trong môi trường phát triển Cline
- Với API Provider, chọn OpenAI Compatible, rồi cung cấp API Key nhận từ Dashscope và Custom Base URL
Trường hợp sử dụng (Use Cases)
- Mô phỏng phá dỡ ống khói dựa trên vật lý
- Ví dụ tích hợp Qwen + Cline
- Phát triển web dựa trên Qwen Chat
- Đo tốc độ gõ bằng các câu trích dẫn nổi tiếng
- Mô phỏng quả bóng nảy trong hypercube quay
- Mô phỏng môi trường hệ Mặt Trời
- Tạo game DUET cùng nhiều ví dụ lập trình và mô phỏng khác
Tích hợp API
- Có thể sử dụng trực tiếp API của Qwen3-Coder thông qua Alibaba Cloud Model Studio
- Minh họa việc tạo mã hội thoại bằng Python OpenAI SDK với Qwen API
Hướng phát triển sắp tới
- Nhóm đang tích cực nghiên cứu để cải thiện hiệu năng của Coding Agent và thay thế các tác vụ kỹ thuật phần mềm phức tạp, lặp đi lặp lại
- Đang chuẩn bị phát hành nhiều kích cỡ mô hình hơn, đồng thời theo đuổi mục tiêu giảm chi phí triển khai
- Hướng tới khả năng tự cải thiện của Coding Agent và cuối cùng là tối đa hóa năng suất con người trong các tác vụ kỹ thuật phần mềm phức tạp và lặp lại
1 bình luận
Ý kiến trên Hacker News
Tôi đang tạo GGUF từ 2bit đến 8bit để có thể dùng cục bộ
Sẽ được cung cấp trong vòng một giờ tại HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF
Tài liệu chạy với GPU 24GB và RAM 128~256GB có tại đây
Thay vì "Recommended context: 65,536 tokens (can be increased)", tài liệu chính thức lại ghi về độ dài đầu ra rằng "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
Tức là đây là độ dài đầu ra được khuyến nghị
Qwen3-Coder đang được phát hành với nhiều kích cỡ, nhưng cá nhân tôi kỳ vọng nhất vào các bản nhỏ
Tôi nghĩ những mô hình có thể chạy nhẹ nhàng cục bộ đang dần viết được mã ngày càng ổn hơn
Trong một thời gian nữa có thể vẫn cần các mô hình lớn hơn, nhưng khi tự host chưa thực tế thì việc có thể chọn dùng các mô hình open-weight chất lượng cao là điều rất tốt
Cũng là một trải nghiệm hay khi có thể thoải mái dùng các mô hình nhỏ, rồi trả phí dùng mô hình lớn hơn khi cần
Chúc mừng đội Qwen với đợt phát hành này, tôi sẽ dùng thử ngay
Các mô hình lớn sẽ có nhiều tri thức và sự thông minh hơn hẳn
Mô hình nhỏ có tiến bộ, nhưng mô hình lớn cũng tiến bộ cùng lúc
Có thời Hacker News là trung tâm kỹ thuật của lĩnh vực LLM, nhưng dạo này trên Reddit có nhiều người dùng trực tiếp chạy các mô hình khổng lồ hơn
Nếu tự tìm hiểu và thử làm, thì tự host hoàn toàn là điều thực tế
Ứng dụng "qwen-code" trông giống như một bản fork của gemini-cli
QwenLM/qwen-code
Giấy phép
Tôi hy vọng các bản clone OSS CC (open source code companion) rồi sẽ hội tụ về một tiêu chuẩn chung
Thực tế trang này ghi rõ: "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"
Hiện tôi chủ yếu dùng claude-code, nhưng phần suy luận nặng thì giao cho openai và gemini pro qua zen mcp
gemini-cli cũng được zen hỗ trợ nên có thể thay thế, và nếu qwen-coder dựa trên gemini-cli thì việc thêm hỗ trợ chắc cũng không quá khó
Bên tôi đã phát hành RA.Aid từ cuối năm 2024
Đây là một dự án ưu tiên CLI, thực sự hướng tới cộng đồng mã nguồn mở, tiến thêm một bước từ hướng mà aider đã khởi đầu
Có 5 maintainer độc lập thuộc các pháp nhân khác nhau có toàn quyền commit (một người đã gia nhập Gobii chỗ tôi và đang phát triển agent duyệt web)
Chúng tôi tin rằng nó đủ sức cạnh tranh với Cursor, Windsurf và các giải pháp agentic coding khác
Tôi cảm thấy rất cần một tiêu chuẩn dựa trên FOSS, không phụ thuộc vào một tập đoàn lớn hay một mô hình cụ thể nào
Tôi biết Claude Code cũng được hỗ trợ, nhưng vì đây là mã nguồn đóng và chỉ hỗ trợ endpoint API của Anthropic, nên tôi tò mò nó vận hành cụ thể thế nào
Tôi cũng muốn giới thiệu dự án Plandex của mình
Nó bắt đầu trước cả Claude Code, và ngoài việc hỗ trợ kết hợp mô hình từ nhiều nhà cung cấp (Anthropic, Google, OpenAI) còn có thể tận dụng mô hình mã nguồn mở và mô hình cục bộ
Nó đặc biệt tập trung vào ngữ cảnh lớn và các tác vụ dài hạn nhiều bước
plandex-ai/plandex GitHub
Có đề xuất thêm
QWEN.mdvào kho mã như một tài liệu hướng dẫn cho agentNhưng dạo này trong kho của các nhóm, các file Markdown trùng lặp cho từng agent đang ngày càng nhiều, khá kém hiệu quả
Vì mọi hướng dẫn đều giống nhau nên không cần tách riêng theo từng mô hình
Và dùng gitignore để loại trừ các phiên bản theo từng mô hình
Tôi tự hỏi phải theo kịp tốc độ thay đổi này bằng cách nào
Cũng khiến tôi nghĩ rằng liệu 2~3 năm nữa có một công cụ chiến thắng tuyệt đối xuất hiện hay không
Tới lúc đó có lẽ mọi người sẽ không ngần ngại mà chỉ dùng một cái duy nhất
Mọi người vốn dĩ sẽ tự nhiên theo dõi những gì mình quan tâm
Cuối tuần tôi chạy thử Kimi K2, 2 ngày gần đây thì chạy Ernie4.5-300B
Sáng nay tôi tải bản Qwen3-235b mới nhất, và tối nay bắt đầu dùng
Đêm nay đang tải Qwen3-Coder-480B—với tốc độ internet của tôi chắc mất 2~3 ngày
Có phải là ám ảnh quá không?
Cứ lờ đi cho tới khi nó có vẻ hữu ích
Nói thật thì nhập văn bản vào một ô prompt đâu cần 3 năm kinh nghiệm, nên không đáng để bận tâm quá nhiều
Không cần quá quan tâm
Miễn là không có vấn đề như khả năng sinh lời bùng phát, sẽ đến lúc một công cụ rõ ràng trở thành xu hướng chủ đạo
Tại sao bạn lại nghĩ vậy?
Bảng xếp hạng trong lĩnh vực này rất bất ổn, và tôi không thấy dấu hiệu gì cho thấy sự bất ổn đó sẽ sớm biến mất
Tôi nghĩ 2~3 năm nữa tình hình vẫn tương tự, chỉ là người chơi có thể hơi khác đi
Tôi tò mò cần phần cứng cỡ nào để chạy Qwen3-Coder-480B-A35B-Instruct
Nếu hiệu năng tiệm cận Sonnet, tôi nghĩ nhiều người dùng Claude Code có thể sẽ quan tâm đến việc chạy cục bộ
Tôi cũng tự hỏi nếu dùng chung một instance cục bộ theo nhóm thì có thực sự kinh tế không
Cũng có tài liệu hướng dẫn cách tích hợp với Claude Code
Trên X (Twitter), các trường hợp chia sẻ hóa đơn sử dụng khổng lồ cũng khá phổ biến
Hiện tôi đang chuẩn bị một bản lượng tử hóa GGUF động cho mô hình deep learning này
Có vẻ với khoảng 24GB VRAM + 128GB RAM là có thể chạy động 2bit, và tôi sẽ công bố trong vòng một giờ
Tài liệu tham khảo: docs.unsloth.ai/basics/qwen3-coder
Bản 4bit dùng khoảng 272GB RAM trên Mac Studio M3 512GB
Liên kết tải xuống
Video chạy thực tế: Video trên X
Cỗ máy đó có giá khoảng 10.000 USD
Nếu là bản không lượng tử hóa, không chưng cất thì để đạt benchmark có lẽ cần cụm khoảng 8 chiếc H200
B200 mới hơn thì nhanh hơn nhưng đắt hơn rất nhiều
Dự kiến trên 300.000 USD
Nhiều khi người ta tung bản lượng tử hóa/chưng cất thì lại không công bố kỹ kết quả benchmark
Chỉ riêng RAM cũng đã cần hơn 500GB, và nếu tính cả context thì cần dư thêm 100~200GB nữa
Nếu kết hợp với GPU 24GB thì tôi đoán tốc độ khoảng 10 token mỗi giây
Không nhất thiết phải là dàn máy khổng lồ
RTX Pro 6000 cùng 256GB RAM là đủ
Một mô hình open-weight cạnh tranh với Cloud 4 thật thú vị
Vì là kiến trúc MoE nên tôi nghĩ đúng là có khả năng chạy cục bộ
Điều đó khiến tôi tự hỏi phải để 480GB ở đâu mới đạt được hiệu năng như vậy
Có RAM cỡ đó thật sao?
Tôi rất háo hức với sự xuất hiện của Coder
Thật vui khi thấy gần đây các benchmark lớn đều có xu hướng dùng OpenHands(All-Hands-AI/OpenHands) làm scaffold mặc định
Không gì gây bực bằng việc benchmark công khai mà chỉ thấy "private scaffold"
Có video YouTube trong đó robert nói rất chi tiết về AllHands
Thật khó tin Cognition lại có thể trông kém cỏi đến vậy
Họ nhận hàng triệu USD đầu tư, bị Cursor và Claude Code vượt mặt, giờ lại còn bị chính bản clone của mình (trước đây gọi là OpenDevin) lấy mất thị phần
Tôi thấy nó đã được đưa lên để có thể dùng ngay trên OpenRouter (openrouter.ai/qwen/qwen3-coder)
Giá mà có ai làm cái này thành CLI bằng Rust/Ratatui thì tốt quá