1 điểm bởi GN⁺ 1 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Kế nhiệm Qwen3.6-Plus, cải thiện coding tác tử cùng tri thức thế giới mạnh hơn và hiệu năng làm theo chỉ thị tốt hơn so với phiên bản trước
  • Ghi điểm cao nhất trên 6 benchmark coding chủ chốt, cho thấy hiệu năng tác tử coding được nâng lên đáng kể
  • Hỗ trợ tính năng preserve_thinking, sử dụng cách lưu giữ quá trình suy nghĩ của lượt trước trong tin nhắn khi thực hiện tác vụ tác tử
  • Trên các benchmark về tri thức thế giới, mô hình được cải thiện như SuperGPQA +2.3, QwenChineseBench +5.3; ở khả năng làm theo chỉ thị, ToolcallFormatIFBench đạt +2.8
  • Có thể thử nghiệm tương tác trên Qwen Studio, và sẽ được gọi bằng qwen3.6-max-preview qua API của Alibaba Cloud Model Studio

Các cải tiến chính

  • So với Qwen3.6-Plus, năng lực coding tác tử được cải thiện mạnh: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
  • Tăng cường tri thức thế giới (world knowledge): SuperGPQA +2.3, QwenChineseBench +5.3
  • Cải thiện làm theo chỉ thị (instruction following): ToolcallFormatIFBench +2.8
  • Đạt điểm cao nhất trên 6 benchmark coding lớn: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode

Đặc điểm mô hình và cách tiếp cận

  • Mô hình độc quyền dạng hosted được cung cấp thông qua Alibaba Cloud Model Studio
  • Cải thiện hiệu năng cho tác tử thực tế (real-world agent) và độ tin cậy tri thức (knowledge reliability)
  • Có thể thử nghiệm ngay theo dạng tương tác trên Qwen Studio
  • Tên model API là qwen3.6-max-preview, sẽ sớm khả dụng trong API của Alibaba Cloud Model Studio

Sử dụng API và tính năng

  • Hỗ trợ các giao thức tiêu chuẩn ngành như OpenAI-compatible chat completions và responses API, cùng giao diện tương thích Anthropic
  • Thông qua tính năng preserve_thinking, có thể giữ lại quá trình suy luận (reasoning content) của lượt trước và được khuyến nghị cho các tác vụ tác tử
  • Khi đặt enable_thinking: True, có thể nhận riêng nội dung suy luận và phản hồi theo cách streaming
  • Cung cấp Base URL API theo khu vực: Bắc Kinh, Singapore, Mỹ (Virginia)

Trạng thái phát triển

  • Hiện đang ở giai đoạn preview release và tiếp tục được cải tiến lặp lại, với các nâng cấp bổ sung dự kiến ở các phiên bản sau

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi thấy hơi buồn cười khi mọi người cứ ám ảnh với việc chỉ so sánh SOTA. Tôi đã thấy những trường hợp glm 5.1 làm được việc mà Opus không làm được, và cũng từng trải nghiệm nó viết code tốt hơn. Tôi chưa dùng qwen max, nhưng cũng đã thấy model local 122b đọc tài liệu tốt hơn và xử lý chính xác hơn. Cuối cùng thì benchmark chỉ là một phần; trên thực tế mỗi model đều có điểm mạnh khác nhau, nên tôi nghĩ không nên nói như thể đang so búa với cờ lê chỉ để phân định hơn kém đơn thuần

    • Tôi đang dùng GLM-5.1 trên pi.dev của Ollama Cloud cho dự án cá nhân và khá hài lòng. Ở công ty, tôi dùng kết hợp pi.dev với Claude Sonnet và Opus 4.6. Claude Code cũng tốt, nhưng từ sau bản cập nhật gần đây thì phải compact quá thường xuyên nên khá bất tiện. Khi dùng pi.dev, tôi không thấy thiếu thốn dù không có MCP tool calling vì tích hợp API vẫn chạy tốt. Thậm chí tôi còn cảm thấy GLM-5.1 làm website tốt hơn Claude Opus, và nó cũng đang làm rất ổn trong nền tảng phát triển full-stack mà tôi đang xây dựng
    • GLM 5.1 là model đầu tiên khiến tôi thật sự cảm thấy các model Trung Quốc đã bắt kịp. Vì vậy tôi đã hủy đăng ký Claude Max, và thành thật là chẳng hề thấy tiếc. Nhìn vào việc ý kiến của mọi người phân hóa như vậy, có vẻ giờ đây chúng ta đã đến giai đoạn mà khác biệt về domain và thói quen sử dụng quan trọng hơn chuyện hơn thua SOTA tuyệt đối
    • Gần như lý do duy nhất khiến tôi vẫn tiếp tục dùng Claude và ChatGPT là vì tool calling. Chúng còn có những tính năng hữu ích như skills nữa. Tôi cũng đã thử qwen và deepseek, nhưng có lúc chúng còn chẳng xuất được tài liệu cho ra hồn. Tôi tò mò không biết mọi người xử lý tài liệu hay Excel bằng các công cụ này như thế nào, và nếu được thì tôi cũng muốn chuyển sang
    • Vài tháng trước, Qwen3-Coder tạo ra code Rust tốt hơn hẳn Claude Opus hay Google Gemini. Tôi đặc biệt ấn tượng vì nó còn sinh ra được code tận dụng cả phần mở rộng vector x86-64 của Rust. Tôi gọi nó qua các harness như Zed editor hay trae CLI, và thật sự rất bất ngờ
    • Điểm benchmark của các model nhìn chung khá giống nhau và chênh lệch cũng nhỏ, nên trong tình huống này tôi nghĩ chọn theo tiêu chí khác sẽ hợp lý hơn. Với tôi thì chỉ cần plugin JetBrains ổn là tôi sẵn sàng chuyển sang bất kỳ vendor nào ngay
  • Tôi đã dùng Claude Code đều đặn ở công ty suốt vài tháng nay, và cách đây không lâu cũng tận dụng tốt cho một dự án website cá nhân nhỏ. Cuối tuần trước tôi còn lần đầu thử self-hosting. Tôi muốn biết có ai đã dùng đủ nhiều CC hay Codex, rồi sau đó tìm được một cấu hình tự host đủ hài lòng hay chưa. Tôi đã thử đủ kiểu kết hợp ollama, docker desktop model runner, pi-coding-agent, opencode với Gemma 4, Qwen, GLM-5.1 trong môi trường 32GB DDR5, AMD 7800X3D, RTX 4090, Windows và WSL. Mức sử dụng RAM nền vốn đã cao nên tôi không chạy được những model tốt như Gemma4-31B. Trong môi trường Windows thuần thì xử lý đường dẫn file hay bị rối, còn cách chạy pi hay opencode trong WSL và chạy model bằng docker desktop thì có phần thành công. Tuy vậy, hiệu năng cảm nhận thực tế vẫn quá chậm so với CC, và độ hoàn thiện công cụ thì phía CC harness cho cảm giác tốt hơn nhiều. Tôi đã tốn quá nhiều thời gian cho việc setup nên chưa dùng thực tế được lâu, nhưng dù sao đây vẫn là một thử nghiệm thú vị

    • Bạn nên thử model MoE và offload suy luận sang CPU. Ví dụ như Gemma 4 26b-a4b hoặc qwen3.6 35b-a3b. 32GB RAM sẽ hơi chật nếu còn mở thêm ứng dụng khác, nhưng nếu system RAM đủ thì chạy vẫn khá ổn. Cũng có cách đưa một phần layer lên GPU, nhưng với tổ hợp model MoE và llama.cpp thì tôi từng gặp vấn đề. Ngược lại, nếu để KV cache trên GPU thì tốc độ khá tốt mà vẫn giữ được context window ở mức hợp lý. Tôi đã thấy kết quả rất ấn tượng khi chạy local. Ngoài ra, tôi rất khuyến nghị tự clone llama.cpp trong WSL2 và giao phần cài đặt, tinh chỉnh cho một frontier model như Claude Code. Các app xây trên llama.cpp thường không lộ hết option và flag, nên chỉ cần sai một flag là hiệu năng có thể tụt mạnh, ví dụ như mất context cache. Nếu build trực tiếp từ source, khi có vấn đề bạn có thể kiểm tra ngay code thật. Với cỗ máy đó thì Gemma 4 ít nhất cũng phải đạt khoảng 20~40tok/s, đủ để dùng thực tế, còn qwen3.6 có 3b tham số hoạt động nên có thể còn nhanh hơn
    • Vấn đề bạn đang gặp có lẽ là do thiếu VRAM, khiến không thể nạp toàn bộ model lên cùng lúc. Bạn cũng có thể thử llmfit
  • Tôi lo rằng lĩnh vực này đang đi theo kiểu trước hết tung ra bản miễn phí để tạo tên tuổi, rồi sau đó chuyển hết sang proprietary. Dù vậy, tôi vẫn mong open weights tiếp tục được phát hành. Nếu đến một ngày không còn ai tung ra open weights nữa thì sẽ thật buồn. Trong một thế giới như vậy, người bình thường có lẽ sẽ càng khó tự sở hữu compute của mình hơn

    • Tôi nghĩ đó là một sự khái quát hóa hơi quá mức. Nhiều model của Mỹ vốn ngay từ đầu đã đóng, còn các model ngoài Mỹ, đặc biệt là model Trung Quốc, thì lại cởi mở hơn ngay từ giai đoạn đầu. Thậm chí phía Trung Quốc còn có những trường hợp ban đầu proprietary rồi sau mới chuyển sang công khai, và trong các model lớn của Qwen cũng từng có ví dụ như vậy
    • Tôi thấy đây giống như một động thái ở tầm chiến lược quốc gia. Họ liên tục công bố các model miễn phí nhưng vẫn cạnh tranh để làm suy yếu moat mà các công ty phương Tây đang cố dựng bằng model proprietary. Chừng nào câu chuyện đó còn có lợi cho Trung Quốc, tôi nghĩ khả năng họ quay sang hoàn toàn proprietary là khá thấp
    • Từ góc nhìn của nhà sản xuất chip, việc duy trì một môi trường nơi chúng ta vẫn có thể chạy model local có lẽ cũng là điều có lợi cho họ
    • Đúng vậy. Tôi nghĩ với các phòng lab Trung Quốc, mã nguồn mở là một dạng chiến lược thương mại. Họ không có nhiều cách marketing hiệu quả khác để quảng bá model và dịch vụ suy luận, nên một phần mới chọn như vậy. Có thể tham khảo bài viết liên quan
    • Tôi có cảm giác cấu trúc này vốn đã tương tự từ trước. Rốt cuộc thì chuyện này cũng khá giống SaaS, chỉ khác là gói thuê bao thấp nhất của các frontier lab hiện nay trông gần như một bản dùng thử miễn phí
  • Hôm nay Kimi K2.6 cũng ra mắt, nên việc so sánh hai bên là khá tự nhiên. Chỉ nhìn giá thôi thì Qwen là 1,3 USD cho input và 7,8 USD cho output, còn Kimi là 0,95 USD cho input và 4 USD cho output, nên Qwen có vẻ đắt hơn. Trong bài công bố chỉ có hai benchmark trùng nhau, nhưng ở cả SWE-Bench Pro lẫn Terminal-Bench 2.0 thì Kimi đều nhỉnh hơn Qwen một chút. Tất nhiên mỗi model có điểm mạnh khác nhau và benchmark không phải là tất cả, nhưng nếu chỉ nhìn vào con số thì phía Kimi có vẻ hấp dẫn hơn

    • Tôi cảm thấy sức hút của các model Trung Quốc đã giảm bớt khi giá bắt đầu tăng. Và từ sau khi Gemma-4 ra mắt, tôi thấy không còn nhiều model nằm lại trên pareto frontier nữa. Cảm nhận của tôi cũng tương tự, và thống kê trên bảng xếp hạng arena cũng đáng tham khảo
  • Tôi thấy điều mỉa mai của lần công bố này nằm ngay trong cái tên. Max-Preview là proprietary và chỉ có trên cloud. Theo tôi, Qwen thực sự quan trọng là dòng open weights mà mọi người chạy trên phần cứng của chính họ. Tôi đang chạy 32B và 72B local bằng dual A4000. Dù vẫn còn khoảng cách với Max bản hosted, nhưng tôi thấy khoảng cách đó thu hẹp dần sau mỗi lần phát hành. Vì thế, câu hỏi thực sự thú vị không phải là Max so với Opus ra sao, mà là khi nào tầng open-weight sẽ khiến tầng cloud trở nên vô nghĩa với phần lớn workload

  • Trong khi mọi người đều chạy theo SOTA, thì tôi đang xử lý toàn bộ công việc coding với MiniMax M2.5 bằng nhiều phiên song song, chỉ tốn 10 USD mỗi tháng và gần như không vướng giới hạn nào

    • Nếu là công việc nghiêm túc, tôi nghĩ chênh lệch giữa 10 USD và 100 USD mỗi tháng với đa số lập trình viên chuyên nghiệp không phải điều đáng bận tâm. Có thể có ngoại lệ như sinh viên hay người dùng ở quốc gia thu nhập thấp, nhưng tôi luôn thấy lạ khi lập trình viên lương cao lại quá tiết kiệm chi phí công cụ. Ngay cả các model SOTA hiện tại tôi cũng thấy chưa đủ đáng tin cho những việc vượt quá tác vụ dùng một lần, nên việc phải giám sát thêm một model kém hơn chỉ để tiết kiệm 10~100 USD mỗi tháng hoàn toàn không hấp dẫn. Tôi vẫn thích thử nghiệm model self-hosted với các tác vụ nhẹ, bỏ cũng không sao, nhưng với công việc quan trọng thực sự thì tôi không muốn lãng phí thời gian của mình
    • Tôi tò mò không biết 10 USD mỗi tháng đó trả ở đâu. Muốn hỏi xem có phải OpenRouter không
    • Tôi muốn biết bạn dùng nó thực tế như thế nào. Bạn có dùng opencode hay là một frontend khác?
  • Tôi cũng đã xem tài liệu context caching của Qwen rồi thử cùng lúc Opus, Codex và Qwen, và đúng là Qwen tỏ ra mạnh trong nhiều tác vụ coding. Tuy vậy, điều tôi quan tâm nhất là cách nó hoạt động trong các phiên kéo dài. Qwen quảng bá context window lớn, nhưng hiệu quả long-context thực tế dường như phụ thuộc rất nhiều vào cách làm context caching. Theo tài liệu chính thức, họ hỗ trợ cả implicit lẫn explicit caching, nhưng TTL chỉ ngắn ở mức vài phút, lại còn có các ràng buộc như matching theo prefix và điều kiện số token tối thiểu. Vì những ràng buộc đó, trong các workflow mà ngữ cảnh liên tục phình ra như coding agent, việc tái sử dụng cache có thể không hiệu quả như kỳ vọng. Thành ra dù giá theo token trông có vẻ thấp, trong các phiên dài thì cache hit rate có thể giảm, việc tính toán lại tăng lên, và chi phí cảm nhận thực tế lại cao hơn. Dù vậy, với các tác vụ liên quan đến bảo mật thì cá nhân tôi từng thấy Qwen làm tốt hơn Opus. Theo kinh nghiệm của tôi, Qwen làm tốt hơn Opus rất nhiều ở các tác vụ ngắn như mức method hay function riêng lẻ, nhưng xét toàn bộ trải nghiệm coding thì nó giống một trình sinh ở cấp hàm hơn là một trợ lý coding tự động end-to-end như Claude

    • Dù vậy thì đúng là chia các phiên dài thành những phiên ngắn hơn và bắt đầu lại từ đầu vẫn là best practice. Trong Claude Code Best Practices của Anthropic cũng có nói rằng “một phiên mới sạch sẽ với prompt tốt hơn gần như luôn tốt hơn một phiên dài đã tích lũy nhiều chỉnh sửa”
    • Lần cuối tôi kiểm tra thì context caching chỉ giúp giảm chi phí và độ trễ, chứ không thay đổi việc model sẽ sinh ra token nào
  • Khi phía Qwen đem so với Opus 4.5, tôi thấy hơi khó để tiếp nhận điều đó một cách thiện chí. Tôi hiểu chuyện bỏ qua Opus 4.7 vì nó còn quá mới, nhưng Opus 4.6 thì đã ra được một thời gian khá lâu rồi

    • Với tôi, Opus 4.5 là điểm đầu tiên mà model cho cảm giác đủ ổn trên nhiều loại vấn đề. Trước đó, dùng AI cho công việc phát triển luôn khiến tôi mất thêm thời gian vì hallucination, nên không phải lựa chọn hiệu quả. Nhưng nếu sự tiến bộ có dừng lại ở Opus 4.5 thì tôi vẫn nghĩ chúng ta đã có thể tăng tốc một lượng rất lớn công việc thực tế. Giờ thì phần mềm có lẽ sẽ không quay lại thời kỳ hoàn toàn hand-code nữa. Vì vậy, nếu có thứ gì đó ngang hoặc chỉ nhỉnh hơn chút so với Opus 4.5 mà giá chỉ bằng một phần mười thì với nhiều người đã là rất hấp dẫn. Tất nhiên, với lập trình viên ở phương Tây thì việc trả hơn 100 USD mỗi tháng cho Opus 4.7 vẫn rất đáng giá, vì thời gian bị lãng phí bởi model hạng thấp còn đắt hơn nhiều. Trong thời gian tới tôi vẫn định tiếp tục trả premium cho những model ít làm tôi mất thời gian hơn, cần ít chỉnh prompt hơn mà cho kết quả tốt hơn. Đồng thời, tốc độ thay đổi thật sự đáng kinh ngạc, và gần đây tôi cảm thấy model mở cũng đã tiến tới mức có thể cạnh tranh với frontier model của 2 năm trước. Qwen 3.6 MoE 35B A3B hay các model Gemma 4 lớn đều có thể chạy trên phần cứng khá bình thường như Macbook mạnh, Strix Halo, hay GPU 24GB hoặc 32GB đời gần đây, mà cũng không đắt hơn laptop lập trình viên thời pre-AI là bao. Chúng viết code được, viết lách cũng khá ổn, biết dùng công cụ, và độ dài ngữ cảnh cũng đủ cho thực chiến. Chúng chưa tới mức Opus 4.5, nhưng vẫn rất ấn tượng. Tôi cũng đã trộn nhiều model cho bảo mật và code review, và dù với phần lớn công việc phát triển phần mềm tôi vẫn thấy Claude Code và Opus là tốt nhất, tôi vẫn sẵn sàng thử Qwen. Các model nhỏ của họ cũng rất tốt so với kích cỡ, nên tôi kỳ vọng model lớn cũng vậy
    • Nếu tiền hoàn toàn không thành vấn đề thì cuối cùng cứ nhìn vào hiệu năng cao nhất như Codex 5.4 hay Opus 4.7 là được. Nhưng với rất nhiều người, chất lượng so với chi phí là biến số cực lớn. Ngay cả trong số người đăng ký Claude cũng có nhiều người không thể lúc nào cũng dùng Opus 4.7 vì áp lực chi phí và giới hạn usage, nên phải dùng Sonnet hoặc Opus cũ. Vì vậy nếu nhìn theo đường cong giá trị trên chất lượng, thì kiểu so sánh này hoàn toàn có ý nghĩa
    • Trong vài tháng gần đây, hiệu năng của Opus 4.6 quá thất thường nên tôi không muốn lãng phí token vào nó
    • Khi Sonnet 4.6 ra mắt, tôi đã chuyển model mặc định từ Opus sang Sonnet. Cảm nhận của tôi là Sonnet 4.6 gần với mức Opus 4.5. 4.6 và 4.7 tốt hơn thật, nhưng ở đa số tác vụ thì mức nhảy không quá lớn, nên bây giờ tiết kiệm chi phí đã là một lựa chọn hoàn toàn hợp lý. Nếu các model rẻ hơn đạt được mức đó thì còn đáng kể hơn nữa, và GLM 5.1 trông cũng khá gần rồi nên tôi dùng nó khá nhiều. Từ góc nhìn đó thì việc so với Opus 4.5 cũng là hợp lý
    • Tôi nghĩ so sánh thì nên đặt giữa những đối tượng tương đồng nhất. Và khi benchmark do chính nhà cung cấp công bố, đương nhiên họ có thể chọn các framework mà model của họ làm tốt rồi bỏ đi những cái bất lợi. Vì vậy cuối cùng thứ đáng tin vẫn là benchmark độc lập
  • Gần đây nhìn vào các nhà cung cấp Trung Quốc, tôi thấy có một mô thức. Thứ nhất là họ đang nghiêng sang giữ model ở dạng closed source, và thứ hai là họ tăng giá khá mạnh. Trong một số trường hợp còn tăng gần 100%

    • Nói như thể đó là đặc điểm riêng của doanh nghiệp Trung Quốc thì nghe hơi lạ. Tôi thấy công ty ở nước khác cũng chẳng khác gì
    • Qwen max vốn từ đầu đã là cloud only, và với model hơn 1T thì chi phí cao là điều khó tránh
    • Tôi muốn hỏi ngược là chuyện tăng giá mạnh ấy có gì khác với các hãng Mỹ
    • Tôi muốn hỏi liệu nhận xét đó có áp dụng cho các model như GLM 5.1, DeepSeek V3.2 hay Kimi K2.6 mới ra không. Xét kỹ thì có vẻ không khớp lắm với những ví dụ đó
    • Phản ứng đầu tiên của tôi là các công ty Mỹ chẳng phải cũng rất thích chiêu này sao
  • Điều thú vị là bạn có thể biết rất rõ cả họ model Qwen chạy local, nhưng lại hoàn toàn không biết gì về phía model cloud. Tôi chỉ biết các dòng 3.5 và một bản 3.6 nào đó, còn cái tên Plus thì đây là lần đầu tiên tôi nghe thấy

    • Nếu tôi nhớ không nhầm thì dòng Plus đã có từ lúc Qwen chat được công bố. Ít nhất tôi nhớ là mình từng dùng model Plus trực tiếp vào đầu năm ngoái