7 điểm bởi GN⁺ 19 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Qwen3.6-Plus là mô hình nâng cấp quy mô lớn được công bố sau Qwen3.5, tăng cường mạnh mẽ năng lực lập trình kiểu tác nhânhiệu năng suy luận đa phương thức
  • Hỗ trợ cửa sổ ngữ cảnh 1M token và có thể dùng ngay qua Alibaba Cloud Model Studio API
  • Ghi nhận hiệu năng hàng đầu ngành ở các benchmark về lập trình, ngôn ngữ, đa phương thức và tác nhân, đồng thời cải thiện khả năng quản lý mã phức tạp và thực hiện kế hoạch dài hạn
  • Thông qua tùy chọn preserve_thinking, mô hình duy trì ngữ cảnh suy luận và hỗ trợ tích hợp với nhiều tác nhân lập trình như OpenClaw, Claude Code, Qwen Code
  • Tiến hóa thành AI tác nhân đa phương thức có thể thực hiện từ nhận thức thị giác đến ra quyết định hành động, với mục tiêu mở rộng tiếp theo là mã nguồn mở các mô hình nhỏ và siêu tác nhân tự chủ cao

Tóm tắt các tính năng và hiệu năng chính của Qwen3.6-Plus

  • Qwen3.6-Plus là phiên bản nâng cấp quy mô lớn được công bố sau dòng Qwen3.5, một mô hình được tăng cường đáng kể về năng lực lập trình kiểu tác nhânhiệu năng suy luận đa phương thức
  • Có thể sử dụng ngay qua API của Alibaba Cloud Model Studio, đồng thời cung cấp sẵn cửa sổ ngữ cảnh 1M token
  • Phản ánh phản hồi từ cộng đồng để cải thiện độ ổn định và độ tin cậy, đồng thời hướng tới trải nghiệm “vibe coding” trong môi trường phát triển thực tế

Đánh giá hiệu năng

  • Ghi nhận hiệu năng thuộc nhóm tốt nhất cùng hạng ở nhiều benchmark về ngôn ngữ, lập trình, đa phương thức và tác nhân
  • Trong lĩnh vực tác nhân lập trình, mô hình đạt kết quả tương đương hoặc vượt các mô hình dẫn đầu ngành ở các benchmark chính như SWE-bench, Terminal-Bench và Claw-Eval
  • Ở mảng tác nhân tổng quát và sử dụng công cụ, mô hình cho thấy cải thiện toàn diện trên TAU3-Bench, DeepPlanning và MCPMark
  • Cũng lập kỷ lục mới ở các hạng mục như suy luận STEM, trích xuất thông tin từ văn bản siêu dài và khả năng thích ứng đa ngôn ngữ
  • Mô hình tích hợp chặt chẽ suy luận logic, bộ nhớ và thực thi công cụ, qua đó tăng cường năng lực giải quyết vấn đề trong thế giới thực như quản lý mã phức tạp hay lập kế hoạch dài hạn

Hiệu năng đa phương thức

  • Nhờ suy luận đa phương thức nâng cao, mô hình đạt tiến bộ lớn trong hiểu tài liệu, phân tích thế giới vật lý, suy luận video và lập trình thị giác
  • Xét về khả năng ứng dụng thực tế, mô hình thể hiện hiệu năng ổn định trong môi trường kinh doanh thực, bao gồm nhận diện văn bản, nhận diện đối tượng và nhận thức thị giác chính xác cao
  • Thông qua tích hợp thị giác-ngôn ngữ, mô hình phát triển vượt ra ngoài hiệu năng cho từng tác vụ đơn lẻ để trở thành AI tác nhân lấy quy trình làm trung tâm
  • Trên nhiều benchmark như RealWorldQA, OmniDocBench, CountBench và VideoMME, mô hình cho thấy kết quả cạnh tranh với GPT5.2, Claude 4.5 và Gemini-3 Pro

API và tích hợp phát triển

  • Alibaba Cloud Model Studio API hỗ trợ giao thức tương thích OpenAI và Anthropic
  • Bổ sung tùy chọn API mới preserve_thinking
    • Giữ lại nội dung suy luận từ các cuộc hội thoại trước để cải thiện tính nhất quán của các tác vụ kiểu tác nhânhiệu quả token
    • Mặc định bị vô hiệu hóa (false), và khi bật sẽ giữ toàn bộ ngữ cảnh suy luận
  • API có thể được sử dụng thông qua endpoint tương thích OpenAI chat.completions, và có cung cấp mã ví dụ

Tích hợp lập trình và tác nhân

  • Qwen3.6-Plus có thể tích hợp với các trợ lý lập trình bên thứ ba như OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline, OpenCode
  • Tăng cường khả năng xử lý các dự án phức tạp như cảnh 3D, game và thiết kế web trong phát triển frontend
  • Tích hợp OpenClaw

    • Đây là tác nhân lập trình AI mã nguồn mở tự lưu trữ; khi kết nối với Model Studio, nó cung cấp môi trường lập trình kiểu tác nhân dựa trên terminal
    • Có thể sử dụng bằng cách thêm mô hình Qwen3.6-Plus vào tệp cấu hình (openclaw.json)
    • Mô hình hỗ trợ bật suy luận, đầu vào văn bản và hình ảnh, cùng cửa sổ ngữ cảnh 1M
  • Tích hợp Qwen Code

    • Tác nhân lập trình AI dạng terminal mã nguồn mở được tối ưu cho dòng Qwen
    • Hỗ trợ hiểu codebase phức tạp, tự động hóa tác vụ lặp lại và triển khai nhanh
    • Sau khi cài đặt trong môi trường Node.js, có thể xác thực bằng lệnh /auth
  • Tích hợp Claude Code

    • Nhờ tương thích với giao thức Anthropic API, có thể sử dụng Qwen3.6-Plus ngay trong Claude Code CLI
    • Chạy sau khi thiết lập tên mô hình (qwen3.6-plus) và endpoint API qua biến môi trường

Tác nhân thị giác và mở rộng đa phương thức

  • Tiếp tục tăng cường lộ trình phát triển từ nhận thức thị giác → suy luận đa phương thức → thực thi tác nhân
  • Không chỉ nhận diện đơn thuần mà còn có thể phân tích quan hệ trong thông tin thị giác và đưa ra quyết định hành động
  • Hỗ trợ các tác vụ thị giác thực tiễn như hiểu tài liệu, phân tích biểu đồ, nhận diện UI và xác định vị trí chính xác
  • Trong lĩnh vực hiểu video, mô hình có thể xử lý thông tin theo thời gian và quan hệ giữa các khung hình để phân tích nội dung động
  • Trong các kịch bản tác nhân GUI, mô hình nhận diện trạng thái màn hình và thực hiện lập kế hoạch nhiều bước cùng thực thi

Kế hoạch sắp tới

  • Qwen3.6-Plus là phiên bản đạt tiến bộ thực chất về lập trình kiểu tác nhânAI đa phương thức, đồng thời củng cố nền tảng cho hệ sinh thái nhà phát triển
  • Sắp công bố toàn bộ dòng Qwen3.6mã nguồn mở các mô hình nhỏ
  • Về dài hạn, mục tiêu là phát triển thành siêu tác nhân tự chủ cao có thể thực hiện các tác vụ dài hạn phức tạp ở cấp độ repository

1 bình luận

 
Ý kiến trên Hacker News
  • Mô hình lần này chỉ dành cho hosted, nên không phải open weight
    Trước đây họ có danh tiếng tốt nhờ các mô hình mở, nhưng giờ sẽ khó chuyển hướng để được nhìn nhận là đối thủ của Claude hay ChatGPT
    Thực ra việc công bố miễn phí các mô hình nhỏ không phải là hào phóng mà là chiến lược quảng bá
    Việc so sánh với 4.5 thay vì Opus 4.6 cũng có vẻ như cố tình gây hiểu lầm
    Dù vậy, thị trường mô hình giá rẻ dù không đạt mức SOTA vẫn khá lớn
    Chỉ là thị trường này có độ trung thành với thương hiệu thấp, nên hễ có mô hình tốt hơn một chút là người ta sẵn sàng đổi ngay

    • Họ nói sau này sẽ công bố “các biến thể nhỏ”, nhưng chưa có chi tiết cụ thể
      Cũng chưa rõ liệu sẽ có biến thể cỡ 300B như Qwen 3.5 hay không. Blog chính thức cũng không nhắc tới
    • À, vậy ra đó là lý do gần đây có chuyện thành viên nhóm Qwen rời đi
    • Gần đây tôi lại tò mò hơn về khả năng sinh lời của các mô hình kiểu này
      Mô hình mở ngày càng nhiều, lại chạy được trên phần cứng giá rẻ, nên tôi tự hỏi các công ty AI sẽ bảo vệ biên lợi nhuận bằng cách nào
    • Thực tế tôi thấy Opus 4.5 còn tốt hơn 4.6
      4.6 đơn thuần là một bản cập nhật để cắt giảm chi phí, chỉ tinh chỉnh benchmark để trông có vẻ tốt hơn thôi
    • Khi dùng nhiều mô hình trong production, “tính cách (personality)” của mô hình rất quan trọng
      Ví dụ như biết làm đúng chỉ dẫn, không lãng phí token và không đi chệch khỏi kịch bản
      Các mô hình Trung Quốc khá cạnh tranh ở điểm này và cho chất lượng tương tự với giá rẻ hơn 70~90%
  • Tôi hiểu vì sao Qwen lại so sánh với Opus 4.5 hay Gemini Pro 3.0
    Nhưng gọi đó là mang tính lừa dối thì tôi thấy hơi quá
    Mô hình AI mỗi quý lại có phiên bản mới, nhưng đâu phải ai cũng quên hết hiệu năng của thế hệ trước
    Tôi đã dùng GLM-5 và Kimi K2.5, thấy khá ổn. Nếu mô hình Qwen lần này đạt tầm đó thì cũng rất ấn tượng
    Qwen 3.5-plus hay 3-Max vốn cũng đã là mô hình không công khai rồi, nên đây không phải lần đầu
    Dù là mô hình đóng thì vẫn đáng tiếc, nhưng cuộc cạnh tranh hướng tới SOTA cuối cùng vẫn có lợi cho người dùng

    • Vấn đề không chỉ là đối tượng được đem ra so sánh mà còn là sự chân thành trong cách so sánh
      Nó giống như Apple ra iPhone mới rồi đi so với Android đời cũ, nên làm giảm niềm tin
    • Opus 4.5 vốn đã đủ tốt rồi
      Hơn nữa, Opus 4.5 là $25 cho mỗi token đầu ra, còn mô hình này chỉ ở mức $6, tức bằng 1/4 giá
  • Tôi đã có được một đầu ra Pelican khá ổn
    Tôi tạo nó bằng API của Alibaba Cloud Model Studio, cần đăng ký tài khoản và liên kết PayPal
    Nhưng hiện tại có thể dùng miễn phí trên OpenRouter

    • Có người đùa rằng Pelican đang đuổi theo nhóm bám đuôi (drafting peloton)
    • Cũng có câu đùa rằng sắp tới họ sẽ huấn luyện chim bồ nông đi xe đạp. Kiểu “benchmark toàn cầu” gì đó
  • Tôi muốn nói với những ai nghĩ rằng các viện nghiên cứu Trung Quốc sẽ ngừng open source
    Điều đó có lẽ sẽ không xảy ra
    Ví dụ, hãy thử đăng ký gói coding của Z.ai mà xem — gần như bất khả thi
    Họ thiếu năng lực marketing, nên ngoài việc phát hành mô hình mở thì gần như không có cách nào để duy trì sự hiện diện
    Họ cũng phụ thuộc vào các kênh phân phối như OpenRouter hay OpenCode để bán hàng
    Cuối cùng, open source hóa không phải là chiến lược quốc gia mà là phương tiện thương mại hóa duy nhất

    • Cũng có người đùa rằng: “Thế sao không để mô hình tự làm marketing?”
      Nếu ngay cả tự quảng bá cũng không làm được, thì đó có thể là dấu hiệu của giới hạn năng lực
  • Mô hình lần này, khác với phần lớn các mô hình Qwen, là không công khai trọng số, và cả số lượng tham số cũng không được công bố
    Hơn nữa Opus 4.6 đã ra mắt từ hai tháng trước, nên việc so với 4.5 khá kỳ lạ

    • Ở đoạn cuối blog có nói rằng họ sẽ sớm công bố open source các biến thể cỡ nhỏ
      Nguồn
    • Nếu Opus 4.6 mới ra mắt hai tháng trước, thì cũng có thể Qwen vẫn chưa hoàn tất bài test so sánh
    • Thực ra các mô hình -MAX hay -Omni của Qwen vốn dĩ đã là mô hình không công khai
  • Tôi không nghĩ việc so với Opus 4.5 là vấn đề lớn đến vậy
    So với những mô hình tôi đã quen dùng thực ra còn hữu ích hơn
    Nếu muốn hiệu năng cao nhất thì tôi sẽ dùng mô hình khác, nhưng nếu đang tìm một lựa chọn giá rẻ có chất lượng tương đương thì điều này hoàn toàn có ý nghĩa

    • Nếu có thể đạt hiệu năng cỡ Opus 4.5 mà lại miễn phí, thì rất đáng để chú ý
      Dù không dùng cho tính năng cốt lõi của ứng dụng, nó vẫn đủ tốt cho những phần ít quan trọng hơn
    • Thành thật mà nói, Opus 4.6 hay GPT 5.4 gần như không có khác biệt cảm nhận được so với thế hệ trước
      Nếu có thể dùng hiệu năng cỡ 4.5 với 1/10 chi phí, tôi sẽ chọn như vậy
  • Kết quả benchmark tác tử khá thú vị, nhưng tôi tò mò Qwen3.6-Plus có khả năng phục hồi lỗi đến đâu
    Phần lớn các bài test chỉ xử lý “happy path”,
    nhưng trong thực tế, điều quan trọng là liệu nó có mắc lỗi ở bước 3 rồi quay lại được ở bước 15 hay không
    Tôi muốn biết có ai đã làm kiểu stress test này trong workflow phát triển thực tế chưa

  • Tôi mong các nhà cung cấp AI ngừng kiểu marketing so sánh với mô hình thế hệ trước của đối thủ
    Chẳng ai bị lừa đâu, chỉ làm giảm độ tin cậy thương hiệu một cách không cần thiết
    Bản thân mô hình Qwen thì rất tốt, nên thật tiếc khi danh tiếng của nó bị ảnh hưởng bởi chiến lược so sánh như vậy

  • Thực ra từ trước đến nay Qwen vẫn vận hành các phiên bản Plus và Max theo dạng không công khai
    Vì vậy cách công bố lần này không phải là điều gì mới

  • Qwen 3.6 Plus có vẻ chỉ là phiên bản tinh chỉnh của 3.5 Plus
    Liên kết so sánh