Qwen3.5: Hướng tới tác tử đa phương thức native

(qwen.ai)

6 điểm bởi GN⁺ 2026-02-17 | 1 bình luận | Chia sẻ qua WhatsApp

Qwen3.5-397B-A17B là mô hình hợp nhất ngôn ngữ-thị giác, cho thấy hiệu năng xuất sắc trên các mảng suy luận, lập trình, tác tử và hiểu đa phương thức nói chung
Kiến trúc lai kết hợp linear attention dựa trên GDN và sparse MoE, chỉ kích hoạt 17 tỷ trong tổng số 397 tỷ tham số, đồng thời đạt được hiệu quả suy luận và giảm chi phí
Hỗ trợ ngôn ngữ và phương ngữ được mở rộng từ 119 lên 201, tăng khả năng tiếp cận cho người dùng toàn cầu và củng cố năng lực xử lý đa ngôn ngữ
Qwen3.5-Plus, được cung cấp qua Alibaba Cloud Model Studio, mặc định hỗ trợ cửa sổ ngữ cảnh 1 triệu token và khả năng sử dụng công cụ thích ứng
Nhờ mở rộng môi trường học tăng cường và thiết kế hạ tầng hiệu quả, mô hình đảm bảo độ ổn định và khả năng mở rộng cho huấn luyện và suy luận tác tử đa phương thức quy mô lớn

Tổng quan về Qwen3.5

Qwen3.5 là mô hình hợp nhất thị giác-ngôn ngữ, thể hiện hiệu năng nổi bật trên nhiều benchmark như suy luận, lập trình, tác tử và hiểu đa phương thức
- Tên mô hình Qwen3.5-397B-A17B, chỉ kích hoạt 17 tỷ trong tổng số 397 tỷ tham số
- Kết hợp linear attention dựa trên Gated Delta Networks và kiến trúc sparse Mixture-of-Experts để tối ưu tốc độ và chi phí
Hỗ trợ ngôn ngữ được mở rộng từ 119 lên 201, cải thiện khả năng tiếp cận đa ngôn ngữ
Qwen3.5-Plus được cung cấp trong Alibaba Cloud Model Studio,
- Bao gồm cửa sổ ngữ cảnh 1M, công cụ tích hợp chính thức và khả năng sử dụng công cụ thích ứng

Đánh giá hiệu năng

Khi so sánh với các mô hình mới nhất như GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- Ghi nhận điểm số cạnh tranh trên tất cả các lĩnh vực gồm ngôn ngữ, suy luận, lập trình, tác tử và đa phương thức
Ở đánh giá ngôn ngữ, mô hình đạt hiệu năng nhóm đầu với MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5
Ở đánh giá thị giác-ngôn ngữ, mô hình đạt điểm cao trên MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1
Năng lực hiểu đa phương thức và giải quyết bài toán STEM được cải thiện so với Qwen3-VL
Việc mở rộng môi trường học tăng cường giúp cải thiện hiệu năng tác tử tổng quát, với thứ hạng trung bình tốt hơn trên BFCL-V4 và VITA-Bench

Tiền huấn luyện (Pretraining)

Power: So với Qwen3, mô hình được huấn luyện với lượng token thị giác-văn bản lớn hơn, đồng thời tăng cường dữ liệu đa ngôn ngữ, STEM và suy luận
- Qwen3.5-397B-A17B đạt hiệu năng tương đương mô hình cỡ 1T tham số (Qwen3-Max-Base)
Efficiency: Dựa trên kiến trúc Qwen3-Next, áp dụng MoE thưa, Gated DeltaNet và dự đoán đa token
- Ở ngữ cảnh 32k/256k, đạt thông lượng giải mã cao hơn 8,6 lần/19 lần so với Qwen3-Max
Versatility: Hợp nhất sớm văn bản-thị giác để xử lý đa phương thức tự nhiên hơn,
- Quy mô từ vựng tăng lên 250.000 (từ 150.000), giúp cải thiện hiệu quả mã hóa/giải mã từ 10~60%

Hạ tầng và khung huấn luyện

Hạ tầng dị thể tách biệt chiến lược song song giữa thị giác và ngôn ngữ hỗ trợ huấn luyện đa phương thức hiệu quả
- Tận dụng kích hoạt thưa để đạt hiệu quả xử lý gần 100% ngay cả với dữ liệu trộn văn bản, hình ảnh và video
Pipeline FP8 tối ưu độ chính xác cho kích hoạt, định tuyến MoE và phép toán GEMM
- Giảm 50% mức dùng bộ nhớ, tăng hơn 10% tốc độ
Xây dựng khung học tăng cường bất đồng bộ để hỗ trợ huấn luyện mô hình văn bản, đa phương thức và đa lượt
- Với huấn luyện end-to-end FP8, speculative decoding, multi-turn rollout locking v.v.
  tăng tốc xử lý 3~5 lần và đảm bảo khả năng mở rộng ổn định

Ứng dụng và tích hợp

Qwen Chat cung cấp các chế độ Auto, Thinking và Fast
- Auto: tự động dùng công cụ và tư duy thích ứng
- Thinking: suy luận chuyên sâu
- Fast: phản hồi tức thì
Qua ModelStudio API, có thể kích hoạt các tính năng reasoning, web search và Code Interpreter
- Điều khiển bằng các tham số enable_thinking, enable_search
Tích hợp với Qwen Code, OpenClaw v.v. để hỗ trợ lập trình bằng ngôn ngữ tự nhiên và sáng tạo đa phương thức

Demo và ứng dụng thực tế

Phát triển Web: tạo mã giao diện web và UI bằng lệnh ngôn ngữ tự nhiên
Visual Agent: thực hiện thao tác tự động trên smartphone và PC bằng ngôn ngữ tự nhiên
Visual Coding: với đầu vào 1 triệu token, có thể xử lý video dài tối đa 2 giờ,
- Hỗ trợ chuyển UI vẽ tay thành mã, tóm tắt video v.v.
Spatial Intelligence: cải thiện độ chính xác trong đếm đối tượng, quan hệ vị trí và mô tả không gian
- Gợi mở khả năng ứng dụng cho xe tự hành và robotics
Visual Reasoning: cải thiện so với Qwen3-VL trong giải quyết vấn đề khoa học và suy luận logic trực quan

Tóm tắt và định hướng tiếp theo

Qwen3.5, dựa trên kiến trúc lai hiệu quả và suy luận đa phương thức native,
đặt nền móng cho việc xây dựng tác tử số đa dụng
Mục tiêu tiếp theo là chuyển từ mở rộng mô hình sang tích hợp hệ thống
- Phát triển hệ thống tác tử tự chủ và liên tục với bộ nhớ bền vững, giao diện thế giới thực, khả năng tự cải thiện và ra quyết định kinh tế

1 bình luận

GN⁺ 2026-02-17

Ý kiến trên Hacker News

Khá thú vị khi trong LLM challenge hôm nay lại chọn câu “drive the car to the wash”
- Điều khiến tôi tò mò hơn cả hiệu năng là làm sao tìm ra một cách lấy mẫu thống kê có hệ thống cho những “câu hỏi gây bối rối” kiểu này, và đo xem chúng xuất hiện thường xuyên đến mức nào ở từng LLM
  Vì LLM đã tiêu thụ gần như toàn bộ corpus, rất khó phân biệt liệu sự cải thiện là do học thực sự, hay chỉ đơn giản là dán thêm một kiểu ‘giấy note’
  Cần có cách khiến vấn đề được diễn đạt bằng ngôn ngữ tự nhiên nhưng lại trông như một bài toán ‘được mã hóa’ đối với LLM
  Ví dụ, có thể kiểm thử bằng cách để một trình tạo chương trình LUA đơn giản sinh mã ngẫu nhiên, dịch nó sang tiếng Anh rồi yêu cầu LLM dự đoán kết quả, sau đó so sánh với đầu ra thực tế khi chạy
  Cách tiếp cận này gợi cảm giác như một dạng kịch bản chiến tranh thông tin
- Tác nhân OpenClaw AI của tôi phản ứng đùa rằng: “Có bộ não to bằng cả hành tinh mà con người lại đi hỏi kiểu này, thật không hài lòng chút nào”
- Tôi cũng tò mò không biết kết quả sẽ thay đổi ra sao nếu sửa câu hỏi một chút, hoặc thay ô tô bằng xe đạp, xe tải, tàu thuyền hay máy bay
- Đó là câu trả lời của Gemini assistant. Các model khác không tái hiện được
- Nó giống như một lỗi nhỏ phát sinh từ phản ứng System 1 của con người. Có thể học liên tục (Continual learning) sẽ là lời giải
Với ai quan tâm, tôi đã đưa MXFP4 GGUFs lên Hugging Face, và hướng dẫn chạy được tổng hợp trong tài liệu unsloth.ai
- Tôi tò mò liệu chạy model quantization độ chính xác thấp 2~3 bit có hiệu quả hơn model 8~16 bit hay không. Tôi thiếu VRAM nên khó thử nghiệm
Pelican thì ổn, nhưng không phải là một chiếc xe đạp tốt — xem ví dụ liên quan
- Tôi tò mò không biết từ lúc bắt đầu đến giờ người ta đã hiểu thêm được bao nhiêu về pelican
- Có lẽ giờ ví dụ Pelican đó đã nằm trong phần lớn các bộ dữ liệu huấn luyện. Sẽ hay nếu có thể tạo một thử thách SVG mới để khiến cả Gemini 3 Deep Think cũng thất bại
- Tôi thích điểm màu trên sàn trong hình được tạo ra
- Tôi tò mò không biết sau bao nhiêu lần sinh thử thì họ quyết định công bố ví dụ cuối cùng theo tiêu chí nào
- Tôi muốn biết họ đã dùng phương thức quantization nào, hay đó là phiên bản API chính thức
Nếu Qwen 3.5 được phát hành ở cỡ 80~110B thì có vẻ sẽ vừa khít với một thiết bị 128GB. Qwen3-Next là 80B nhưng không có vision encoder
- Các model open-weight đang ngày càng lớn hơn, nên cũng đáng cân nhắc mua thêm một thiết bị 128GB nữa
- Tôi tò mò vì sao lại là 128GB. Với model 80B thì hai chiếc A6000 chẳng phải cũng đủ sao? Muốn biết họ đang nói đến thiết bị nào
Hơi tiếc khi chỉ công bố model flagship mà không có bản distill nhỏ. Qwen trước đây ra nhiều kích cỡ nên rất thích
- Nhìn vào mã HF Transformers thì có vẻ khả năng cao các bản dense nhỏ cũng sẽ sớm xuất hiện
- Theo GitHub chính thức của Qwen, sẽ sớm có thêm nhiều kích cỡ được phát hành, kèm cả lời chúc năm mới
- Có thể việc thêm tính năng multimodal đã khiến quá trình distill trở nên khó hơn
Tết năm ngoái tôi còn không tưởng tượng nổi rằng một model cỡ Sonnet 4.5 có thể chạy nhanh cục bộ, mà giờ biết đâu điều đó sẽ khả thi trên MacBook Pro M5 Max năm 2026
- Tôi không kỳ vọng quá nhiều. Theo tin đồn, có vẻ họ đã tận dụng model Frontier để khớp benchmark
- Dùng thực tế mới thấy độ chênh giữa benchmark và cảm nhận hiệu năng rất lớn. Qua quantization thì hiệu năng còn giảm thêm. Chưa tự dùng thì khó mà tin được
- Tôi hy vọng Trung Quốc sẽ tiếp tục tung ra các model lớn open-weight. Tôi muốn dùng model được host trên GPU máy chủ hơn là chạy cục bộ. Sau đó vẫn có thể distill mà
- Tôi cũng tò mò liệu MacBook M5 năm 2026 có được trang bị hơn 390GB RAM hay không
- Cách nói ‘nhanh’ có vẻ hơi cường điệu. Có thể xử lý được tính toán đơn giản, nhưng việc phức tạp thì khó. NVIDIA đứng số 1 là có lý do
Qwen là một model mở rất mạnh, đặc biệt dòng visual của họ rất ấn tượng
Trong một báo cáo AI có nhắc rằng Fennec (Sonnet 5) sẽ ra mắt vào ngày 4 tháng 2, nhưng thực tế đó là kết quả pha trộn giữa tin đồn và ảo giác (hallucination) của công cụ tin tức AI. Một ví dụ khá thú vị
- Vừa mở trang đó ra là PDF tự động tải xuống, làm tôi giật mình. Lại còn có nhắc đến Sonnet 5 nên càng rối hơn, tôi còn tưởng đó là tài liệu test nội bộ
Blog của Qwen có vấn đề không tải được. Tắt trình chặn quảng cáo rồi mà vẫn chỉ thấy placeholder
- Trên Safari iOS thì phải bật thiết lập “giảm các tính năng bảo vệ quyền riêng tư khác” thì mới tải được
Tôi tò mò cụ thể 15.000 môi trường RL mà họ nhắc tới là những gì. Vài trăm thì còn hiểu được, chứ hơn nữa thì khó hình dung
- Theo tin đồn, họ tải toàn bộ repo trên GitHub rồi phân loại thành các môi trường, tự động đánh giá khả năng build, độ phức tạp, mức độ hoàn thành mục tiêu, v.v. Ví dụ có thể cấu thành môi trường RL dựa trên mục tiêu bằng cách để LLM chèn bug, làm test thất bại rồi tự sửa lại
- Trên thực tế, gần như mọi hệ thống tương tác đều có thể trở thành môi trường RL. Nếu có thể tự động thực hiện hành động trong CLI, GUI, API, v.v. và đo chất lượng kết quả, thì có thể tạo ra vòng lặp huấn luyện
Dạo này ai cũng chỉ tập trung vào điểm benchmark, nhưng điều thực sự quan trọng là liệu model có thể giữ được ngữ cảnh khi dùng công cụ nhiều bước hay không
Phần lớn model mở vẫn sụp ở chỗ này

Qwen3.5: Hướng tới tác tử đa phương thức native

Tổng quan về Qwen3.5

Đánh giá hiệu năng

Tiền huấn luyện (Pretraining)

Hạ tầng và khung huấn luyện

Ứng dụng và tích hợp

Demo và ứng dụng thực tế

Tóm tắt và định hướng tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News