- Qwen3.5-397B-A17B là mô hình hợp nhất ngôn ngữ-thị giác, cho thấy hiệu năng xuất sắc trên các mảng suy luận, lập trình, tác tử và hiểu đa phương thức nói chung
- Kiến trúc lai kết hợp linear attention dựa trên GDN và sparse MoE, chỉ kích hoạt 17 tỷ trong tổng số 397 tỷ tham số, đồng thời đạt được hiệu quả suy luận và giảm chi phí
- Hỗ trợ ngôn ngữ và phương ngữ được mở rộng từ 119 lên 201, tăng khả năng tiếp cận cho người dùng toàn cầu và củng cố năng lực xử lý đa ngôn ngữ
- Qwen3.5-Plus, được cung cấp qua Alibaba Cloud Model Studio, mặc định hỗ trợ cửa sổ ngữ cảnh 1 triệu token và khả năng sử dụng công cụ thích ứng
- Nhờ mở rộng môi trường học tăng cường và thiết kế hạ tầng hiệu quả, mô hình đảm bảo độ ổn định và khả năng mở rộng cho huấn luyện và suy luận tác tử đa phương thức quy mô lớn
Tổng quan về Qwen3.5
- Qwen3.5 là mô hình hợp nhất thị giác-ngôn ngữ, thể hiện hiệu năng nổi bật trên nhiều benchmark như suy luận, lập trình, tác tử và hiểu đa phương thức
- Tên mô hình Qwen3.5-397B-A17B, chỉ kích hoạt 17 tỷ trong tổng số 397 tỷ tham số
- Kết hợp linear attention dựa trên Gated Delta Networks và kiến trúc sparse Mixture-of-Experts để tối ưu tốc độ và chi phí
- Hỗ trợ ngôn ngữ được mở rộng từ 119 lên 201, cải thiện khả năng tiếp cận đa ngôn ngữ
- Qwen3.5-Plus được cung cấp trong Alibaba Cloud Model Studio,
- Bao gồm cửa sổ ngữ cảnh 1M, công cụ tích hợp chính thức và khả năng sử dụng công cụ thích ứng
Đánh giá hiệu năng
- Khi so sánh với các mô hình mới nhất như GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- Ghi nhận điểm số cạnh tranh trên tất cả các lĩnh vực gồm ngôn ngữ, suy luận, lập trình, tác tử và đa phương thức
- Ở đánh giá ngôn ngữ, mô hình đạt hiệu năng nhóm đầu với MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5
- Ở đánh giá thị giác-ngôn ngữ, mô hình đạt điểm cao trên MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1
- Năng lực hiểu đa phương thức và giải quyết bài toán STEM được cải thiện so với Qwen3-VL
- Việc mở rộng môi trường học tăng cường giúp cải thiện hiệu năng tác tử tổng quát, với thứ hạng trung bình tốt hơn trên BFCL-V4 và VITA-Bench
Tiền huấn luyện (Pretraining)
- Power: So với Qwen3, mô hình được huấn luyện với lượng token thị giác-văn bản lớn hơn, đồng thời tăng cường dữ liệu đa ngôn ngữ, STEM và suy luận
- Qwen3.5-397B-A17B đạt hiệu năng tương đương mô hình cỡ 1T tham số (Qwen3-Max-Base)
- Efficiency: Dựa trên kiến trúc Qwen3-Next, áp dụng MoE thưa, Gated DeltaNet và dự đoán đa token
- Ở ngữ cảnh 32k/256k, đạt thông lượng giải mã cao hơn 8,6 lần/19 lần so với Qwen3-Max
- Versatility: Hợp nhất sớm văn bản-thị giác để xử lý đa phương thức tự nhiên hơn,
- Quy mô từ vựng tăng lên 250.000 (từ 150.000), giúp cải thiện hiệu quả mã hóa/giải mã từ 10~60%
Hạ tầng và khung huấn luyện
- Hạ tầng dị thể tách biệt chiến lược song song giữa thị giác và ngôn ngữ hỗ trợ huấn luyện đa phương thức hiệu quả
- Tận dụng kích hoạt thưa để đạt hiệu quả xử lý gần 100% ngay cả với dữ liệu trộn văn bản, hình ảnh và video
- Pipeline FP8 tối ưu độ chính xác cho kích hoạt, định tuyến MoE và phép toán GEMM
- Giảm 50% mức dùng bộ nhớ, tăng hơn 10% tốc độ
- Xây dựng khung học tăng cường bất đồng bộ để hỗ trợ huấn luyện mô hình văn bản, đa phương thức và đa lượt
- Với huấn luyện end-to-end FP8, speculative decoding, multi-turn rollout locking v.v.
tăng tốc xử lý 3~5 lần và đảm bảo khả năng mở rộng ổn định
Ứng dụng và tích hợp
- Qwen Chat cung cấp các chế độ Auto, Thinking và Fast
- Auto: tự động dùng công cụ và tư duy thích ứng
- Thinking: suy luận chuyên sâu
- Fast: phản hồi tức thì
- Qua ModelStudio API, có thể kích hoạt các tính năng reasoning, web search và Code Interpreter
- Điều khiển bằng các tham số
enable_thinking, enable_search
- Tích hợp với Qwen Code, OpenClaw v.v. để hỗ trợ lập trình bằng ngôn ngữ tự nhiên và sáng tạo đa phương thức
Demo và ứng dụng thực tế
- Phát triển Web: tạo mã giao diện web và UI bằng lệnh ngôn ngữ tự nhiên
- Visual Agent: thực hiện thao tác tự động trên smartphone và PC bằng ngôn ngữ tự nhiên
- Visual Coding: với đầu vào 1 triệu token, có thể xử lý video dài tối đa 2 giờ,
- Hỗ trợ chuyển UI vẽ tay thành mã, tóm tắt video v.v.
- Spatial Intelligence: cải thiện độ chính xác trong đếm đối tượng, quan hệ vị trí và mô tả không gian
- Gợi mở khả năng ứng dụng cho xe tự hành và robotics
- Visual Reasoning: cải thiện so với Qwen3-VL trong giải quyết vấn đề khoa học và suy luận logic trực quan
Tóm tắt và định hướng tiếp theo
- Qwen3.5, dựa trên kiến trúc lai hiệu quả và suy luận đa phương thức native,
đặt nền móng cho việc xây dựng tác tử số đa dụng
- Mục tiêu tiếp theo là chuyển từ mở rộng mô hình sang tích hợp hệ thống
- Phát triển hệ thống tác tử tự chủ và liên tục với bộ nhớ bền vững, giao diện thế giới thực, khả năng tự cải thiện và ra quyết định kinh tế
1 bình luận
Ý kiến trên Hacker News
Khá thú vị khi trong LLM challenge hôm nay lại chọn câu “drive the car to the wash”
Vì LLM đã tiêu thụ gần như toàn bộ corpus, rất khó phân biệt liệu sự cải thiện là do học thực sự, hay chỉ đơn giản là dán thêm một kiểu ‘giấy note’
Cần có cách khiến vấn đề được diễn đạt bằng ngôn ngữ tự nhiên nhưng lại trông như một bài toán ‘được mã hóa’ đối với LLM
Ví dụ, có thể kiểm thử bằng cách để một trình tạo chương trình LUA đơn giản sinh mã ngẫu nhiên, dịch nó sang tiếng Anh rồi yêu cầu LLM dự đoán kết quả, sau đó so sánh với đầu ra thực tế khi chạy
Cách tiếp cận này gợi cảm giác như một dạng kịch bản chiến tranh thông tin
Với ai quan tâm, tôi đã đưa MXFP4 GGUFs lên Hugging Face, và hướng dẫn chạy được tổng hợp trong tài liệu unsloth.ai
Pelican thì ổn, nhưng không phải là một chiếc xe đạp tốt — xem ví dụ liên quan
Nếu Qwen 3.5 được phát hành ở cỡ 80~110B thì có vẻ sẽ vừa khít với một thiết bị 128GB. Qwen3-Next là 80B nhưng không có vision encoder
Hơi tiếc khi chỉ công bố model flagship mà không có bản distill nhỏ. Qwen trước đây ra nhiều kích cỡ nên rất thích
Tết năm ngoái tôi còn không tưởng tượng nổi rằng một model cỡ Sonnet 4.5 có thể chạy nhanh cục bộ, mà giờ biết đâu điều đó sẽ khả thi trên MacBook Pro M5 Max năm 2026
Qwen là một model mở rất mạnh, đặc biệt dòng visual của họ rất ấn tượng
Trong một báo cáo AI có nhắc rằng Fennec (Sonnet 5) sẽ ra mắt vào ngày 4 tháng 2, nhưng thực tế đó là kết quả pha trộn giữa tin đồn và ảo giác (hallucination) của công cụ tin tức AI. Một ví dụ khá thú vị
Blog của Qwen có vấn đề không tải được. Tắt trình chặn quảng cáo rồi mà vẫn chỉ thấy placeholder
Tôi tò mò cụ thể 15.000 môi trường RL mà họ nhắc tới là những gì. Vài trăm thì còn hiểu được, chứ hơn nữa thì khó hình dung
Dạo này ai cũng chỉ tập trung vào điểm benchmark, nhưng điều thực sự quan trọng là liệu model có thể giữ được ngữ cảnh khi dùng công cụ nhiều bước hay không
Phần lớn model mở vẫn sụp ở chỗ này