- Qwen3-VL là thế hệ mới nhất của mô hình đa phương thức thị giác-ngôn ngữ, mang lại hiệu năng được cải thiện trên mọi mặt như hiểu và tạo văn bản, nhận diện video, suy luận không gian và hiểu ngữ cảnh dài
- Mô hình chủ lực Qwen3-VL-235B-A22B được phát hành với hai phiên bản Instruct và Thinking, lần lượt đạt thành tích SOTA trong nhận thức thị giác và suy luận đa phương thức
- Mô hình tăng cường nhiều năng lực ứng dụng thực tế như chức năng agent, visual coding, suy luận không gian 2D/3D, hiểu văn bản dài và video thời lượng dài
- Phạm vi hỗ trợ được mở rộng tới OCR cho 32 ngôn ngữ, hiểu tài liệu phức tạp, xử lý nhiều ảnh và video, phù hợp cho cả nhu cầu đời sống lẫn ứng dụng chuyên môn
- Điều này cung cấp cho cộng đồng mã nguồn mở một nền tảng đa phương thức hàng đầu, được kỳ vọng sẽ thúc đẩy giải quyết các vấn đề trong thế giới thực và sự phát triển của AI agent trong tương lai
Giới thiệu Qwen3-VL
- Qwen3-VL là mô hình AI đa phương thức mới nhất do QwenTeam phát triển, có khả năng xử lý và hiểu toàn diện nhiều dạng dữ liệu như hình ảnh, văn bản, bảng biểu, tài liệu, công thức và đồ thị
Tính năng chính
- Chức năng visual agent: nhận diện GUI, bấm nút, gọi công cụ và thực hiện các tác vụ tự động hóa trong môi trường máy tính và di động
- Hiệu năng văn bản được tăng cường: nhờ học đồng thời văn bản và hình ảnh từ giai đoạn sớm, đạt năng lực xử lý văn bản mạnh ngang tầm mô hình ngôn ngữ đơn phương thức
- Visual coding: chuyển ảnh thiết kế thành mã HTML, CSS, JavaScript, hiện thực hóa kiểu “nhìn gì code nấy”
- Hiểu không gian: mở rộng từ tọa độ tuyệt đối 2D sang tọa độ tương đối và hỗ trợ grounding 3D, đặt nền tảng cho robot và xe tự hành
- Xử lý ngữ cảnh dài và video thời lượng dài: hỗ trợ mặc định 256K token, có thể mở rộng tới 1 triệu token, ghi nhớ và truy xuất chính xác cả video dài 2 giờ
- Tối ưu hóa suy luận (phiên bản Thinking): mạnh trong giải toán và các bài toán STEM, đạt kết quả hàng đầu trên các benchmark như MathVision, MMMU, MathVista
Đánh giá hiệu năng
- Phiên bản Instruct: đạt hiệu năng nhận thức thị giác vượt qua các mô hình đóng lớn như Gemini 2.5 Pro và GPT-5
- Phiên bản Thinking: đạt đẳng cấp hàng đầu thế giới về suy luận đa phương thức trong toán học và khoa học, đặc biệt vượt Gemini 2.5 Pro trên MathVision
- Tác vụ thiên về văn bản: hiệu năng ngang với Qwen3-235B-A22B-2507
- Kiểm thử video thời lượng dài: chứng minh độ ổn định cao với độ chính xác 99.5% ngay cả khi đầu vào đạt 1 triệu token
- OCR đa ngôn ngữ: đạt độ chính xác trên 70% ở 32 trong số 39 ngôn ngữ
Cải tiến kiến trúc
- Interleaved-MRoPE: phân bổ xen kẽ các chiều thời gian, chiều cao và chiều rộng để tăng cường khả năng hiểu video dài
- DeepStack: hợp nhất đặc trưng từ nhiều lớp ViT để cải thiện khả năng căn chỉnh chính xác giữa văn bản và hình ảnh
- Căn chỉnh văn bản-dấu thời gian: khớp chính xác thông tin thời gian theo từng frame với nội dung thị giác, cải thiện độ chính xác phát hiện sự kiện và hành động
Khả năng của mô hình
- Agent điều khiển smartphone và PC: tự động mở ứng dụng, bấm nút, điền biểu mẫu
- Suy luận dựa trên hình ảnh: có thể thực hiện phân tích phức tạp kết hợp với gọi công cụ
- Hỗ trợ phát triển frontend: chuyển bản phác thảo thành trang web, gỡ lỗi UI
- Phát hiện đối tượng 2D/3D: tạo hàng trăm bounding box và ước lượng độ sâu
- Nhận diện phổ quát: nhận diện người nổi tiếng, thương hiệu, thực vật, động vật, nhân vật hoạt hình
- Hỗ trợ sáng tạo: kể chuyện dựa trên hình ảnh, viết nội dung quảng cáo, tạo kịch bản video
- Giải bài toán STEM: suy luận từng bước, phân tích quan hệ nhân quả, giải quyết các vấn đề khoa học
- Làm theo chỉ thị phức tạp: xử lý cả các điều kiện nhiều bước và yêu cầu có cấu trúc
- Hiểu tài liệu: phân tích PDF dài, bố cục web và hỗ trợ định dạng QwenVL Markdown
- Đối thoại đa ảnh: so sánh và liên kết nhiều hình ảnh trong khi vẫn giữ được ngữ cảnh
- Hiểu video: hỗ trợ phát hiện sự kiện trong video dài và cả tạo mã
Kết luận
- Qwen3-VL là mô hình đa phương thức mã nguồn mở vượt qua các mô hình đóng, phát triển toàn diện từ nhận diện tới suy luận và hành động
- Đây không chỉ là mô hình nhận diện thị giác đơn thuần mà còn mở rộng tới hiểu thế giới, suy luận và hành động, tạo nền tảng cho việc ứng dụng agent trong môi trường thực tế
2 bình luận
Mới chưa đến nửa năm kể từ video quảng bá của Gemini, khi chỉ riêng việc biết người chiến thắng trong cuộc thi điền kinh là ai và đã vượt qua ai cũng đã thấy quá ấn tượng rồi.
> Ngay cả video dài 2 tiếng cũng có thể ghi nhớ và tìm kiếm chính xác
Thật sự rất tò mò không biết chính xác là nó đang "ghi nhớ" điều gì.
Ý kiến trên Hacker News
Hôm qua tôi cũng đã nhắc đến chuyện này, nhưng gần đây tôi có việc phải xử lý hàng trăm ảnh hóa đơn chất lượng thấp cho một dự án xây dựng. Ban đầu tôi chạy một script dùng PIL/opencv, pytesseract, rồi cả OpenAI, nhưng tỉ lệ thất bại quá nhiều. Hôm nay tôi thử đưa vài tấm hóa đơn chất lượng thực sự tệ vào Qwen, thì nó trích xuất được toàn bộ thông tin cần thiết một cách khá dễ dàng. Điều còn ấn tượng hơn là nó còn cung cấp cả thông tin bounding box có thể dùng để cải thiện tesseract
Trung Quốc đang làm điều giống như họ từng làm trong ngành sản xuất: lấy công nghệ cốt lõi rồi lặp lại tối ưu hóa gấp 10 lần về chi phí/hiệu suất. Thật sự đáng kinh ngạc. Đây vốn là model nổi tiếng trên benchmark, nhưng riêng hôm nay thì tôi cảm thấy nó đủ sức là ứng viên SOTA mã nguồn mở. Thậm chí hôm nay họ còn công bố một model đóng với 1 nghìn tỷ tham số, lên hạng 3 trên lm arena, còn model 80GB đứng hạng 17, trong khi gpt-oss 120b là hạng 52
Liên kết liên quan
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
Bài báo DeepStack
Và thay vì gom lại thành “người Trung Quốc”, tôi nghĩ nên ghi công cho chính đội Qwen. Ở mọi quốc gia trên thế giới đều có phòng thí nghiệm xuất sắc và cũng có phòng thí nghiệm bình thường
Nếu bạn ở San Francisco thì đừng bỏ lỡ cơ hội tham gia sự kiện chính thức đầu tiên của đội Qwen tại Mỹ. Phó chủ tịch Qwen Lab sẽ trực tiếp phát biểu tại SF teach week
Liên kết sự kiện
Đây là cơ hội hiếm có để trao đổi trực tiếp với các thành viên đội Qwen
Điểm cốt lõi lần này của Qwen là họ đạt SOTA về năng lực đa phương thức, vượt cả model proprietary (đóng), mà vẫn mở trọng số model. Qua thử nghiệm ban đầu của tôi thì có vẻ đúng là như vậy, tôi sẽ tiếp tục test thêm. Quá ấn tượng
Thực tế mà nói, model Qwen3-VL 235B tham số (FP16) có vẻ cần tối thiểu 512GB RAM. Tôi đoán để bao phủ cả context window ở mức hợp lý thì còn có thể cần nhiều hơn. Nếu giả định không chạy bằng CPU, tôi muốn biết có cách nào để chạy nó ở nhà với ngân sách dưới 10.000 USD hay không. Nếu CPU là lựa chọn duy nhất, thì liệu phương án tốt nhất có phải là vLLM + kết nối mạng nhiều hệ thống (10/25/100Gbit) hay còn lựa chọn tối ưu nào khác không
Không nhất thiết phải chạy bằng FP16. Phần lớn trường hợp lượng tử hóa đến q8 gần như không giảm chất lượng, và ngay cả q4 trở xuống cũng có thể chạy với suy giảm hiệu năng không quá lớn. Chỉ riêng q8 đã cần 235GB RAM, nên nếu tính theo RTX 5090 (32GB VRAM) thì cần tới 8 chiếc, mà giá cũng không hề rẻ. Còn phải tính thêm bo mạch chủ, CPU, và hệ thống chia 8 GPU. Bạn có thể nhắm đến máy đào coin cũ dùng RTX 3090 hoặc P40, nhưng với GPU tiêu dùng thì thực tế rất khó làm dưới 10.000 USD.
Nếu phân tán model qua nhiều máy tính mà không có NVLink thì tốc độ sẽ giảm khủng khiếp, nên trên thực tế vẫn khuyến nghị máy đơn. Hiệu năng CPU cũng không tệ. Điều quan trọng là băng thông bộ nhớ, nên CPU server hoặc workstation có nhiều kênh DDR5 sẽ phù hợp hơn, ví dụ AMD Ryzen Threadripper 7965WX, 8 kênh DDR5, hỗ trợ 5200 MT/s, giá khoảng 2.500 USD.
Cuối cùng, tôi khuyên bạn nên nghĩ lại xem có thật sự cần chạy nó ở nhà không. Tùy mục đích là gì, nhưng khoản 10.000 USD đổ vào phần cứng có thể mất giá rất mạnh chỉ trong vài năm. Nếu dùng cloud thì 10.000 USD credit có thể dùng được rất lâu
Nhờ Qwen tung ra SOTA đa phương thức với trọng số mở, lòng các nhà phát triển đang nghiêng về phía Qwen. Ít nhất thì tôi đã nghiêng hẳn rồi
Cảm ơn sự hào phóng của đội Qwen. Tôi đã dùng model ‘Thinking’ của họ để tạo ra vài workflow rất hay nhằm tự động hóa những công việc nội bộ nhàm chán
Model thinking của Qwen
Giờ với bản phát hành này, tôi cũng định áp dụng thêm các workflow mới như phân loại và tạo caption cho ảnh bữa ăn, ảnh người dùng, v.v. Rất tuyệt
Tham khảo thêm các model liên quan của đội Qwen
Tôi dám chắc đây là màn công bố có nhiều số liệu benchmark nhất trong số những gì tôi từng thấy. Tôi muốn khen họ vì không chỉ chọn ra vài con số đẹp nhất để khoe
Đáng tiếc là Qwen3-VL vẫn tiếp tục trượt bài test “thừa tay chân”. Tôi dùng Photoshop chèn vào ảnh động vật có thêm chi thừa gắn ở chân hoặc bụng (ví dụ chó có chân mọc ở bụng, mèo có hai cặp chân trước), nhưng cũng như mọi model khác, nó cứ khăng khăng rằng số lượng chi của con vật là bình thường. Ngay cả khi tôi nói “trông như có chân mọc ở bụng”, nó vẫn bảo là tôi nhìn nhầm và khẳng định đến cùng là bình thường. Qwen thậm chí còn được báo trước rằng ảnh đã qua chỉnh sửa mà vẫn trả lời là đúng 4 chân
Bộ dữ liệu đồng hồ
Ví dụ xúc xắc D20
Kết luận là với các trường hợp như chi thừa, nếu không tạo 1 triệu ảnh ví dụ thì chúng vẫn không trả lời đúng, và vấn đề phải liên tục tạo dataset mới cho từng bài toán khác cũng sẽ lặp lại