Ra mắt mô hình Qwen3-VL - Thị giác sắc bén hơn, tư duy sâu hơn, khả năng hành động rộng hơn

(qwen.ai)

6 điểm bởi GN⁺ 2025-09-26 | 2 bình luận | Chia sẻ qua WhatsApp

Qwen3-VL là thế hệ mới nhất của mô hình đa phương thức thị giác-ngôn ngữ, mang lại hiệu năng được cải thiện trên mọi mặt như hiểu và tạo văn bản, nhận diện video, suy luận không gian và hiểu ngữ cảnh dài
Mô hình chủ lực Qwen3-VL-235B-A22B được phát hành với hai phiên bản Instruct và Thinking, lần lượt đạt thành tích SOTA trong nhận thức thị giác và suy luận đa phương thức
Mô hình tăng cường nhiều năng lực ứng dụng thực tế như chức năng agent, visual coding, suy luận không gian 2D/3D, hiểu văn bản dài và video thời lượng dài
Phạm vi hỗ trợ được mở rộng tới OCR cho 32 ngôn ngữ, hiểu tài liệu phức tạp, xử lý nhiều ảnh và video, phù hợp cho cả nhu cầu đời sống lẫn ứng dụng chuyên môn
Điều này cung cấp cho cộng đồng mã nguồn mở một nền tảng đa phương thức hàng đầu, được kỳ vọng sẽ thúc đẩy giải quyết các vấn đề trong thế giới thực và sự phát triển của AI agent trong tương lai

Giới thiệu Qwen3-VL

Qwen3-VL là mô hình AI đa phương thức mới nhất do QwenTeam phát triển, có khả năng xử lý và hiểu toàn diện nhiều dạng dữ liệu như hình ảnh, văn bản, bảng biểu, tài liệu, công thức và đồ thị

Tính năng chính

Chức năng visual agent: nhận diện GUI, bấm nút, gọi công cụ và thực hiện các tác vụ tự động hóa trong môi trường máy tính và di động
Hiệu năng văn bản được tăng cường: nhờ học đồng thời văn bản và hình ảnh từ giai đoạn sớm, đạt năng lực xử lý văn bản mạnh ngang tầm mô hình ngôn ngữ đơn phương thức
Visual coding: chuyển ảnh thiết kế thành mã HTML, CSS, JavaScript, hiện thực hóa kiểu “nhìn gì code nấy”
Hiểu không gian: mở rộng từ tọa độ tuyệt đối 2D sang tọa độ tương đối và hỗ trợ grounding 3D, đặt nền tảng cho robot và xe tự hành
Xử lý ngữ cảnh dài và video thời lượng dài: hỗ trợ mặc định 256K token, có thể mở rộng tới 1 triệu token, ghi nhớ và truy xuất chính xác cả video dài 2 giờ
Tối ưu hóa suy luận (phiên bản Thinking): mạnh trong giải toán và các bài toán STEM, đạt kết quả hàng đầu trên các benchmark như MathVision, MMMU, MathVista

Đánh giá hiệu năng

Phiên bản Instruct: đạt hiệu năng nhận thức thị giác vượt qua các mô hình đóng lớn như Gemini 2.5 Pro và GPT-5
Phiên bản Thinking: đạt đẳng cấp hàng đầu thế giới về suy luận đa phương thức trong toán học và khoa học, đặc biệt vượt Gemini 2.5 Pro trên MathVision
Tác vụ thiên về văn bản: hiệu năng ngang với Qwen3-235B-A22B-2507
Kiểm thử video thời lượng dài: chứng minh độ ổn định cao với độ chính xác 99.5% ngay cả khi đầu vào đạt 1 triệu token
OCR đa ngôn ngữ: đạt độ chính xác trên 70% ở 32 trong số 39 ngôn ngữ

Cải tiến kiến trúc

Interleaved-MRoPE: phân bổ xen kẽ các chiều thời gian, chiều cao và chiều rộng để tăng cường khả năng hiểu video dài
DeepStack: hợp nhất đặc trưng từ nhiều lớp ViT để cải thiện khả năng căn chỉnh chính xác giữa văn bản và hình ảnh
Căn chỉnh văn bản-dấu thời gian: khớp chính xác thông tin thời gian theo từng frame với nội dung thị giác, cải thiện độ chính xác phát hiện sự kiện và hành động

Khả năng của mô hình

Agent điều khiển smartphone và PC: tự động mở ứng dụng, bấm nút, điền biểu mẫu
Suy luận dựa trên hình ảnh: có thể thực hiện phân tích phức tạp kết hợp với gọi công cụ
Hỗ trợ phát triển frontend: chuyển bản phác thảo thành trang web, gỡ lỗi UI
Phát hiện đối tượng 2D/3D: tạo hàng trăm bounding box và ước lượng độ sâu
Nhận diện phổ quát: nhận diện người nổi tiếng, thương hiệu, thực vật, động vật, nhân vật hoạt hình
Hỗ trợ sáng tạo: kể chuyện dựa trên hình ảnh, viết nội dung quảng cáo, tạo kịch bản video
Giải bài toán STEM: suy luận từng bước, phân tích quan hệ nhân quả, giải quyết các vấn đề khoa học
Làm theo chỉ thị phức tạp: xử lý cả các điều kiện nhiều bước và yêu cầu có cấu trúc
Hiểu tài liệu: phân tích PDF dài, bố cục web và hỗ trợ định dạng QwenVL Markdown
Đối thoại đa ảnh: so sánh và liên kết nhiều hình ảnh trong khi vẫn giữ được ngữ cảnh
Hiểu video: hỗ trợ phát hiện sự kiện trong video dài và cả tạo mã

Kết luận

Qwen3-VL là mô hình đa phương thức mã nguồn mở vượt qua các mô hình đóng, phát triển toàn diện từ nhận diện tới suy luận và hành động
Đây không chỉ là mô hình nhận diện thị giác đơn thuần mà còn mở rộng tới hiểu thế giới, suy luận và hành động, tạo nền tảng cho việc ứng dụng agent trong môi trường thực tế

2 bình luận

crawler 2025-09-26

Mới chưa đến nửa năm kể từ video quảng bá của Gemini, khi chỉ riêng việc biết người chiến thắng trong cuộc thi điền kinh là ai và đã vượt qua ai cũng đã thấy quá ấn tượng rồi.

> Ngay cả video dài 2 tiếng cũng có thể ghi nhớ và tìm kiếm chính xác

Thật sự rất tò mò không biết chính xác là nó đang "ghi nhớ" điều gì.

GN⁺ 2025-09-26

Ý kiến trên Hacker News

Hôm qua tôi cũng đã nhắc đến chuyện này, nhưng gần đây tôi có việc phải xử lý hàng trăm ảnh hóa đơn chất lượng thấp cho một dự án xây dựng. Ban đầu tôi chạy một script dùng PIL/opencv, pytesseract, rồi cả OpenAI, nhưng tỉ lệ thất bại quá nhiều. Hôm nay tôi thử đưa vài tấm hóa đơn chất lượng thực sự tệ vào Qwen, thì nó trích xuất được toàn bộ thông tin cần thiết một cách khá dễ dàng. Điều còn ấn tượng hơn là nó còn cung cấp cả thông tin bounding box có thể dùng để cải thiện tesseract
- Nếu cần làm việc tương tự thì tôi cũng khuyên dùng Printed Text Recognition API của Microsoft
- Tôi tò mò vì sao lại chọn Qwen. Mistral có một model chuyên biệt từng được quảng bá riêng cho OCR, và khi tôi thử thực tế thì nó hoạt động khá tốt với các sách tiếng Anh cũ (thập niên 80, 90)
- Tôi thích đem mấy model kiểu này ra thử đọc screenshot game Apple ][ từ thập niên 80. Đây là dạng dữ liệu độ phân giải rất thấp nhưng mật độ cao, lĩnh vực mà phần lớn model mã nguồn mở đều khá chật vật
- Tôi cũng từng thử dùng model VLLM để ước lượng bounding box của ranh giới đất từ ảnh bản đồ vệ tinh, nhưng không có kết quả. Tôi tò mò không biết có mẹo nào để cho ra kết quả tốt hơn không
- Tôi cũng từng cố phát hiện layout bản scan để tăng hiệu năng OCR, nhưng cuối cùng Qwen 2.5 VLM 7B đã fine-tune lại vẫn tốt hơn. Tôi nghĩ fine-tuning mới là câu trả lời
Trung Quốc đang làm điều giống như họ từng làm trong ngành sản xuất: lấy công nghệ cốt lõi rồi lặp lại tối ưu hóa gấp 10 lần về chi phí/hiệu suất. Thật sự đáng kinh ngạc. Đây vốn là model nổi tiếng trên benchmark, nhưng riêng hôm nay thì tôi cảm thấy nó đủ sức là ứng viên SOTA mã nguồn mở. Thậm chí hôm nay họ còn công bố một model đóng với 1 nghìn tỷ tham số, lên hạng 3 trên lm arena, còn model 80GB đứng hạng 17, trong khi gpt-oss 120b là hạng 52
Liên kết liên quan
- Phần mô tả, tên sản phẩm và phân biệt phiên bản vẫn liên tục mơ hồ. Tôi biết Qwen3-VL Plus (model mới) và Qwen3-VL 235B (model khác) là hai model hoàn toàn khác nhau dù tên gần giống, nhưng thông tin lại mập mờ đến mức không rõ model nào tốt hơn. Chỉ nhìn tên như Qwen-Plus-2025-09-11 hay qwen3-235b-a22b-instruct-2507 thì cũng không biết khác nhau ở điểm nào. Họ còn truyền đạt tên gọi kém rõ ràng hơn cả OpenAI
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- Cách nói rằng họ “chỉ đơn thuần tối ưu hóa” thực ra không đúng với sự thật. Đội Qwen còn đưa ra cả những ý tưởng mới như DeepStack
  Bài báo DeepStack
  Và thay vì gom lại thành “người Trung Quốc”, tôi nghĩ nên ghi công cho chính đội Qwen. Ở mọi quốc gia trên thế giới đều có phòng thí nghiệm xuất sắc và cũng có phòng thí nghiệm bình thường
- Thú vị là những model như Kimi K2 lại cho cảm giác tạo ra văn bản tự nhiên hơn hẳn các model của Mỹ. Điểm benchmark thì chưa đến mức SOTA, nhưng trải nghiệm dùng thực tế lại khác
- Mỹ trước đây cũng từng tập trung vào kiểu tối ưu hóa này, nhưng 10~15 năm gần đây thì bầu không khí ngày càng thiên về chỉ đổ thêm tài nguyên và bỏ qua tối ưu hóa. Ví dụ như thêm RAM cho progressive web app, đổi sang CPU mạnh hơn, hoặc đơn giản là cấp thêm điện năng. Về căn bản, tôi thấy vấn đề là người ta không áp dụng vào thực tế những gì đã học trong các môn thuật toán ở đại học. Trong khi đó Trung Quốc thực sự đang làm điều đó, và khiến nước Mỹ trông càng lố bịch hơn
Nếu bạn ở San Francisco thì đừng bỏ lỡ cơ hội tham gia sự kiện chính thức đầu tiên của đội Qwen tại Mỹ. Phó chủ tịch Qwen Lab sẽ trực tiếp phát biểu tại SF teach week
Liên kết sự kiện
Đây là cơ hội hiếm có để trao đổi trực tiếp với các thành viên đội Qwen
- Đăng ký đã kín chỗ rồi ;-(
- Thời buổi này chuyện cấp visa có thể khiến việc nhập cảnh vào Mỹ cũng chỉ còn 50:50, nên tôi chỉ mong họ đến nơi an toàn
Điểm cốt lõi lần này của Qwen là họ đạt SOTA về năng lực đa phương thức, vượt cả model proprietary (đóng), mà vẫn mở trọng số model. Qua thử nghiệm ban đầu của tôi thì có vẻ đúng là như vậy, tôi sẽ tiếp tục test thêm. Quá ấn tượng
- Phần lớn triển khai đầu vào đa phương thức thường có hiệu năng không cao. Tôi cũng không nghĩ Qwen vượt xa các giải pháp thương mại đã biết trước đây, nhưng chỉ riêng việc họ công bố kết quả như thế này đã là điều đáng mừng. Làm ra một model mà đầu vào đa phương thức hoạt động tốt đến mức này tuyệt đối không hề dễ
- Thực ra tôi có cảm giác model mã nguồn mở lúc nào cũng có xu hướng tự nhận là “ngang tầm SOTA thương mại” bất kể kích thước ra sao
Thực tế mà nói, model Qwen3-VL 235B tham số (FP16) có vẻ cần tối thiểu 512GB RAM. Tôi đoán để bao phủ cả context window ở mức hợp lý thì còn có thể cần nhiều hơn. Nếu giả định không chạy bằng CPU, tôi muốn biết có cách nào để chạy nó ở nhà với ngân sách dưới 10.000 USD hay không. Nếu CPU là lựa chọn duy nhất, thì liệu phương án tốt nhất có phải là vLLM + kết nối mạng nhiều hệ thống (10/25/100Gbit) hay còn lựa chọn tối ưu nào khác không
- Apple Mac Studio với 512GB unified memory giá khoảng 10.000 USD. Nếu bạn cần mức sức mạnh đó ở nhà và có dư dả tài chính thì đây là cách đơn giản nhất.
  Không nhất thiết phải chạy bằng FP16. Phần lớn trường hợp lượng tử hóa đến q8 gần như không giảm chất lượng, và ngay cả q4 trở xuống cũng có thể chạy với suy giảm hiệu năng không quá lớn. Chỉ riêng q8 đã cần 235GB RAM, nên nếu tính theo RTX 5090 (32GB VRAM) thì cần tới 8 chiếc, mà giá cũng không hề rẻ. Còn phải tính thêm bo mạch chủ, CPU, và hệ thống chia 8 GPU. Bạn có thể nhắm đến máy đào coin cũ dùng RTX 3090 hoặc P40, nhưng với GPU tiêu dùng thì thực tế rất khó làm dưới 10.000 USD.
  Nếu phân tán model qua nhiều máy tính mà không có NVLink thì tốc độ sẽ giảm khủng khiếp, nên trên thực tế vẫn khuyến nghị máy đơn. Hiệu năng CPU cũng không tệ. Điều quan trọng là băng thông bộ nhớ, nên CPU server hoặc workstation có nhiều kênh DDR5 sẽ phù hợp hơn, ví dụ AMD Ryzen Threadripper 7965WX, 8 kênh DDR5, hỗ trợ 5200 MT/s, giá khoảng 2.500 USD.
  Cuối cùng, tôi khuyên bạn nên nghĩ lại xem có thật sự cần chạy nó ở nhà không. Tùy mục đích là gì, nhưng khoản 10.000 USD đổ vào phần cứng có thể mất giá rất mạnh chỉ trong vài năm. Nếu dùng cloud thì 10.000 USD credit có thể dùng được rất lâu
- Các phương án không phải CPU thì thường sẽ còn cần nâng cấp điện, và nếu muốn chạy nhiều máy tiêu thụ 2~3kW mỗi máy, bố trí trên các mạch điện riêng, thì sẽ phát sinh chi phí bổ sung cực lớn
Nhờ Qwen tung ra SOTA đa phương thức với trọng số mở, lòng các nhà phát triển đang nghiêng về phía Qwen. Ít nhất thì tôi đã nghiêng hẳn rồi
- Tôi nghĩ cuộc chơi coi như đã ngã ngũ. Nhìn danh sách tác giả hàng đầu của các bài báo từ Mỹ gần đây thì tên người gốc Hoa xuất hiện dày đặc
- Cũng có chuyện là họ không nhắm đến lợi nhuận, nên đang chơi một cuộc chơi khác với luật khác
- Chính tôi cũng tò mò vì sao họ lại cố gắng giành thiện cảm đến mức này
Cảm ơn sự hào phóng của đội Qwen. Tôi đã dùng model ‘Thinking’ của họ để tạo ra vài workflow rất hay nhằm tự động hóa những công việc nội bộ nhàm chán
Model thinking của Qwen
Giờ với bản phát hành này, tôi cũng định áp dụng thêm các workflow mới như phân loại và tạo caption cho ảnh bữa ăn, ảnh người dùng, v.v. Rất tuyệt
Tham khảo thêm các model liên quan của đội Qwen
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
Tôi dám chắc đây là màn công bố có nhiều số liệu benchmark nhất trong số những gì tôi từng thấy. Tôi muốn khen họ vì không chỉ chọn ra vài con số đẹp nhất để khoe
- Ở những lĩnh vực mà benchmark đã bão hòa thì có lẽ việc tiếp tục đem số liệu ra làm điểm nhấn giờ cũng không còn nhiều ý nghĩa nữa
Đáng tiếc là Qwen3-VL vẫn tiếp tục trượt bài test “thừa tay chân”. Tôi dùng Photoshop chèn vào ảnh động vật có thêm chi thừa gắn ở chân hoặc bụng (ví dụ chó có chân mọc ở bụng, mèo có hai cặp chân trước), nhưng cũng như mọi model khác, nó cứ khăng khăng rằng số lượng chi của con vật là bình thường. Ngay cả khi tôi nói “trông như có chân mọc ở bụng”, nó vẫn bảo là tôi nhìn nhầm và khẳng định đến cùng là bình thường. Qwen thậm chí còn được báo trước rằng ảnh đã qua chỉnh sửa mà vẫn trả lời là đúng 4 chân
- Mọi VLM đều vậy, rất yếu ở các trường hợp ngoại lệ. Đọc đồng hồ kim từng chỉ có trường hợp vượt qua khi được chuyên biệt hóa bằng 1 triệu ảnh dữ liệu nhân tạo đã chỉnh sửa
  Bộ dữ liệu đồng hồ
  Ví dụ xúc xắc D20
  Kết luận là với các trường hợp như chi thừa, nếu không tạo 1 triệu ảnh ví dụ thì chúng vẫn không trả lời đúng, và vấn đề phải liên tục tạo dataset mới cho từng bài toán khác cũng sẽ lặp lại
- Đây rõ ràng không phải model phù hợp để đếm số chi của những loài kỳ quặc. Bù lại, ở các chủ đề xuất hiện nhiều trong dữ liệu huấn luyện thì có thể nó không hề thiếu năng lực
- Tôi cũng tò mò nếu dùng tính năng lệnh chỉnh sửa ảnh của model Qwen, rồi yêu cầu sửa phần khác mà không đụng tới số lượng chi, thì liệu kết quả đầu ra có vẫn cứ cố “chỉnh” số lượng chi về mức bình thường hay không