- Qwen3-Omni-Flash-2025-12-01 là mô hình đa phương thức thế hệ tiếp theo có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra văn bản và giọng nói qua streaming thời gian thực
- Khả năng hiểu lệnh âm thanh·thị giác và độ ổn định hội thoại được cải thiện đáng kể, cho phép triển khai tương tác giọng nói-hình ảnh tự nhiên và nhất quán
- Tính năng kiểm soát hoàn toàn system prompt cho phép điều chỉnh chi tiết như phong cách nhân cách, giọng điệu và độ dài đầu ra
- Hỗ trợ văn bản 119 ngôn ngữ, nhận dạng giọng nói 19 ngôn ngữ, tổng hợp giọng nói 10 ngôn ngữ, giải quyết vấn đề nhất quán đa ngôn ngữ
- Hiệu năng được cải thiện trên mọi mặt như suy luận logic, sinh mã, hiểu thị giác·giọng nói, mang lại trải nghiệm tương tác AI tự nhiên và chính xác
Tổng quan về Qwen3-Omni-Flash-2025-12-01
- Qwen3-Omni là mô hình lớn đa phương thức native xử lý nhiều loại đầu vào như văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra văn bản và giọng nói tự nhiên theo thời gian thực
- Phiên bản lần này, Qwen3-Omni-Flash-2025-12-01, là bản nâng cấp toàn diện dựa trên Qwen3-Omni hiện có
- Cải thiện toàn diện về hiệu năng và hiệu quả của mô hình để mang lại khả năng xử lý đa phương thức nhanh hơn và chính xác hơn
Các cải tiến tính năng chính
-
Tăng cường tương tác âm thanh-thị giác
- Khả năng hiểu và thực thi lệnh bằng giọng nói·video được cải thiện mạnh, giải quyết vấn đề suy giảm độ thông minh trong các tình huống khẩu ngữ thường ngày
- Độ ổn định và tính nhất quán của hội thoại âm thanh-thị giác nhiều lượt được nâng cao, giúp tương tác tự nhiên hơn
-
Tăng cường kiểm soát system prompt
- Có thể tùy biến hoàn toàn system prompt để kiểm soát chính xác hành vi của mô hình
- Có thể tinh chỉnh chi tiết các yếu tố như phong cách nhân cách (ví dụ: ngọt ngào, lạnh lùng, phong cách anime), giọng điệu và độ dài đầu ra
-
Nâng cao độ tin cậy của hỗ trợ đa ngôn ngữ
- Hỗ trợ 119 ngôn ngữ cho tương tác dựa trên văn bản, 19 ngôn ngữ cho nhận dạng giọng nói và 10 ngôn ngữ cho tổng hợp giọng nói
- Khắc phục vấn đề thiếu ổn định ngôn ngữ ở phiên bản trước, bảo đảm hiệu năng đa ngôn ngữ chính xác và nhất quán
-
Tổng hợp giọng nói tự nhiên
- Tự động điều chỉnh tốc độ nói, khoảng dừng và ngữ điệu theo ngữ cảnh văn bản để tạo ra chất lượng giọng nói giống con người
- Loại bỏ chất giọng chậm hoặc máy móc, mang lại đầu ra giọng nói tự nhiên giàu biểu cảm
Chỉ số cải thiện hiệu năng
-
Tăng cường khả năng hiểu và sinh văn bản
- Suy luận logic ZebraLogic +5.6, sinh mã LiveCodeBench-v6 +9.3, MultiPL-E +2.7, chất lượng viết WritingBench +2.2 được cải thiện
- Nâng cao độ tin cậy khi thực hiện các chỉ dẫn phức tạp nhiều bước
-
Cải thiện độ chính xác hiểu giọng nói
- Giảm tỷ lệ lỗi từ trên Fleurs-zh, cải thiện VoiceBench +3.2
- Tăng cường khả năng hiểu giọng nói trong môi trường hội thoại thực tế
-
Cải thiện chất lượng tổng hợp giọng nói
- Tạo ra ngữ điệu và nhịp điệu tự nhiên trong môi trường tiếng Trung và đa ngôn ngữ
- Đạt chất lượng phát âm tương tự giọng nói con người
-
Tăng cường khả năng hiểu hình ảnh
- Trong các bài toán suy luận thị giác, MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 được cải thiện
- Nâng cao khả năng diễn giải nội dung thị giác phức tạp như sơ đồ và hình học toán học
-
Cải thiện khả năng hiểu video
- MLVU +1.6 được cải thiện, tăng cường khả năng hiểu ngữ nghĩa video
- Cải thiện đồng bộ âm thanh-thị giác để tăng cường nền tảng cho hội thoại video thời gian thực
Kế hoạch sắp tới
- Dự kiến thu thập phản hồi người dùng và các trường hợp ứng dụng đổi mới dựa trên Qwen3-Omni
- Trong tương lai sẽ mở rộng các tính năng như nhận dạng giọng nói nhiều người nói (ASR), video OCR, tự học audio-video, workflow dựa trên agent và hỗ trợ function calling
Thông tin trích dẫn
- Khi sử dụng cho nghiên cứu, khuyến nghị dùng trích dẫn sau
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1 bình luận
Ý kiến trên Hacker News
Mô hình lần này có kiến trúc MoE 30B tham số, với số tham số được kích hoạt ở mức khoảng 3B
Là phiên bản kế nhiệm của mô hình omni 7B trước đó, nên có thể kỳ vọng hiệu năng tương tự Qwen2.5-Omni-7B
Vì hiện chưa có nhiều mô hình omni được công khai, nên tôi nghĩ đây là một bản phát hành khá đáng chú ý
Cá nhân tôi muốn dùng mô hình này để thay thế giao diện đầu vào/đầu ra (bàn phím·màn hình), còn phần tính toán sẽ do công nghệ khác xử lý ở backend
Ngoài ra còn có phiên bản reasoning, có chức năng phát âm token ‘đang suy nghĩ’ trong lúc trò chuyện bằng giọng nói nên có vẻ khá thú vị
Gồm bộ mã hóa âm thanh 650M, bộ mã hóa thị giác 540M, LLM 30B-A3B, audio LLM 3B-A0.3B, và dùng 80M Transformer/200M ConvNet để chuyển audio token thành dạng sóng
Đây là phiên bản cập nhật trọng số không công khai của Qwen3-Omni; trước đây Qwen/Qwen3-Omni-30B-A3B-Instruct đã từng được công bố
Hiện tại vẫn chưa được các framework suy luận mã nguồn mở hỗ trợ đầy đủ, nên chỉ chạy được trên transformers và rất chậm
Tôi từng thắc mắc liệu Qwen3-Omni có hỗ trợ hội thoại thời gian thực như GPT-4o hay không
Trong tài liệu thì có vẻ là không, nhưng thực tế được nói là có hỗ trợ
Tôi cũng tò mò không biết đã có ai chạy cục bộ nó trong môi trường không dùng NVIDIA chưa
Tôi thường kiểm tra bằng các bài test từ đồng âm khác nghĩa (record vs record) hoặc yêu cầu thay đổi giọng điệu khi nói
Ngay cả Silly Tavern cũng gần như ở mức unusable
Nhưng chính những mô hình giọng nói cục bộ như vậy mới là cốt lõi của quy trình làm việc dựa trên ngôn ngữ tự nhiên
Tôi muốn biết liệu có thể chạy mô hình Omni trên Macbook bằng GGUF hay MLX không
Có thể dùng LMStudio hoặc Llama.cpp, nhưng chúng không hỗ trợ stream từ micro hoặc webcam
Qwen thường cung cấp ví dụ Python dựa trên Cuda, nên tôi đang tìm xem có lựa chọn mã nguồn mở nào thay thế không
Tôi đang dùng Gemini Flash Live 2.5 khá tốt
Hy vọng bản 3.0 sẽ sớm ra mắt
Trên benchmark thì nó được nói là tốt hơn Gemini Live, nhưng vẫn phải tự thử mới biết
Cá nhân tôi luôn thấy mô hình Qwen Omni còn hơi đáng tiếc trong môi trường thiên về tiếng Anh
32B là khá nhỏ nên có vẻ có thể chạy trên máy 64GB RAM
Khi nó lên Ollama tôi sẽ tự thử
Nhưng trong benchmark của bài báo thì Qwen3-Omni-Flash-2025-12-01 lại được ghi là mạnh hơn Qwen3-235B-A22B
Tôi thấy khó hiểu vì đây là mô hình 30B mà lại có thể như vậy
Bản FLASH không có trên Hugging Face, nên rất có thể là mô hình chỉ dành cho API
Ban đầu tôi tưởng nó chỉ dành cho API, nhưng trong bộ sưu tập trên Hugging Face đúng là có mô hình
Tuy nhiên thực tế đó là phiên bản cũ, và cả demo trên HF cũng gọi API nên không phải tính toán cục bộ
Điều gây ấn tượng là Qwen3-Omni vượt 2.5 Flash trên mọi benchmark
Có lẽ đã đến lúc chuyển workload LLM sang GPU cục bộ
Benchmark công khai rất khó tin, và nếu chọn mô hình chỉ dựa vào đó thì dễ thất vọng
Tôi thắc mắc vì sao cách nói của mô hình giọng nói lại cho cảm giác thiếu sức sống
Đặc biệt ở đoạn nói về giá trái cây, dù hoàn toàn tự nhiên nhưng vẫn nhận ra ngay đó là AI
Có lẽ là do ngữ điệu hoặc tốc độ nói quá đều
Biểu đạt cảm xúc quá mức tạo cảm giác giả tạo
Tuy vậy, lỗi phát âm tiếng Đức thì khá đáng tiếc
Có lẽ vẫn có một bước tổng hợp giọng nói riêng nên mới cho ra kết quả như vậy
Có thể kiểm tra bằng bài test hát hoặc ngữ điệu
Mô hình giọng nói của ChatGPT vẫn là tự nhiên nhất
Có một vấn đề là trong đầu ra giọng nói thời gian thực, rất khó phân biệt giữa token ‘đang suy nghĩ’ và phần phát ngôn dành cho người dùng
Gửi token reasoning/structured sang một phía, còn văn bản dành cho người dùng sang phía khác
Chỉ tổng hợp giọng nói cho phần sau thì sẽ giải quyết được việc nghe thấy phần ‘đang suy nghĩ’
Có vẻ Qwen đang diễn đạt mập mờ về việc có công khai open-weight hay không
Thực tế phần lớn là không công khai, và nhiều trường hợp trông như được phát hành công khai nhưng thật ra chỉ dành cho API
Vì vậy người dùng tốn công tìm mô hình một cách vô ích