Qwen3-Omni-Flash-2025-12-01: mô hình lớn đa phương thức native thế hệ tiếp theo

(qwen.ai)

1 điểm bởi GN⁺ 2025-12-12 | 1 bình luận | Chia sẻ qua WhatsApp

Qwen3-Omni-Flash-2025-12-01 là mô hình đa phương thức thế hệ tiếp theo có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra văn bản và giọng nói qua streaming thời gian thực
Khả năng hiểu lệnh âm thanh·thị giác và độ ổn định hội thoại được cải thiện đáng kể, cho phép triển khai tương tác giọng nói-hình ảnh tự nhiên và nhất quán
Tính năng kiểm soát hoàn toàn system prompt cho phép điều chỉnh chi tiết như phong cách nhân cách, giọng điệu và độ dài đầu ra
Hỗ trợ văn bản 119 ngôn ngữ, nhận dạng giọng nói 19 ngôn ngữ, tổng hợp giọng nói 10 ngôn ngữ, giải quyết vấn đề nhất quán đa ngôn ngữ
Hiệu năng được cải thiện trên mọi mặt như suy luận logic, sinh mã, hiểu thị giác·giọng nói, mang lại trải nghiệm tương tác AI tự nhiên và chính xác

Tổng quan về Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni là mô hình lớn đa phương thức native xử lý nhiều loại đầu vào như văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra văn bản và giọng nói tự nhiên theo thời gian thực
Phiên bản lần này, Qwen3-Omni-Flash-2025-12-01, là bản nâng cấp toàn diện dựa trên Qwen3-Omni hiện có
Cải thiện toàn diện về hiệu năng và hiệu quả của mô hình để mang lại khả năng xử lý đa phương thức nhanh hơn và chính xác hơn

Các cải tiến tính năng chính

Tăng cường tương tác âm thanh-thị giác
- Khả năng hiểu và thực thi lệnh bằng giọng nói·video được cải thiện mạnh, giải quyết vấn đề suy giảm độ thông minh trong các tình huống khẩu ngữ thường ngày
- Độ ổn định và tính nhất quán của hội thoại âm thanh-thị giác nhiều lượt được nâng cao, giúp tương tác tự nhiên hơn
Tăng cường kiểm soát system prompt
- Có thể tùy biến hoàn toàn system prompt để kiểm soát chính xác hành vi của mô hình
- Có thể tinh chỉnh chi tiết các yếu tố như phong cách nhân cách (ví dụ: ngọt ngào, lạnh lùng, phong cách anime), giọng điệu và độ dài đầu ra
Nâng cao độ tin cậy của hỗ trợ đa ngôn ngữ
- Hỗ trợ 119 ngôn ngữ cho tương tác dựa trên văn bản, 19 ngôn ngữ cho nhận dạng giọng nói và 10 ngôn ngữ cho tổng hợp giọng nói
- Khắc phục vấn đề thiếu ổn định ngôn ngữ ở phiên bản trước, bảo đảm hiệu năng đa ngôn ngữ chính xác và nhất quán
Tổng hợp giọng nói tự nhiên
- Tự động điều chỉnh tốc độ nói, khoảng dừng và ngữ điệu theo ngữ cảnh văn bản để tạo ra chất lượng giọng nói giống con người
- Loại bỏ chất giọng chậm hoặc máy móc, mang lại đầu ra giọng nói tự nhiên giàu biểu cảm

Chỉ số cải thiện hiệu năng

Tăng cường khả năng hiểu và sinh văn bản
- Suy luận logic ZebraLogic +5.6, sinh mã LiveCodeBench-v6 +9.3, MultiPL-E +2.7, chất lượng viết WritingBench +2.2 được cải thiện
- Nâng cao độ tin cậy khi thực hiện các chỉ dẫn phức tạp nhiều bước
Cải thiện độ chính xác hiểu giọng nói
- Giảm tỷ lệ lỗi từ trên Fleurs-zh, cải thiện VoiceBench +3.2
- Tăng cường khả năng hiểu giọng nói trong môi trường hội thoại thực tế
Cải thiện chất lượng tổng hợp giọng nói
- Tạo ra ngữ điệu và nhịp điệu tự nhiên trong môi trường tiếng Trung và đa ngôn ngữ
- Đạt chất lượng phát âm tương tự giọng nói con người
Tăng cường khả năng hiểu hình ảnh
- Trong các bài toán suy luận thị giác, MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 được cải thiện
- Nâng cao khả năng diễn giải nội dung thị giác phức tạp như sơ đồ và hình học toán học
Cải thiện khả năng hiểu video
- MLVU +1.6 được cải thiện, tăng cường khả năng hiểu ngữ nghĩa video
- Cải thiện đồng bộ âm thanh-thị giác để tăng cường nền tảng cho hội thoại video thời gian thực

Kế hoạch sắp tới

Dự kiến thu thập phản hồi người dùng và các trường hợp ứng dụng đổi mới dựa trên Qwen3-Omni
Trong tương lai sẽ mở rộng các tính năng như nhận dạng giọng nói nhiều người nói (ASR), video OCR, tự học audio-video, workflow dựa trên agent và hỗ trợ function calling

Thông tin trích dẫn

Khi sử dụng cho nghiên cứu, khuyến nghị dùng trích dẫn sau
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}

1 bình luận

GN⁺ 2025-12-12

Ý kiến trên Hacker News

Mô hình lần này có kiến trúc MoE 30B tham số, với số tham số được kích hoạt ở mức khoảng 3B
Là phiên bản kế nhiệm của mô hình omni 7B trước đó, nên có thể kỳ vọng hiệu năng tương tự Qwen2.5-Omni-7B
Vì hiện chưa có nhiều mô hình omni được công khai, nên tôi nghĩ đây là một bản phát hành khá đáng chú ý
Cá nhân tôi muốn dùng mô hình này để thay thế giao diện đầu vào/đầu ra (bàn phím·màn hình), còn phần tính toán sẽ do công nghệ khác xử lý ở backend
Ngoài ra còn có phiên bản reasoning, có chức năng phát âm token ‘đang suy nghĩ’ trong lúc trò chuyện bằng giọng nói nên có vẻ khá thú vị
- Mô hình này là dạng nhiều thành phần được xếp chồng lên nhau
  Gồm bộ mã hóa âm thanh 650M, bộ mã hóa thị giác 540M, LLM 30B-A3B, audio LLM 3B-A0.3B, và dùng 80M Transformer/200M ConvNet để chuyển audio token thành dạng sóng
  Đây là phiên bản cập nhật trọng số không công khai của Qwen3-Omni; trước đây Qwen/Qwen3-Omni-30B-A3B-Instruct đã từng được công bố
  Hiện tại vẫn chưa được các framework suy luận mã nguồn mở hỗ trợ đầy đủ, nên chỉ chạy được trên transformers và rất chậm
- Theo tài liệu Alibaba Cloud, mô hình này không phải mã nguồn mở
- Tôi không tìm thấy trọng số của phiên bản mới ở đâu cả. Đã kiểm tra Modelscope và Hugging Face nhưng không có, và có vẻ như cửa sổ ngữ cảnh đã được mở rộng lên hơn 200K token
- Điểm reasoning version phát âm token suy nghĩ khá thú vị. Trước đây Claude cũng từng hoạt động theo kiểu này
- Sẽ vui hơn nếu thêm hiệu ứng kiểu reverb vào token suy nghĩ để có thể nghe được ‘âm thanh suy nghĩ’ của mô hình
Tôi từng thắc mắc liệu Qwen3-Omni có hỗ trợ hội thoại thời gian thực như GPT-4o hay không
Trong tài liệu thì có vẻ là không, nhưng thực tế được nói là có hỗ trợ
Tôi cũng tò mò không biết đã có ai chạy cục bộ nó trong môi trường không dùng NVIDIA chưa
- Trên trang chat chính thức vẫn chưa có mô hình audio→audio
  Tôi thường kiểm tra bằng các bài test từ đồng âm khác nghĩa (record vs record) hoặc yêu cầu thay đổi giọng điệu khi nói
- Các framework suy luận như vLLM hay SGLang vẫn chưa hỗ trợ hoàn chỉnh, nên môi trường không dùng NVIDIA là không khả thi
- Dù vậy, có vẻ vẫn có tính năng speech-to-speech gốc
- Tôi cho rằng hiện vẫn chưa có ứng dụng chat giọng nói cục bộ nào thật sự hoàn thiện
  Ngay cả Silly Tavern cũng gần như ở mức unusable
  Nhưng chính những mô hình giọng nói cục bộ như vậy mới là cốt lõi của quy trình làm việc dựa trên ngôn ngữ tự nhiên
Tôi muốn biết liệu có thể chạy mô hình Omni trên Macbook bằng GGUF hay MLX không
Có thể dùng LMStudio hoặc Llama.cpp, nhưng chúng không hỗ trợ stream từ micro hoặc webcam
Qwen thường cung cấp ví dụ Python dựa trên Cuda, nên tôi đang tìm xem có lựa chọn mã nguồn mở nào thay thế không
- Có vẻ có thể kết nối nếu tham khảo hướng dẫn dùng vLLM và demo web UI cục bộ
- Có thể làm được bằng whisper.cpp
Tôi đang dùng Gemini Flash Live 2.5 khá tốt
Hy vọng bản 3.0 sẽ sớm ra mắt
Trên benchmark thì nó được nói là tốt hơn Gemini Live, nhưng vẫn phải tự thử mới biết
Cá nhân tôi luôn thấy mô hình Qwen Omni còn hơi đáng tiếc trong môi trường thiên về tiếng Anh
32B là khá nhỏ nên có vẻ có thể chạy trên máy 64GB RAM
Khi nó lên Ollama tôi sẽ tự thử
- Có vẻ mô hình Qwen3-Omni-30B-A3B trên Hugging Face đã được cập nhật vào tháng 9
  Nhưng trong benchmark của bài báo thì Qwen3-Omni-Flash-2025-12-01 lại được ghi là mạnh hơn Qwen3-235B-A22B
  Tôi thấy khó hiểu vì đây là mô hình 30B mà lại có thể như vậy
  Bản FLASH không có trên Hugging Face, nên rất có thể là mô hình chỉ dành cho API
- Tôi đang chạy khá ổn trên Mac 48GB RAM nhờ bộ nhớ hợp nhất
Ban đầu tôi tưởng nó chỉ dành cho API, nhưng trong bộ sưu tập trên Hugging Face đúng là có mô hình
Tuy nhiên thực tế đó là phiên bản cũ, và cả demo trên HF cũng gọi API nên không phải tính toán cục bộ
Điều gây ấn tượng là Qwen3-Omni vượt 2.5 Flash trên mọi benchmark
Có lẽ đã đến lúc chuyển workload LLM sang GPU cục bộ
- Nhưng nhất định phải benchmark bằng chính dataset của mình
  Benchmark công khai rất khó tin, và nếu chọn mô hình chỉ dựa vào đó thì dễ thất vọng
- Nếu là tác vụ chỉ có văn bản thì dùng Qwen3-30B-A3B sẽ hiệu quả hơn Omni
- Benchmark hình ảnh có vẻ đang so với Qwen 2.0 nên hơi đáng nghi
Tôi thắc mắc vì sao cách nói của mô hình giọng nói lại cho cảm giác thiếu sức sống
Đặc biệt ở đoạn nói về giá trái cây, dù hoàn toàn tự nhiên nhưng vẫn nhận ra ngay đó là AI
Có lẽ là do ngữ điệu hoặc tốc độ nói quá đều
- Cá nhân tôi lại thấy việc ít cảm xúc hơn là tốt
  Biểu đạt cảm xúc quá mức tạo cảm giác giả tạo
  Tuy vậy, lỗi phát âm tiếng Đức thì khá đáng tiếc
- Có thể nó không phải mô hình đa phương thức end-to-end hoàn chỉnh
  Có lẽ vẫn có một bước tổng hợp giọng nói riêng nên mới cho ra kết quả như vậy
  Có thể kiểm tra bằng bài test hát hoặc ngữ điệu
- Có vẻ do họ nhồi quá nhiều chức năng như thị giác, âm thanh, đa ngôn ngữ, điều khiển ngữ điệu vào 30B tham số
  Mô hình giọng nói của ChatGPT vẫn là tự nhiên nhất
- Việc có thể nhận ra ngay giọng AI có khi lại là điều tốt
- Cá nhân tôi lại thích việc nó có accent đặc trưng của AI
Có một vấn đề là trong đầu ra giọng nói thời gian thực, rất khó phân biệt giữa token ‘đang suy nghĩ’ và phần phát ngôn dành cho người dùng
- Cách đơn giản là tách luồng đầu ra trước khi TTS
  Gửi token reasoning/structured sang một phía, còn văn bản dành cho người dùng sang phía khác
  Chỉ tổng hợp giọng nói cho phần sau thì sẽ giải quyết được việc nghe thấy phần ‘đang suy nghĩ’
Có vẻ Qwen đang diễn đạt mập mờ về việc có công khai open-weight hay không
Thực tế phần lớn là không công khai, và nhiều trường hợp trông như được phát hành công khai nhưng thật ra chỉ dành cho API
Vì vậy người dùng tốn công tìm mô hình một cách vô ích

Qwen3-Omni-Flash-2025-12-01: mô hình lớn đa phương thức native thế hệ tiếp theo

Tổng quan về Qwen3-Omni-Flash-2025-12-01

Các cải tiến tính năng chính

Chỉ số cải thiện hiệu năng

Kế hoạch sắp tới

Thông tin trích dẫn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News