1 điểm bởi GN⁺ 2025-12-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Qwen3-Omni-Flash-2025-12-01 là mô hình đa phương thức thế hệ tiếp theo có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra văn bản và giọng nói qua streaming thời gian thực
  • Khả năng hiểu lệnh âm thanh·thị giác và độ ổn định hội thoại được cải thiện đáng kể, cho phép triển khai tương tác giọng nói-hình ảnh tự nhiên và nhất quán
  • Tính năng kiểm soát hoàn toàn system prompt cho phép điều chỉnh chi tiết như phong cách nhân cách, giọng điệu và độ dài đầu ra
  • Hỗ trợ văn bản 119 ngôn ngữ, nhận dạng giọng nói 19 ngôn ngữ, tổng hợp giọng nói 10 ngôn ngữ, giải quyết vấn đề nhất quán đa ngôn ngữ
  • Hiệu năng được cải thiện trên mọi mặt như suy luận logic, sinh mã, hiểu thị giác·giọng nói, mang lại trải nghiệm tương tác AI tự nhiên và chính xác

Tổng quan về Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni là mô hình lớn đa phương thức native xử lý nhiều loại đầu vào như văn bản, hình ảnh, âm thanh và video, đồng thời tạo đầu ra văn bản và giọng nói tự nhiên theo thời gian thực
  • Phiên bản lần này, Qwen3-Omni-Flash-2025-12-01, là bản nâng cấp toàn diện dựa trên Qwen3-Omni hiện có
  • Cải thiện toàn diện về hiệu năng và hiệu quả của mô hình để mang lại khả năng xử lý đa phương thức nhanh hơn và chính xác hơn

Các cải tiến tính năng chính

  • Tăng cường tương tác âm thanh-thị giác

    • Khả năng hiểu và thực thi lệnh bằng giọng nói·video được cải thiện mạnh, giải quyết vấn đề suy giảm độ thông minh trong các tình huống khẩu ngữ thường ngày
    • Độ ổn định và tính nhất quán của hội thoại âm thanh-thị giác nhiều lượt được nâng cao, giúp tương tác tự nhiên hơn
  • Tăng cường kiểm soát system prompt

    • Có thể tùy biến hoàn toàn system prompt để kiểm soát chính xác hành vi của mô hình
    • Có thể tinh chỉnh chi tiết các yếu tố như phong cách nhân cách (ví dụ: ngọt ngào, lạnh lùng, phong cách anime), giọng điệu và độ dài đầu ra
  • Nâng cao độ tin cậy của hỗ trợ đa ngôn ngữ

    • Hỗ trợ 119 ngôn ngữ cho tương tác dựa trên văn bản, 19 ngôn ngữ cho nhận dạng giọng nói và 10 ngôn ngữ cho tổng hợp giọng nói
    • Khắc phục vấn đề thiếu ổn định ngôn ngữ ở phiên bản trước, bảo đảm hiệu năng đa ngôn ngữ chính xác và nhất quán
  • Tổng hợp giọng nói tự nhiên

    • Tự động điều chỉnh tốc độ nói, khoảng dừng và ngữ điệu theo ngữ cảnh văn bản để tạo ra chất lượng giọng nói giống con người
    • Loại bỏ chất giọng chậm hoặc máy móc, mang lại đầu ra giọng nói tự nhiên giàu biểu cảm

Chỉ số cải thiện hiệu năng

  • Tăng cường khả năng hiểu và sinh văn bản

    • Suy luận logic ZebraLogic +5.6, sinh mã LiveCodeBench-v6 +9.3, MultiPL-E +2.7, chất lượng viết WritingBench +2.2 được cải thiện
    • Nâng cao độ tin cậy khi thực hiện các chỉ dẫn phức tạp nhiều bước
  • Cải thiện độ chính xác hiểu giọng nói

    • Giảm tỷ lệ lỗi từ trên Fleurs-zh, cải thiện VoiceBench +3.2
    • Tăng cường khả năng hiểu giọng nói trong môi trường hội thoại thực tế
  • Cải thiện chất lượng tổng hợp giọng nói

    • Tạo ra ngữ điệu và nhịp điệu tự nhiên trong môi trường tiếng Trung và đa ngôn ngữ
    • Đạt chất lượng phát âm tương tự giọng nói con người
  • Tăng cường khả năng hiểu hình ảnh

    • Trong các bài toán suy luận thị giác, MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 được cải thiện
    • Nâng cao khả năng diễn giải nội dung thị giác phức tạp như sơ đồ và hình học toán học
  • Cải thiện khả năng hiểu video

    • MLVU +1.6 được cải thiện, tăng cường khả năng hiểu ngữ nghĩa video
    • Cải thiện đồng bộ âm thanh-thị giác để tăng cường nền tảng cho hội thoại video thời gian thực

Kế hoạch sắp tới

  • Dự kiến thu thập phản hồi người dùng và các trường hợp ứng dụng đổi mới dựa trên Qwen3-Omni
  • Trong tương lai sẽ mở rộng các tính năng như nhận dạng giọng nói nhiều người nói (ASR), video OCR, tự học audio-video, workflow dựa trên agent và hỗ trợ function calling

Thông tin trích dẫn

  • Khi sử dụng cho nghiên cứu, khuyến nghị dùng trích dẫn sau

1 bình luận

 
GN⁺ 2025-12-12
Ý kiến trên Hacker News
  • Mô hình lần này có kiến trúc MoE 30B tham số, với số tham số được kích hoạt ở mức khoảng 3B
    Là phiên bản kế nhiệm của mô hình omni 7B trước đó, nên có thể kỳ vọng hiệu năng tương tự Qwen2.5-Omni-7B
    Vì hiện chưa có nhiều mô hình omni được công khai, nên tôi nghĩ đây là một bản phát hành khá đáng chú ý
    Cá nhân tôi muốn dùng mô hình này để thay thế giao diện đầu vào/đầu ra (bàn phím·màn hình), còn phần tính toán sẽ do công nghệ khác xử lý ở backend
    Ngoài ra còn có phiên bản reasoning, có chức năng phát âm token ‘đang suy nghĩ’ trong lúc trò chuyện bằng giọng nói nên có vẻ khá thú vị

    • Mô hình này là dạng nhiều thành phần được xếp chồng lên nhau
      Gồm bộ mã hóa âm thanh 650M, bộ mã hóa thị giác 540M, LLM 30B-A3B, audio LLM 3B-A0.3B, và dùng 80M Transformer/200M ConvNet để chuyển audio token thành dạng sóng
      Đây là phiên bản cập nhật trọng số không công khai của Qwen3-Omni; trước đây Qwen/Qwen3-Omni-30B-A3B-Instruct đã từng được công bố
      Hiện tại vẫn chưa được các framework suy luận mã nguồn mở hỗ trợ đầy đủ, nên chỉ chạy được trên transformers và rất chậm
    • Theo tài liệu Alibaba Cloud, mô hình này không phải mã nguồn mở
    • Tôi không tìm thấy trọng số của phiên bản mới ở đâu cả. Đã kiểm tra Modelscope và Hugging Face nhưng không có, và có vẻ như cửa sổ ngữ cảnh đã được mở rộng lên hơn 200K token
    • Điểm reasoning version phát âm token suy nghĩ khá thú vị. Trước đây Claude cũng từng hoạt động theo kiểu này
    • Sẽ vui hơn nếu thêm hiệu ứng kiểu reverb vào token suy nghĩ để có thể nghe được ‘âm thanh suy nghĩ’ của mô hình
  • Tôi từng thắc mắc liệu Qwen3-Omni có hỗ trợ hội thoại thời gian thực như GPT-4o hay không
    Trong tài liệu thì có vẻ là không, nhưng thực tế được nói là có hỗ trợ
    Tôi cũng tò mò không biết đã có ai chạy cục bộ nó trong môi trường không dùng NVIDIA chưa

    • Trên trang chat chính thức vẫn chưa có mô hình audio→audio
      Tôi thường kiểm tra bằng các bài test từ đồng âm khác nghĩa (record vs record) hoặc yêu cầu thay đổi giọng điệu khi nói
    • Các framework suy luận như vLLM hay SGLang vẫn chưa hỗ trợ hoàn chỉnh, nên môi trường không dùng NVIDIA là không khả thi
    • Dù vậy, có vẻ vẫn có tính năng speech-to-speech gốc
    • Tôi cho rằng hiện vẫn chưa có ứng dụng chat giọng nói cục bộ nào thật sự hoàn thiện
      Ngay cả Silly Tavern cũng gần như ở mức unusable
      Nhưng chính những mô hình giọng nói cục bộ như vậy mới là cốt lõi của quy trình làm việc dựa trên ngôn ngữ tự nhiên
  • Tôi muốn biết liệu có thể chạy mô hình Omni trên Macbook bằng GGUF hay MLX không
    Có thể dùng LMStudio hoặc Llama.cpp, nhưng chúng không hỗ trợ stream từ micro hoặc webcam
    Qwen thường cung cấp ví dụ Python dựa trên Cuda, nên tôi đang tìm xem có lựa chọn mã nguồn mở nào thay thế không

  • Tôi đang dùng Gemini Flash Live 2.5 khá tốt
    Hy vọng bản 3.0 sẽ sớm ra mắt
    Trên benchmark thì nó được nói là tốt hơn Gemini Live, nhưng vẫn phải tự thử mới biết
    Cá nhân tôi luôn thấy mô hình Qwen Omni còn hơi đáng tiếc trong môi trường thiên về tiếng Anh

  • 32B là khá nhỏ nên có vẻ có thể chạy trên máy 64GB RAM
    Khi nó lên Ollama tôi sẽ tự thử

    • Có vẻ mô hình Qwen3-Omni-30B-A3B trên Hugging Face đã được cập nhật vào tháng 9
      Nhưng trong benchmark của bài báo thì Qwen3-Omni-Flash-2025-12-01 lại được ghi là mạnh hơn Qwen3-235B-A22B
      Tôi thấy khó hiểu vì đây là mô hình 30B mà lại có thể như vậy
      Bản FLASH không có trên Hugging Face, nên rất có thể là mô hình chỉ dành cho API
    • Tôi đang chạy khá ổn trên Mac 48GB RAM nhờ bộ nhớ hợp nhất
  • Ban đầu tôi tưởng nó chỉ dành cho API, nhưng trong bộ sưu tập trên Hugging Face đúng là có mô hình
    Tuy nhiên thực tế đó là phiên bản cũ, và cả demo trên HF cũng gọi API nên không phải tính toán cục bộ

  • Điều gây ấn tượng là Qwen3-Omni vượt 2.5 Flash trên mọi benchmark
    Có lẽ đã đến lúc chuyển workload LLM sang GPU cục bộ

    • Nhưng nhất định phải benchmark bằng chính dataset của mình
      Benchmark công khai rất khó tin, và nếu chọn mô hình chỉ dựa vào đó thì dễ thất vọng
    • Nếu là tác vụ chỉ có văn bản thì dùng Qwen3-30B-A3B sẽ hiệu quả hơn Omni
    • Benchmark hình ảnh có vẻ đang so với Qwen 2.0 nên hơi đáng nghi
  • Tôi thắc mắc vì sao cách nói của mô hình giọng nói lại cho cảm giác thiếu sức sống
    Đặc biệt ở đoạn nói về giá trái cây, dù hoàn toàn tự nhiên nhưng vẫn nhận ra ngay đó là AI
    Có lẽ là do ngữ điệu hoặc tốc độ nói quá đều

    • Cá nhân tôi lại thấy việc ít cảm xúc hơn là tốt
      Biểu đạt cảm xúc quá mức tạo cảm giác giả tạo
      Tuy vậy, lỗi phát âm tiếng Đức thì khá đáng tiếc
    • Có thể nó không phải mô hình đa phương thức end-to-end hoàn chỉnh
      Có lẽ vẫn có một bước tổng hợp giọng nói riêng nên mới cho ra kết quả như vậy
      Có thể kiểm tra bằng bài test hát hoặc ngữ điệu
    • Có vẻ do họ nhồi quá nhiều chức năng như thị giác, âm thanh, đa ngôn ngữ, điều khiển ngữ điệu vào 30B tham số
      Mô hình giọng nói của ChatGPT vẫn là tự nhiên nhất
    • Việc có thể nhận ra ngay giọng AI có khi lại là điều tốt
    • Cá nhân tôi lại thích việc nó có accent đặc trưng của AI
  • Có một vấn đề là trong đầu ra giọng nói thời gian thực, rất khó phân biệt giữa token ‘đang suy nghĩ’ và phần phát ngôn dành cho người dùng

    • Cách đơn giản là tách luồng đầu ra trước khi TTS
      Gửi token reasoning/structured sang một phía, còn văn bản dành cho người dùng sang phía khác
      Chỉ tổng hợp giọng nói cho phần sau thì sẽ giải quyết được việc nghe thấy phần ‘đang suy nghĩ’
  • Có vẻ Qwen đang diễn đạt mập mờ về việc có công khai open-weight hay không
    Thực tế phần lớn là không công khai, và nhiều trường hợp trông như được phát hành công khai nhưng thật ra chỉ dành cho API
    Vì vậy người dùng tốn công tìm mô hình một cách vô ích