- Mô hình mới nhất của đội ngũ Alibaba Qwen có thể hiểu và tạo ra văn bản, hình ảnh, âm thanh và video; áp dụng Hybrid-Attention MoE cho kiến trúc Thinker-Talker để tăng cường mạnh mẽ khả năng xử lý trên mọi modality
- Cung cấp 3 phiên bản Instruct với kích thước Plus·Flash·Light, hỗ trợ đầu vào ngữ cảnh dài 256k, âm thanh hơn 10 giờ và video hơn 400 giây ở chuẩn 720P
- Qwen3.5-Omni-Plus đạt SOTA trên 215 benchmark hiểu âm thanh và video, đồng thời vượt Gemini-3.1 Pro ở toàn bộ các mảng hiểu âm thanh phổ thông, suy luận, dịch và hội thoại
- So với thế hệ trước, hỗ trợ đa ngôn ngữ được mở rộng đáng kể với nhận dạng giọng nói cho 74 ngôn ngữ và 39 phương ngữ tiếng Trung, cùng tổng hợp giọng nói cho 36 ngôn ngữ; đồng thời bổ sung các tính năng tương tác như voice clone, tìm kiếm web, hội thoại thời gian thực, điều khiển cảm xúc/tốc độ/âm lượng
- Công nghệ ARIA (Adaptive Rate Interleave Alignment) giải quyết các vấn đề bỏ sót và đọc sai do chênh lệch hiệu suất mã hóa giữa token văn bản và token giọng nói, cải thiện đột phá độ tự nhiên và độ ổn định của tổng hợp giọng nói dạng streaming
Tổng quan mô hình
- Qwen3.5-Omni là LLM omni-modal hoàn chỉnh mới nhất của Qwen, có thể xử lý văn bản, hình ảnh, âm thanh và video
- Cả Thinker và Talker đều dùng kiến trúc Hybrid-Attention MoE để cải thiện hiệu năng xử lý đa phương thức
- Có 3 phiên bản Instruct là Plus, Flash, Light, và tất cả đều hỗ trợ đầu vào ngữ cảnh dài 256k
- Đầu vào âm thanh: hơn 10 giờ
- Đầu vào video ở chuẩn 720P·1FPS: hơn 400 giây
- Thực hiện pre-training theo hướng omni-modal với lượng lớn dữ liệu văn bản, dữ liệu thị giác và hơn 100 triệu giờ dữ liệu audio-visual
- Hiện đã có thể sử dụng thông qua Offline API và Realtime API
Hiệu năng chính (Offline)
- Qwen3.5-Omni-Plus đạt SOTA trên 215 subtask/benchmark về hiểu, suy luận và tương tác audio-visual
- Bao gồm 3 benchmark audio-visual, 5 benchmark âm thanh, 8 benchmark ASR, 156 bộ S2TT theo ngôn ngữ và 43 bộ ASR theo ngôn ngữ
- Vượt Gemini-3.1 Pro trên toàn bộ các mảng hiểu âm thanh phổ thông, suy luận, nhận dạng, dịch và hội thoại; đồng thời mức độ hiểu audio-visual tổng thể cũng đạt tới Gemini-3.1 Pro
- Hiệu năng thị giác và văn bản tương đương với các mô hình Qwen3.5 cùng kích thước
- Tính năng audio-visual captioning: hỗ trợ mô tả ở mức độ kịch bản như caption chi tiết và có cấu trúc, phân đoạn tự động, chú thích timestamp, mô tả nhân vật xuất hiện và mối quan hệ âm thanh
- Audio-Visual Vibe Coding: xác nhận một khả năng omni-modal mới có thể trực tiếp sinh mã dựa trên chỉ thị audio-visual
Tính năng chính (Realtime)
- Semantic Interruption: nhận diện ý định turn-taking dựa trên Odin để ngăn việc ngắt không cần thiết do backchanneling và tiếng ồn nền; được tích hợp mặc định trong API
- Hỗ trợ gốc WebSearch và FunctionCall phức tạp: mô hình tự quyết định có gọi tìm kiếm web hay không để phản hồi truy vấn theo thời gian thực
- Điều khiển giọng nói end-to-end: làm theo chỉ dẫn như con người, cho phép tự do điều khiển âm lượng, tốc độ và cảm xúc khi phát ngôn
- Voice Clone: người dùng có thể tải lên giọng nói để tùy biến giọng của AI assistant; tất cả đều được cung cấp qua Realtime API
- Có thể thay đổi phong cách hội thoại và danh tính của mô hình bằng cách chỉnh sửa system prompt
Công nghệ ARIA
- Đề xuất công nghệ ARIA (Adaptive Rate Interleave Alignment) để giải quyết các vấn đề bỏ sót, đọc sai và phát âm không rõ phát sinh từ chênh lệch hiệu suất mã hóa giữa token văn bản và token giọng nói trong tương tác giọng nói dạng streaming
- Căn chỉnh động (interleave) giữa đơn vị văn bản và giọng nói để vừa duy trì hiệu năng thời gian thực vừa cải thiện mạnh mẽ độ tự nhiên và độ ổn định của tổng hợp giọng nói
- Thay thế phương thức tỷ lệ tokenizer văn bản-giọng nói cố định 1:1 của thế hệ trước Qwen3-Omni
Thay đổi kiến trúc (so với Qwen3-Omni)
- Backbone: MoE → Hybrid-MoE
- Độ dài chuỗi: 32k → 256k (âm thanh 10 giờ, video 400 giây)
- Phạm vi captioning: chỉ âm thanh → audio-visual
- Semantic Interruption: không hỗ trợ → hỗ trợ
- WebSearch/Tool: không hỗ trợ → hỗ trợ
- Điều khiển/clone giọng nói: không hỗ trợ → hỗ trợ
- Cấu trúc Talker: Dual-Track Autoregression → Interleave + ARIA
Mở rộng hỗ trợ đa ngôn ngữ
- Nhận dạng giọng nói (ASR)
- Trước đây: 11 ngôn ngữ đa ngôn ngữ + 8 phương ngữ tiếng Trung
- Hiện tại: 74 ngôn ngữ + 39 phương ngữ tiếng Trung
- Tổng hợp giọng nói (TTS)
- Trước đây: 29 ngôn ngữ đa ngôn ngữ + 7 phương ngữ tiếng Trung
- Hiện tại: tạo giọng nói cho 36 ngôn ngữ (nguyên văn không nêu riêng danh sách tổng hợp cho phương ngữ)
Số liệu benchmark (trích chính)
- Audio-visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- Âm thanh (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- Độ ổn định tổng hợp giọng nói WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API và cách sử dụng
- Offline API: hỗ trợ phân tích video·âm thanh, tìm kiếm web (tham số
enable_search); gọi bằng Python OpenAI-compatible SDK
- Realtime API: hội thoại thời gian thực dựa trên WebSocket; dùng dashscope SDK, hỗ trợ streaming đầu vào/đầu ra giọng nói
- Model ID có sẵn:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- Hỗ trợ phân tách endpoint cho Trung Quốc đại lục (Bắc Kinh) và quốc tế (Singapore)
Danh sách giọng nói
- Giọng tùy chỉnh tiếng Trung·tiếng Anh: 5 loại gồm Tina, Cindy, Liora Mira, Sunnybobi, Raymond
- Giọng theo kịch bản như cảm xúc kèm theo·role-play: 19 loại gồm Ethan, Harvey, Maia... (tiếng Trung và tiếng Anh)
- Giọng phương ngữ tiếng Trung: 8 loại gồm phương ngữ Tứ Xuyên, phương ngữ Bắc Kinh, phương ngữ Thiên Tân, tiếng Quảng Đông...
- Giọng đa ngôn ngữ: tổng cộng 23 loại cho 23 ngôn ngữ gồm tiếng Hàn (Sohee), tiếng Đức (Lenn), tiếng Nhật (Ono Anna), tiếng Tây Ban Nha, tiếng Pháp, tiếng Nga...
Chưa có bình luận nào.