Qwen3.5-Omni: ra mắt LLM omni-modal hoàn chỉnh xử lý văn bản, hình ảnh, âm thanh và video

(qwen.ai)

7 điểm bởi GN⁺ 22 ngày trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình mới nhất của đội ngũ Alibaba Qwen có thể hiểu và tạo ra văn bản, hình ảnh, âm thanh và video; áp dụng Hybrid-Attention MoE cho kiến trúc Thinker-Talker để tăng cường mạnh mẽ khả năng xử lý trên mọi modality
Cung cấp 3 phiên bản Instruct với kích thước Plus·Flash·Light, hỗ trợ đầu vào ngữ cảnh dài 256k, âm thanh hơn 10 giờ và video hơn 400 giây ở chuẩn 720P
Qwen3.5-Omni-Plus đạt SOTA trên 215 benchmark hiểu âm thanh và video, đồng thời vượt Gemini-3.1 Pro ở toàn bộ các mảng hiểu âm thanh phổ thông, suy luận, dịch và hội thoại
So với thế hệ trước, hỗ trợ đa ngôn ngữ được mở rộng đáng kể với nhận dạng giọng nói cho 74 ngôn ngữ và 39 phương ngữ tiếng Trung, cùng tổng hợp giọng nói cho 36 ngôn ngữ; đồng thời bổ sung các tính năng tương tác như voice clone, tìm kiếm web, hội thoại thời gian thực, điều khiển cảm xúc/tốc độ/âm lượng
Công nghệ ARIA (Adaptive Rate Interleave Alignment) giải quyết các vấn đề bỏ sót và đọc sai do chênh lệch hiệu suất mã hóa giữa token văn bản và token giọng nói, cải thiện đột phá độ tự nhiên và độ ổn định của tổng hợp giọng nói dạng streaming

Tổng quan mô hình

Qwen3.5-Omni là LLM omni-modal hoàn chỉnh mới nhất của Qwen, có thể xử lý văn bản, hình ảnh, âm thanh và video
Cả Thinker và Talker đều dùng kiến trúc Hybrid-Attention MoE để cải thiện hiệu năng xử lý đa phương thức
Có 3 phiên bản Instruct là Plus, Flash, Light, và tất cả đều hỗ trợ đầu vào ngữ cảnh dài 256k
- Đầu vào âm thanh: hơn 10 giờ
- Đầu vào video ở chuẩn 720P·1FPS: hơn 400 giây
Thực hiện pre-training theo hướng omni-modal với lượng lớn dữ liệu văn bản, dữ liệu thị giác và hơn 100 triệu giờ dữ liệu audio-visual
Hiện đã có thể sử dụng thông qua Offline API và Realtime API

Qwen3.5-Omni-Plus đạt SOTA trên 215 subtask/benchmark về hiểu, suy luận và tương tác audio-visual
- Bao gồm 3 benchmark audio-visual, 5 benchmark âm thanh, 8 benchmark ASR, 156 bộ S2TT theo ngôn ngữ và 43 bộ ASR theo ngôn ngữ
Vượt Gemini-3.1 Pro trên toàn bộ các mảng hiểu âm thanh phổ thông, suy luận, nhận dạng, dịch và hội thoại; đồng thời mức độ hiểu audio-visual tổng thể cũng đạt tới Gemini-3.1 Pro
Hiệu năng thị giác và văn bản tương đương với các mô hình Qwen3.5 cùng kích thước
Tính năng audio-visual captioning: hỗ trợ mô tả ở mức độ kịch bản như caption chi tiết và có cấu trúc, phân đoạn tự động, chú thích timestamp, mô tả nhân vật xuất hiện và mối quan hệ âm thanh
Audio-Visual Vibe Coding: xác nhận một khả năng omni-modal mới có thể trực tiếp sinh mã dựa trên chỉ thị audio-visual

Semantic Interruption: nhận diện ý định turn-taking dựa trên Odin để ngăn việc ngắt không cần thiết do backchanneling và tiếng ồn nền; được tích hợp mặc định trong API
Hỗ trợ gốc WebSearch và FunctionCall phức tạp: mô hình tự quyết định có gọi tìm kiếm web hay không để phản hồi truy vấn theo thời gian thực
Điều khiển giọng nói end-to-end: làm theo chỉ dẫn như con người, cho phép tự do điều khiển âm lượng, tốc độ và cảm xúc khi phát ngôn
Voice Clone: người dùng có thể tải lên giọng nói để tùy biến giọng của AI assistant; tất cả đều được cung cấp qua Realtime API
Có thể thay đổi phong cách hội thoại và danh tính của mô hình bằng cách chỉnh sửa system prompt

Đề xuất công nghệ ARIA (Adaptive Rate Interleave Alignment) để giải quyết các vấn đề bỏ sót, đọc sai và phát âm không rõ phát sinh từ chênh lệch hiệu suất mã hóa giữa token văn bản và token giọng nói trong tương tác giọng nói dạng streaming
Căn chỉnh động (interleave) giữa đơn vị văn bản và giọng nói để vừa duy trì hiệu năng thời gian thực vừa cải thiện mạnh mẽ độ tự nhiên và độ ổn định của tổng hợp giọng nói
Thay thế phương thức tỷ lệ tokenizer văn bản-giọng nói cố định 1:1 của thế hệ trước Qwen3-Omni

Nhận dạng giọng nói (ASR)
- Trước đây: 11 ngôn ngữ đa ngôn ngữ + 8 phương ngữ tiếng Trung
- Hiện tại: 74 ngôn ngữ + 39 phương ngữ tiếng Trung
Tổng hợp giọng nói (TTS)
- Trước đây: 29 ngôn ngữ đa ngôn ngữ + 7 phương ngữ tiếng Trung
- Hiện tại: tạo giọng nói cho 36 ngôn ngữ (nguyên văn không nêu riêng danh sách tổng hợp cho phương ngữ)

Audio-visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Âm thanh (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Độ ổn định tổng hợp giọng nói WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: hỗ trợ phân tích video·âm thanh, tìm kiếm web (tham số enable_search); gọi bằng Python OpenAI-compatible SDK
Realtime API: hội thoại thời gian thực dựa trên WebSocket; dùng dashscope SDK, hỗ trợ streaming đầu vào/đầu ra giọng nói
Model ID có sẵn: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Hỗ trợ phân tách endpoint cho Trung Quốc đại lục (Bắc Kinh) và quốc tế (Singapore)

Giọng tùy chỉnh tiếng Trung·tiếng Anh: 5 loại gồm Tina, Cindy, Liora Mira, Sunnybobi, Raymond
Giọng theo kịch bản như cảm xúc kèm theo·role-play: 19 loại gồm Ethan, Harvey, Maia... (tiếng Trung và tiếng Anh)
Giọng phương ngữ tiếng Trung: 8 loại gồm phương ngữ Tứ Xuyên, phương ngữ Bắc Kinh, phương ngữ Thiên Tân, tiếng Quảng Đông...
Giọng đa ngôn ngữ: tổng cộng 23 loại cho 23 ngôn ngữ gồm tiếng Hàn (Sohee), tiếng Đức (Lenn), tiếng Nhật (Ono Anna), tiếng Tây Ban Nha, tiếng Pháp, tiếng Nga...