Qwen3-Omni: Mô hình AI omni native cho văn bản, hình ảnh và video

(github.com/QwenLM)

12 điểm bởi GN⁺ 2025-09-23 | 2 bình luận | Chia sẻ qua WhatsApp

LLM đa phương thức tiên tiến có thể xử lý văn bản, hình ảnh, âm thanh và video trong một mô hình duy nhất, đồng thời hỗ trợ tạo giọng nói theo thời gian thực
Hỗ trợ 119 ngôn ngữ văn bản, 19 ngôn ngữ đầu vào giọng nói và 10 ngôn ngữ đầu ra giọng nói, rất phù hợp để triển khai các dịch vụ toàn cầu
Kiến trúc mô hình sử dụng thiết kế Thinker–Talker dựa trên MoE, tăng cường cả hiệu năng lẫn hiệu quả, đồng thời cung cấp hội thoại dựa trên streaming và khả năng điều khiển hành vi theo nhu cầu người dùng
Qwen3-Omni-30B-A3B-Captioner được phát hành mã nguồn mở mang đến khả năng caption âm thanh chi tiết với tỷ lệ ảo giác thấp
Hỗ trợ nhiều con đường triển khai dịch vụ thực tế linh hoạt như Hugging Face Transformers, vLLM, Docker, API cùng các tính năng thuận tiện cho phát triển

Tổng quan và tầm quan trọng của Qwen3-Omni

Qwen3-Omni là LLM omnimodal đa ngôn ngữ end-to-end của mã nguồn mở do đội Qwen của Alibaba Cloud phát triển
Dự án này nổi bật ở chỗ, ngay cả trong số các AI đa phương thức mã nguồn mở hiện nay, rất hiếm mô hình có thể hiểu tích hợp văn bản, hình ảnh, âm thanh và video, đồng thời tạo phản hồi theo thời gian thực
So với các dự án mã nguồn mở cạnh tranh, mô hình này có lợi thế về hỗ trợ ngôn ngữ rộng, streaming thời gian thực và caption âm thanh độ chính xác cao
Có thể nhanh chóng hiện thực hóa nhiều dịch vụ mới như hỏi đáp ngôn ngữ tự nhiên, phân tích tình huống âm thanh - hình ảnh, giao diện đa phương thức theo thời gian

Các tính năng chính

Xử lý đa phương thức: xử lý cùng lúc đầu vào văn bản, hình ảnh, âm thanh, video và xuất phản hồi văn bản/giọng nói theo thời gian thực
Hiệu năng hàng đầu: đạt SOTA ở 22 trên 36 benchmark liên quan đến âm thanh/video, 32 SOTA trong phạm vi mã nguồn mở, hiệu năng ASR và hội thoại giọng nói tương đương Gemini 2.5 Pro
Hỗ trợ ngôn ngữ rộng: hỗ trợ 119 ngôn ngữ văn bản, 19 ngôn ngữ đầu vào giọng nói và 10 ngôn ngữ đầu ra giọng nói
Streaming thời gian thực: cho phép turn-taking tự nhiên và phản hồi tức thì nhanh chóng
Điều khiển tùy biến theo người dùng: hỗ trợ điều chỉnh hành vi chi tiết và tăng khả năng thích ứng thông qua system prompt
Kiến trúc dựa trên MoE: thiết kế Thinker–Talker, pretraining AuT, cấu trúc multi-codebook giúp đạt độ trễ cực thấp và hiệu quả cao
Mã nguồn mở mô hình caption âm thanh: Qwen3-Omni-30B-A3B-Captioner hỗ trợ mô tả âm thanh chi tiết và giảm hiện tượng ảo giác

Ví dụ kịch bản theo từng miền hỗ trợ

Âm thanh: nhận dạng giọng nói, dịch giọng nói, phân tích nhạc/âm thanh, caption âm thanh
Hình ảnh: OCR hình ảnh phức hợp, nhận diện đối tượng, QA dựa trên hình ảnh, giải bài toán, mô tả video/chỉ đường, phân tích chuyển cảnh
Âm thanh + hình ảnh: QA đa phương thức, hội thoại, gọi giọng nói cho agent
Fine-tuning downstream: fine-tune mô hình caption bằng Qwen3-Omni-30B-A3B-Instruct

Mô tả từng mô hình

Qwen3-Omni-30B-A3B-Instruct: đầu vào âm thanh, video, văn bản + đầu ra văn bản/giọng nói (thinker + talker)
Qwen3-Omni-30B-A3B-Thinking: đầu vào âm thanh, video, văn bản + đầu ra văn bản (chỉ thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: đầu vào âm thanh → đầu ra văn bản, mô tả chi tiết và giảm thiểu ảo giác (chuyên về caption)

Môi trường triển khai chính và ưu điểm

Tích hợp Hugging Face Transformers: dễ nhúng vào mã, xử lý linh hoạt nhiều kênh đầu vào (B64, URL, v.v.), hỗ trợ FlashAttention 2
vLLM: mạnh về độ trễ thấp và khả năng đồng thời cho dịch vụ quy mô lớn, suy luận batch nhanh, dễ mở rộng trong môi trường multi-GPU, mạnh về tích hợp server-API
Cung cấp image Docker: giảm xung đột môi trường, dễ thử nghiệm và triển khai
DashScope API: API chính thức của Alibaba, hỗ trợ cả thời gian thực và offline
Demo web/on-premise: có thể trải nghiệm qua web mà không cần tự dựng riêng

Ví dụ sử dụng thực tế và mẹo

Thuật toán lõi và tính năng

Cấu trúc Thinker–Talker cho phép suy luận nâng cao và tổng hợp giọng nói theo cách tách biệt
Hỗ trợ API nhất quán và xử lý prompt tường minh cho nhiều tổ hợp đầu vào khác nhau (chỉ văn bản / văn bản + hình ảnh / âm thanh / video, v.v.)
Có tùy chọn tiết kiệm bộ nhớ nếu không muốn đầu ra giọng nói (tiết kiệm hơn 10GB bộ nhớ)
Hỗ trợ nhiều tùy chọn tổng hợp giọng nói (Ethan, Chelsie, Aiden, v.v.), có thể chọn bằng tham số speaker

Ví dụ batch/hội thoại nâng cao

Có thể gộp xử lý nhiều thông điệp đa phương thức cùng lúc, hiệu quả cho dữ liệu lớn, benchmark và dịch vụ hội thoại
Tạo phản hồi tùy chỉnh cho từng thông điệp với tổ hợp văn bản, hình ảnh, âm thanh, video

Triển khai thực tế dựa trên vLLM

Có thể tinh chỉnh suy luận đồng thời và bộ nhớ bằng các thiết lập tham số như tensor_parallel_size, max_num_seqs, limit_mm_per_prompt
Trong vLLM serve, hỗ trợ hội thoại theo kiểu API; đầu ra âm thanh cho mô hình Instruct dự kiến sẽ được hỗ trợ sau

API và môi trường

Cung cấp tài liệu API theo từng loại thời gian thực, offline và caption trên nền DashScope API (Trung Quốc/toàn cầu)
Linh hoạt giữa các môi trường vLLM, Official API, Transformers tùy theo mục đích như dịch vụ thực tế hay nghiên cứu

Cấu hình hệ thống/khuyến nghị

Theo độ chính xác BF16, có hướng dẫn mức bộ nhớ tối thiểu (68~145GB) cho video dài 15~120 giây
Cần môi trường GPU và hỗ trợ FlashAttention 2
Mẹo dùng prompt: nên dùng chỉ thị văn bản tường minh cùng với đầu vào đa phương thức

Ứng dụng agent và downstream

Có thể xây dựng nhiều agent như gọi hàm dựa trên âm thanh, dịch vụ hội thoại/phân tích/trợ lý đa phương thức thời gian thực, caption âm thanh chi tiết
Cung cấp ví dụ về điều khiển vai trò, phong cách hội thoại và thiết lập khung thông qua system prompt

Kết luận

Qwen3-Omni là một trong những LLM mã nguồn mở quy mô hàng đầu thế giới tích hợp tổng quát văn bản + giọng nói + hình ảnh + video, rất phù hợp cho dịch vụ web thời gian thực quy mô lớn, nghiên cứu và triển khai nội bộ tổ chức. Nhờ tích hợp chặt chẽ với vLLM, API, môi trường Docker cùng khả năng tương thích cao và hỗ trợ ví dụ chi tiết, mô hình này mang lại lợi thế rất lớn về hiệu quả phát triển và năng lực cạnh tranh.

2 bình luận

yeorinhieut 2025-09-24

Tiếng Hàn - Có vẻ như nó hỗ trợ tiếng Hàn!

GN⁺ 2025-09-23

Ý kiến trên Hacker News

Khi trò chuyện bằng tiếng Anh thì cảm giác tốc độ rất chậm, nhưng khi nói bằng tiếng Tây Ban Nha lại thấy nhanh hơn hẳn; việc sắp có thể dùng những tính năng cực kỳ mạnh như dịch thời gian thực thực sự rất ấn tượng. Tôi có cảm giác rằng nếu các phòng thí nghiệm Mỹ không tích cực tham gia cuộc đua open-weight, thì cuối cùng Trung Quốc sẽ thống trị thị trường AI. Tôi cũng nghĩ những người Mỹ nhạy cảm với quyền riêng tư hay quyền sở hữu dữ liệu rốt cuộc có thể sẽ trang bị trong nhà những thiết bị giá 1.000~2.000 USD để chạy các mô hình Trung Quốc mở, và đó là một thay đổi thật đáng kinh ngạc
- Sống ở Mỹ, tôi liên tục thấy các bài báo nói rằng Trung Quốc đang thúc đẩy mạnh Linux, các kiến trúc CPU mở như RISC-V, và cả các mô hình mở tự host nữa. Đến mức tôi bắt đầu có cảm giác phía chúng ta mới giống “phe phản diện”
- Thực ra tôi đang chạy Qwen3 ở nhà với hai chiếc 3090. Tôi còn tích hợp với Home Assistant và dùng cả các thiết bị vệ tinh giọng nói esp32. Trải nghiệm của tôi là nó hoạt động tốt đến mức đáng ngạc nhiên
- Có vẻ người Mỹ bình thường hầu như không sẵn sàng chi thêm 1.000~2.000 USD cho công nghệ bảo vệ quyền riêng tư. Đa số đã sẵn sàng giao toàn bộ âm thanh/video trong nhà cho chính phủ mà không cần trát, thông qua camera IoT (như Ring), chỉ để tiết kiệm 20~200 USD
Có thể tự trải nghiệm tại https://chat.qwen.ai/, nhưng phải đăng nhập bằng Google hoặc GitHub mới dùng được chế độ giọng nói. Có nhiều giọng được chuẩn bị sẵn, ví dụ Dylan (thiếu niên lớn lên ở các con hẻm Bắc Kinh), Peter (chuyên gia tấu hài Thiên Tân), Cherry (phụ nữ trẻ tươi sáng và tích cực), Ethan (cậu bé lanh lợi và ấm áp), Eric (nam giới đặc trưng đến từ Thành Đô, Tứ Xuyên), Jada (chị đại cuốn hút đến từ Thượng Hải), v.v.
- Đặc biệt, đổi ngôn ngữ để thử giọng thì buồn cười vô cùng. Với tiếng Nga, Ryan nghe như một người phương Tây mới bắt đầu học tiếng Nga từ một tháng trước; Dylan thì tự nhiên hơn một chút, còn các giọng khác là tiếng Nga pha chất giọng châu Á khá đậm, mỗi giọng đều có cá tính riêng khá thú vị
- Tôi chỉ thấy Omni Flash, không biết như vậy có đúng không
Model weights là 70GB, dung lượng file cũng được ghi trên Hugging Face (Qwen/Qwen3-Omni-30B-A3B-Instruct), nên đây là kích cỡ khá dễ tiếp cận để chạy local. Tôi tò mò không biết sắp có bản port cho macOS không; hiện tại có vẻ bắt buộc phải có GPU NVIDIA
- Đó là theo chuẩn BF16, nên nếu lượng tử hóa (Q4) thì có lẽ cũng vừa trong GPU 24GB. Tôi nghĩ nó sẽ tương tự các model cùng dòng 30B-A3B khác. Tôi đã lo nó sẽ ở cỡ 200B+ nên thấy khá mừng
- Tôi chưa thử vì không có thời gian, nhưng sẽ khá thú vị nếu ai đó tìm cách kết hợp nó với Apple Mojo stuff vừa được công bố hôm qua. Chưa rõ độ hoàn thiện sẽ ra sao, nhưng có vẻ là một thử thách vui
- Tôi tự hỏi có engine suy luận nào chạy được trên macOS không
- Tôi muốn biết liệu có thể chạy trên 5090 không, hoặc có thể ghép nhiều GPU với nhau không, hay NVIDIA đã chặn việc đó rồi
Có video demo ở đây; đặc biệt, cảnh nó nhận đầu vào video-giọng nói rồi dịch sang ngôn ngữ khác và xuất giọng nói là thứ ấn tượng nhất tôi từng thấy cho đến giờ
Video demo trên YouTube
Đòn bẩy thực sự trong lĩnh vực này là hiệu năng/kích thước. Nếu xuất hiện cạnh tranh open-weight, tôi nghĩ đổi mới về hiệu quả sẽ bị buộc phải tăng tốc. Các model closed-weight cũng có thể xuất hiện những điểm mạnh mà trước giờ chưa được tính đến. Tôi tự hỏi đến khi nào cơ chế suy luận tập thể kiểu cluster phát triển đủ để 8 model 30B trên một server H100 có thể vượt 1 model 240B về độ chính xác
Tôi thấy tò mò nên thử đưa vào vài đoạn audio ngắn, và nó còn phân biệt được cả nhạc cụ như piano, trống, v.v. Tôi cảm giác mình vẫn chưa thấy nhiều nghiên cứu multimodal LLM tập trung vào nhận diện âm thanh ngoài giọng nói. Sẽ rất hay nếu có một phân tích sâu hơn về tình trạng SOTA trong mảng này
Tôi tò mò "native video support" thực sự có nghĩa là gì. Liệu chỉ là diễn giải một chuỗi ảnh full-frame liên tiếp (theo cách dễ bỏ lỡ các sự kiện nhanh), hay nó ám chỉ một kỹ thuật phức tạp hơn
Tôi nghĩ đầu vào giọng nói + đầu ra giọng nói là một thay đổi thực sự lớn. Về lý thuyết, giờ có thể trò chuyện bằng giọng nói và dịch ngay sang ngôn ngữ của tôi hoặc của người đối diện. Hiện nay vẫn cần nhiều công nghệ trung gian như wake word, speech-to-text, text-to-speech, v.v., nhưng model này có vẻ ít nhất có khoảng 3 phiên bản cỡ 32b hỗ trợ cả nhập và xuất giọng nói. Tùy theo kiến trúc, sau này có lẽ có thể chạy trực tiếp tại nhà hoặc trên các thiết bị kiểu “máy nướng bánh AI”
- Tôi nghĩ nếu nối những model như thế này vào hệ thống tự động hóa gia đình bằng tool calls thì cơ hội là cực lớn. Tôi đã chờ các dịch vụ khác hỗ trợ tính năng này từ sau khi ChatGPT có nó. Đặc biệt trong các tình huống không rảnh tay như nấu ăn ("Đọc cho tôi bước tiếp theo, tay tôi dính thịt", "Làm roux thì cần bao nhiêu bột mì?", "Tôi không có chanh, nên thay bằng gì?") thì sẽ có những ứng dụng mang tính cách mạng
- Trên hết, tôi nghĩ nó sẽ giúp ích rất nhiều cho việc học ngôn ngữ. Có vẻ cũng chạy local được nữa. Tôi càng kỳ vọng hơn nếu các nhà phát triển unsloth bắt tay vào làm
Kiến trúc thinker/speaker của Qwen thực sự rất thú vị. Nó khá giống với cách tôi hình dung nhận thức đa phương thức của con người hoạt động: ví dụ một bức ảnh quả táo, cách viết "apple", và âm thanh đều được ánh xạ vào cùng một khái niệm mà không cần phải đi qua văn bản ở giữa
- Tôi tự hỏi liệu chẳng phải mọi LLM đều hoạt động như vậy sao
Tôi tự hỏi có tài liệu nào tốt để học về các mô hình đa phương thức không. Tôi không rõ nên bắt đầu từ đâu