Ovi - Hợp nhất đa phương thức twin backbone cho tạo sinh âm thanh-video

(github.com/character-ai)

1 điểm bởi GN⁺ 2025-10-24 | 1 bình luận | Chia sẻ qua WhatsApp

Ovi do Character AI phát triển là một mô hình AI có thể đồng thời tạo ra âm thanh và video từ đầu vào văn bản hoặc hình ảnh
Ovi kết hợp nhánh âm thanh quy mô 5B do chính họ xây dựng với nhánh video dựa trên Wan2.2 để tạo ra nội dung nghe nhìn chất lượng cao, đồng bộ
Mô hình được huấn luyện ở độ phân giải 720×720, nhưng vẫn tạo ra kết quả tự nhiên ở độ phân giải từ 960×960 trở lên, đồng thời hỗ trợ nhiều tỷ lệ khung hình khác nhau (9:16, 16:9, v.v.)
Cung cấp nhiều tùy chọn chạy và tính năng tối ưu như Gradio UI, tích hợp ComfyUI (WIP), suy luận đa GPU, lượng tử hóa qint8/fp8
Dự án này là một ví dụ mới nhất cho sự phát triển của công nghệ tạo video từ văn bản (T2V) và tạo video từ hình ảnh (I2V), đồng thời đề xuất một tiêu chuẩn mới cho tạo sinh hợp nhất âm thanh-video

Tổng quan về Ovi

Ovi là một mô hình tạo sinh đa phương thức do Character AI và các nhà nghiên cứu từ Yale University đồng phát triển, là hệ thống có thể đồng thời tạo âm thanh và video đồng bộ từ đầu vào văn bản hoặc văn bản+kèm hình ảnh
- Kiến trúc mô hình có tên là “Twin Backbone Cross-Modal Fusion”, sử dụng cách huấn luyện song song rồi hợp nhất nhánh âm thanh và nhánh video
- Người dẫn dắt dự án là Weimin Wang, các cộng tác viên gồm Chetwin Low và Calder Katyal
Được giới thiệu như một mô hình tương tự Veo-3, Ovi sử dụng bộ dữ liệu âm thanh nội bộ của Character AI để tiền huấn luyện từ đầu nhánh âm thanh quy mô 5B tham số
Video được tạo ra mặc định có độ dài 5 giây, 24FPS, độ phân giải 720×720, và hỗ trợ nhiều tỷ lệ như 9:16, 16:9, 1:1

Tính năng và đặc điểm chính

🎬 Video+Audio Generation: Đồng thời tạo âm thanh và video từ đầu vào văn bản hoặc hình ảnh
🎵 High-Quality Audio Branch: Cung cấp nhánh âm thanh được huấn luyện trên bộ dữ liệu âm thanh quy mô lớn do chính họ xây dựng
📝 Flexible Input: Hỗ trợ cả đầu vào chỉ gồm văn bản lẫn văn bản+kèm hình ảnh
⏱️ Tạo video 5 giây: Tạo video ngắn dài 5 giây ở 24FPS
🎯 Hỗ trợ độ phân giải cao: Có thể tạo kết quả tự nhiên ngay cả ở độ phân giải từ 960×960 trở lên
- Ví dụ có các video ở nhiều tỷ lệ như 1280×704, 1504×608, 1344×704
🚀 Khả năng upscale: Dù được huấn luyện ở 720×720, mô hình vẫn duy trì tính nhất quán theo thời gian và không gian ở độ phân giải cao

Nền tảng và demo khả dụng

Có thể tạo text→video và image→video trên Wavespeed.ai
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
Cũng có demo trên HuggingFace Spaces
- https://huggingface.co/spaces/akhaliq/Ovi
Tích hợp ComfyUI (WIP): Có thể tích hợp mô hình Ovi vào workflow thông qua ComfyUI-WanVideoWrapper

Huấn luyện và hiệu năng

Độ phân giải huấn luyện: 720×720
Mở rộng độ phân giải khi suy luận: Hỗ trợ 960×960 và nhiều tỷ lệ khung hình khác nhau
Duy trì tính nhất quán theo thời gian: Tạo chuyển tiếp tự nhiên giữa các khung hình
Chất lượng đồng bộ audio-video: Có thể kiểm soát chất lượng đồng bộ bằng cách điều chỉnh audio guide scale

Chạy và cấu hình

Quy trình cài đặt
- Cài đặt PyTorch 2.6.0, Flash Attention và các phụ thuộc trong requirements.txt
- Tải checkpoint bằng download_weights.py (bao gồm T5, VAE, MMAudio)
- Nếu GPU VRAM là 24GB, có thể dùng phiên bản lượng tử hóa fp8 hoặc qint8
Tệp cấu hình suy luận: ovi/configs/inference/inference_fusion.yaml
- Các mục cấu hình chính:
  - num_steps: số bước denoising (30~50)
  - audio_guidance_scale, video_guidance_scale: cường độ đồng bộ âm thanh·video
  - sp_size: kích thước sequence parallel (đặt bằng số lượng GPU)
  - cpu_offload: chế độ tiết kiệm GPU VRAM
  - fp8: có thể chạy trong môi trường 24GB VRAM
Ví dụ chạy suy luận
- GPU đơn: python3 inference.py --config-file ...
- Đa GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Yêu cầu hiệu năng và bộ nhớ

Cần tối thiểu 32GB VRAM để chạy mô hình cơ bản, có thể dùng 24GB ở chế độ fp8
FlashAttention-3 giúp tăng tốc độ xử lý khi được kích hoạt
Với xử lý song song theo chuỗi, thời gian xử lý ở mức 40~55 giây khi dùng 4~8 GPU
Khi CPU offloading, có thể tiết kiệm VRAM nhưng thời gian xử lý tăng thêm khoảng 20 giây

Chạy Gradio UI

Có thể khởi chạy giao diện dựa trên Gradio bằng lệnh đơn giản
- python3 gradio_app.py
- Hỗ trợ nhiều môi trường khác nhau với các tùy chọn --cpu_offload, --use_image_gen, --qint8, --fp8
Ở chế độ I2V, mô hình tạo ảnh cho khung hình đầu tiên sẽ tự động được kích hoạt

Cấu trúc prompt và ví dụ

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
Sử dụng thẻ đặc biệt
- ...: văn bản dùng cho chuyển đổi giọng nói
- ...: mô tả nhạc nền và hiệu ứng âm thanh
Tạo prompt bằng GPT
- Dựa trên CSV ví dụ, có thể yêu cầu GPT chỉnh sửa lời thoại theo một chủ đề cụ thể (ví dụ: “cuộc đối đầu giữa AI và con người”)
- Có thể nhập prompt đã chỉnh sửa vào Ovi để tạo video theo chủ đề

Kế hoạch tiếp theo (Todo List)

Dự kiến công bố bài báo nghiên cứu và website demo
Công bố checkpoint mô hình 11B và mã suy luận đa GPU
Dự kiến triển khai trọng số fp8, cải thiện hiệu quả sequence parallel, suy luận sharding FSDP
Tiến hành nghiên cứu fine-tuning trên dữ liệu độ phân giải cao và cải thiện hiệu năng dựa trên RL
Dự kiến phát triển tạo video dài, điều kiện hóa bằng giọng nói tham chiếu, mô hình Distilled để tăng tốc suy luận

Ghi nhận kỹ thuật và hợp tác

Wan2.2: dùng để khởi tạo nhánh video
MMAudio: tái sử dụng audio VAE
Người đóng góp: @rkfg (tối ưu fp8), @gluttony-10 (lượng tử hóa qint8)
Đề xuất hợp tác và liên hệ: có thể liên hệ Weimin Wang

Thông tin trích dẫn

Bài báo: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
Có cung cấp BibTeX, khuyến nghị trích dẫn khi sử dụng trong nghiên cứu

Metadata dự án

Giấy phép: Apache-2.0
Thành phần ngôn ngữ: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
Thống kê GitHub: ★955, fork 92, issue 20, PR 2
Nhà phát triển: đội ngũ Character AI, các nhà nghiên cứu Yale University

1 bình luận

GN⁺ 2025-10-24

Ý kiến trên Hacker News

Tôi đã dùng các công cụ tạo sinh AI suốt mấy tháng nay, và điều đáng ngạc nhiên là từng công cụ đang nhanh chóng được hợp nhất thành một, đến mức có thể chạy ngay trên máy cục bộ
Tôi đã thử Ovi từ tuần trước và thấy nó thực sự rất thú vị. Nội dung do AI tạo ra giống như một kiểu máy đánh bạc: kể cả khi nhập prompt tốt thì kết quả đôi lúc vẫn tệ, nhưng chạy nhiều lần thì sẽ ra thứ dùng được
Tôi đã tạo được khá nhiều video trông và nghe như thật bằng I2V và T2V. T2V đôi khi trông giống chất lượng TV thập niên 90, nhưng điều đó lại khiến nó có cảm giác chân thực hơn
Dùng Flux SPRO làm nguồn ảnh thì có thể cho ra video khá chân thực. GPU của tôi là 5090 nên mất khoảng 4–5 phút để tạo một clip dài 5 giây
Có vẻ mô hình video này dựa trên Wan 2.2
Gần đây hoạt động quanh Wan rất sôi nổi, và thật đáng mừng khi xuất hiện một mô hình mở linh hoạt có thể cạnh tranh với các mô hình đóng của những ông lớn nhiều vốn như OpenAI hay Runway
- Trọng tâm là các mô hình video mã nguồn mở chú trọng quyền riêng tư do VeniceAI cung cấp. Ovi hỗ trợ image→video, Wan 2.1 hỗ trợ image→video, còn Wan 2.2 hỗ trợ text→video
  Cũng có Wan 2.5, nhưng được định tuyến ẩn danh qua nhà cung cấp chính thức. Nó rẻ hơn nhiều so với các lựa chọn trung gian như Kling, Veo và Sora
- Nội dung liên quan cũng đã được bàn trong thread Wan – Open-source alternative to VEO 3
- Và Google cũng có dính dáng đến chuyện này
Trước đây tôi từng làm ở Ovi của Nokia. Khi đó Ovi giống như một kiểu GSuite cho điện thoại Nokia, và phần mô tả chính thức là “Ovi trong tiếng Phần Lan nghĩa là Cửa”, nhưng trò đùa nội bộ lại gọi nó là “mẫu giáo trong tiếng Hungary”. Tôi vẫn chưa tìm ra nguồn gốc cái tên Ovi lần này
- Tôi cũng từng làm trong một dự án liên quan đến Ovi. Trong các cuộc họp đầu tiên ở trụ sở Helsinki, tôi nghe các lãnh đạo nói rằng họ muốn lấy Google làm đối thủ cạnh tranh, và đó là một nỗ lực khá táo bạo
  Nhưng cuối cùng nó suy tàn vì bị trói buộc bởi chiến lược thương hiệu yếu kém và chính sách phần mềm thiết bị thất bại. Có lẽ đến khoảng năm 2013 thì nó chấm dứt hoàn toàn. Lúc đó tôi đã rời công ty rồi
Có lẽ vì tai tôi thuộc thế hệ trước AutoTune, nên tôi vẫn nghe ra dấu vết của cao độ hoàn hảo và nén động (companding) trong âm thanh
Đặc biệt nó nghe rất giống giọng của nhân vật Machine Head trong loạt Invincible
Dù vậy, nhìn chung đây vẫn là một công trình rất ấn tượng
Bản thân dự án thì thú vị, nhưng tôi vẫn chưa rõ tính hữu dụng thực tế của nội dung nghe nhìn tạo sinh là gì
Hiện tại, có vẻ nó đem lại phiền toái nhiều hơn là lợi ích
Với tốc độ này, có cảm giác chỉ vài tháng nữa thôi là phim ngắn chất lượng cao có thể được làm hoàn toàn bằng công nghệ tạo sinh
- Nhưng đồng thời cũng có thể sẽ xuất hiện những trường hợp cuộc đời một người bị hủy hoại vì lạm dụng deepfake
- Biết đâu tương lai lại là những bữa tiệc prompt nơi bạn bè tụ tập, mỗi người viết prompt rồi ghép lại thành một bộ phim để cùng xem. Chỉ tưởng tượng thôi đã thấy buồn cười
- Dù vậy, tôi lại nghĩ phim điện ảnh dài có thể xuất hiện trước cả phim ngắn, vì video càng ngắn thì độ hoàn thiện lại càng khó đạt hơn
Tôi tò mò không biết các dự án này có liên quan đến nhau không nên đã so sánh thread này với thread này
- Mỗi khi có một mô hình open-weight mới xuất hiện, sẽ có những kẻ cơ hội đi đăng ký tên miền theo tên đó rồi kiếm tiền bằng SEO
  Dạo này nhờ các công cụ AI coding mà việc tự động tạo landing page kiểu này còn dễ hơn nhiều
Với I2V, nếu có GPU NVIDIA 4070 trở lên và đủ VRAM, bạn có thể có bản nháp dùng được trong 1–2 phút ở độ phân giải 440x440
T2V thì chất lượng hiện vẫn chỉ ổn định ở mức gần với độ phân giải đã được huấn luyện. Dù vậy, ở các độ phân giải đã biết của Wan, nó vẫn cho ra kết quả tốt một cách không thường xuyên
CUDA 12.8 trở lên, Torch 2.8 trở lên, và khi dùng SageAttention thay vì Flash 2 thì chất lượng cải thiện rõ rệt
Đây là một bước phát triển thú vị, nhưng thật đáng tiếc khi một công ty như CAI lại có được nó
Dùng AI để nhắm vào những người trẻ và cô đơn

Ovi - Hợp nhất đa phương thức twin backbone cho tạo sinh âm thanh-video

Tổng quan về Ovi

Tính năng và đặc điểm chính

Nền tảng và demo khả dụng

Huấn luyện và hiệu năng

Chạy và cấu hình

Yêu cầu hiệu năng và bộ nhớ

Chạy Gradio UI

Cấu trúc prompt và ví dụ

Kế hoạch tiếp theo (Todo List)

Ghi nhận kỹ thuật và hợp tác

Thông tin trích dẫn

Metadata dự án

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News