- Ovi do Character AI phát triển là một mô hình AI có thể đồng thời tạo ra âm thanh và video từ đầu vào văn bản hoặc hình ảnh
- Ovi kết hợp nhánh âm thanh quy mô 5B do chính họ xây dựng với nhánh video dựa trên Wan2.2 để tạo ra nội dung nghe nhìn chất lượng cao, đồng bộ
- Mô hình được huấn luyện ở độ phân giải 720×720, nhưng vẫn tạo ra kết quả tự nhiên ở độ phân giải từ 960×960 trở lên, đồng thời hỗ trợ nhiều tỷ lệ khung hình khác nhau (9:16, 16:9, v.v.)
- Cung cấp nhiều tùy chọn chạy và tính năng tối ưu như Gradio UI, tích hợp ComfyUI (WIP), suy luận đa GPU, lượng tử hóa qint8/fp8
- Dự án này là một ví dụ mới nhất cho sự phát triển của công nghệ tạo video từ văn bản (T2V) và tạo video từ hình ảnh (I2V), đồng thời đề xuất một tiêu chuẩn mới cho tạo sinh hợp nhất âm thanh-video
Tổng quan về Ovi
- Ovi là một mô hình tạo sinh đa phương thức do Character AI và các nhà nghiên cứu từ Yale University đồng phát triển, là hệ thống có thể đồng thời tạo âm thanh và video đồng bộ từ đầu vào văn bản hoặc văn bản+kèm hình ảnh
- Kiến trúc mô hình có tên là “Twin Backbone Cross-Modal Fusion”, sử dụng cách huấn luyện song song rồi hợp nhất nhánh âm thanh và nhánh video
- Người dẫn dắt dự án là Weimin Wang, các cộng tác viên gồm Chetwin Low và Calder Katyal
- Được giới thiệu như một mô hình tương tự Veo-3, Ovi sử dụng bộ dữ liệu âm thanh nội bộ của Character AI để tiền huấn luyện từ đầu nhánh âm thanh quy mô 5B tham số
- Video được tạo ra mặc định có độ dài 5 giây, 24FPS, độ phân giải 720×720, và hỗ trợ nhiều tỷ lệ như 9:16, 16:9, 1:1
Tính năng và đặc điểm chính
- 🎬 Video+Audio Generation: Đồng thời tạo âm thanh và video từ đầu vào văn bản hoặc hình ảnh
- 🎵 High-Quality Audio Branch: Cung cấp nhánh âm thanh được huấn luyện trên bộ dữ liệu âm thanh quy mô lớn do chính họ xây dựng
- 📝 Flexible Input: Hỗ trợ cả đầu vào chỉ gồm văn bản lẫn văn bản+kèm hình ảnh
- ⏱️ Tạo video 5 giây: Tạo video ngắn dài 5 giây ở 24FPS
- 🎯 Hỗ trợ độ phân giải cao: Có thể tạo kết quả tự nhiên ngay cả ở độ phân giải từ 960×960 trở lên
- Ví dụ có các video ở nhiều tỷ lệ như 1280×704, 1504×608, 1344×704
- 🚀 Khả năng upscale: Dù được huấn luyện ở 720×720, mô hình vẫn duy trì tính nhất quán theo thời gian và không gian ở độ phân giải cao
Nền tảng và demo khả dụng
- Có thể tạo text→video và image→video trên Wavespeed.ai
- Cũng có demo trên HuggingFace Spaces
- Tích hợp ComfyUI (WIP): Có thể tích hợp mô hình Ovi vào workflow thông qua
ComfyUI-WanVideoWrapper
Huấn luyện và hiệu năng
- Độ phân giải huấn luyện: 720×720
- Mở rộng độ phân giải khi suy luận: Hỗ trợ 960×960 và nhiều tỷ lệ khung hình khác nhau
- Duy trì tính nhất quán theo thời gian: Tạo chuyển tiếp tự nhiên giữa các khung hình
- Chất lượng đồng bộ audio-video: Có thể kiểm soát chất lượng đồng bộ bằng cách điều chỉnh audio guide scale
Chạy và cấu hình
- Quy trình cài đặt
- Cài đặt PyTorch 2.6.0, Flash Attention và các phụ thuộc trong requirements.txt
- Tải checkpoint bằng
download_weights.py (bao gồm T5, VAE, MMAudio)
- Nếu GPU VRAM là 24GB, có thể dùng phiên bản lượng tử hóa
fp8 hoặc qint8
- Tệp cấu hình suy luận:
ovi/configs/inference/inference_fusion.yaml
- Các mục cấu hình chính:
num_steps: số bước denoising (30~50)
audio_guidance_scale, video_guidance_scale: cường độ đồng bộ âm thanh·video
sp_size: kích thước sequence parallel (đặt bằng số lượng GPU)
cpu_offload: chế độ tiết kiệm GPU VRAM
fp8: có thể chạy trong môi trường 24GB VRAM
- Ví dụ chạy suy luận
- GPU đơn:
python3 inference.py --config-file ...
- Đa GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
Yêu cầu hiệu năng và bộ nhớ
- Cần tối thiểu 32GB VRAM để chạy mô hình cơ bản, có thể dùng 24GB ở chế độ fp8
- FlashAttention-3 giúp tăng tốc độ xử lý khi được kích hoạt
- Với xử lý song song theo chuỗi, thời gian xử lý ở mức 40~55 giây khi dùng 4~8 GPU
- Khi CPU offloading, có thể tiết kiệm VRAM nhưng thời gian xử lý tăng thêm khoảng 20 giây
Chạy Gradio UI
- Có thể khởi chạy giao diện dựa trên Gradio bằng lệnh đơn giản
python3 gradio_app.py
- Hỗ trợ nhiều môi trường khác nhau với các tùy chọn
--cpu_offload, --use_image_gen, --qint8, --fp8
- Ở chế độ I2V, mô hình tạo ảnh cho khung hình đầu tiên sẽ tự động được kích hoạt
Cấu trúc prompt và ví dụ
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- Sử dụng thẻ đặc biệt
...: văn bản dùng cho chuyển đổi giọng nói
...: mô tả nhạc nền và hiệu ứng âm thanh
- Tạo prompt bằng GPT
- Dựa trên CSV ví dụ, có thể yêu cầu GPT chỉnh sửa lời thoại theo một chủ đề cụ thể (ví dụ: “cuộc đối đầu giữa AI và con người”)
- Có thể nhập prompt đã chỉnh sửa vào Ovi để tạo video theo chủ đề
Kế hoạch tiếp theo (Todo List)
- Dự kiến công bố bài báo nghiên cứu và website demo
- Công bố checkpoint mô hình 11B và mã suy luận đa GPU
- Dự kiến triển khai trọng số fp8, cải thiện hiệu quả sequence parallel, suy luận sharding FSDP
- Tiến hành nghiên cứu fine-tuning trên dữ liệu độ phân giải cao và cải thiện hiệu năng dựa trên RL
- Dự kiến phát triển tạo video dài, điều kiện hóa bằng giọng nói tham chiếu, mô hình Distilled để tăng tốc suy luận
Ghi nhận kỹ thuật và hợp tác
- Wan2.2: dùng để khởi tạo nhánh video
- MMAudio: tái sử dụng audio VAE
- Người đóng góp: @rkfg (tối ưu fp8), @gluttony-10 (lượng tử hóa qint8)
- Đề xuất hợp tác và liên hệ: có thể liên hệ Weimin Wang
Thông tin trích dẫn
- Bài báo: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- Có cung cấp BibTeX, khuyến nghị trích dẫn khi sử dụng trong nghiên cứu
Metadata dự án
- Giấy phép: Apache-2.0
- Thành phần ngôn ngữ: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- Thống kê GitHub: ★955, fork 92, issue 20, PR 2
- Nhà phát triển: đội ngũ Character AI, các nhà nghiên cứu Yale University
1 bình luận
Ý kiến trên Hacker News
Tôi đã dùng các công cụ tạo sinh AI suốt mấy tháng nay, và điều đáng ngạc nhiên là từng công cụ đang nhanh chóng được hợp nhất thành một, đến mức có thể chạy ngay trên máy cục bộ
Tôi đã thử Ovi từ tuần trước và thấy nó thực sự rất thú vị. Nội dung do AI tạo ra giống như một kiểu máy đánh bạc: kể cả khi nhập prompt tốt thì kết quả đôi lúc vẫn tệ, nhưng chạy nhiều lần thì sẽ ra thứ dùng được
Tôi đã tạo được khá nhiều video trông và nghe như thật bằng I2V và T2V. T2V đôi khi trông giống chất lượng TV thập niên 90, nhưng điều đó lại khiến nó có cảm giác chân thực hơn
Dùng Flux SPRO làm nguồn ảnh thì có thể cho ra video khá chân thực. GPU của tôi là 5090 nên mất khoảng 4–5 phút để tạo một clip dài 5 giây
Có vẻ mô hình video này dựa trên Wan 2.2
Gần đây hoạt động quanh Wan rất sôi nổi, và thật đáng mừng khi xuất hiện một mô hình mở linh hoạt có thể cạnh tranh với các mô hình đóng của những ông lớn nhiều vốn như OpenAI hay Runway
Cũng có Wan 2.5, nhưng được định tuyến ẩn danh qua nhà cung cấp chính thức. Nó rẻ hơn nhiều so với các lựa chọn trung gian như Kling, Veo và Sora
Trước đây tôi từng làm ở Ovi của Nokia. Khi đó Ovi giống như một kiểu GSuite cho điện thoại Nokia, và phần mô tả chính thức là “Ovi trong tiếng Phần Lan nghĩa là Cửa”, nhưng trò đùa nội bộ lại gọi nó là “mẫu giáo trong tiếng Hungary”. Tôi vẫn chưa tìm ra nguồn gốc cái tên Ovi lần này
Nhưng cuối cùng nó suy tàn vì bị trói buộc bởi chiến lược thương hiệu yếu kém và chính sách phần mềm thiết bị thất bại. Có lẽ đến khoảng năm 2013 thì nó chấm dứt hoàn toàn. Lúc đó tôi đã rời công ty rồi
Có lẽ vì tai tôi thuộc thế hệ trước AutoTune, nên tôi vẫn nghe ra dấu vết của cao độ hoàn hảo và nén động (companding) trong âm thanh
Đặc biệt nó nghe rất giống giọng của nhân vật Machine Head trong loạt Invincible
Dù vậy, nhìn chung đây vẫn là một công trình rất ấn tượng
Bản thân dự án thì thú vị, nhưng tôi vẫn chưa rõ tính hữu dụng thực tế của nội dung nghe nhìn tạo sinh là gì
Hiện tại, có vẻ nó đem lại phiền toái nhiều hơn là lợi ích
Với tốc độ này, có cảm giác chỉ vài tháng nữa thôi là phim ngắn chất lượng cao có thể được làm hoàn toàn bằng công nghệ tạo sinh
Tôi tò mò không biết các dự án này có liên quan đến nhau không nên đã so sánh thread này với thread này
Dạo này nhờ các công cụ AI coding mà việc tự động tạo landing page kiểu này còn dễ hơn nhiều
Với I2V, nếu có GPU NVIDIA 4070 trở lên và đủ VRAM, bạn có thể có bản nháp dùng được trong 1–2 phút ở độ phân giải 440x440
T2V thì chất lượng hiện vẫn chỉ ổn định ở mức gần với độ phân giải đã được huấn luyện. Dù vậy, ở các độ phân giải đã biết của Wan, nó vẫn cho ra kết quả tốt một cách không thường xuyên
CUDA 12.8 trở lên, Torch 2.8 trở lên, và khi dùng SageAttention thay vì Flash 2 thì chất lượng cải thiện rõ rệt
Đây là một bước phát triển thú vị, nhưng thật đáng tiếc khi một công ty như CAI lại có được nó
Dùng AI để nhắm vào những người trẻ và cô đơn