OmniHuman - Mô hình tạo video chân thực chỉ từ một bức ảnh

xguru · 2025-02-13T10:28:01+09:00

Nhóm nghiên cứu ByteDance đã phát triển một hệ thống AI có thể "tạo video về con người nói chuyện, hát và chuyển động một cách tự nhiên chỉ bằng một bức ảnh duy nhất" Vượt qua giới hạn của các mô hình AI trước đây vốn chỉ có thể tạo hoạt ảnh cho khuôn mặt hoặc phần thân trên, hệ thống này có thể tạo ra "video phản ánh chuyển động toàn thân" Đây là mô hình hợp nhất đầu tiên có thể tạo hoạt ảnh chuyển động của con người một cách chân thực bằng cách "sử dụng đầu vào là âm thanh, video, hoặc kết hợp cả hai" Các đặc điểm chính Tạo video dựa trên một ảnh duy nhất Có thể tạo video tự nhiên phản ánh chuyển động toàn thân chỉ từ một bức ảnh của nhân vật Hỗ trợ đầu vào đa phương thức Hỗ trợ đầu vào bằng âm thanh, video hoặc kết hợp cả hai Khả năng thể hiện cử chỉ được cải thiện đáng kể so với các mô hình trước đây Có thể xử lý ảnh ở mọi tỷ lệ Hỗ trợ nhiều tỷ lệ ảnh khác nhau như ảnh chân dung dọc, ảnh bán thân, ảnh toàn thân Tương thích với nhiều phong cách và dữ liệu đầu vào Có thể phản ánh nhiều phong cách như tranh hoạt hình, nhân vật nhân tạo, động vật, tư thế phức tạp Biểu đạt cử chỉ cơ thể tự nhiên theo phong cách âm nhạc Có thể tạo chuyển động phù hợp với âm cao, âm trầm và nhiều thể loại nhạc khác nhau Có thể mô phỏng chuyển động dựa trên video Hỗ trợ video driving để tái hiện nguyên vẹn chuyển động của một nhân vật cụ thể

(omnihuman-lab.github.io)

20 điểm bởi xguru 2025-02-13 | 2 bình luận | Chia sẻ qua WhatsApp

Nhóm nghiên cứu ByteDance đã phát triển một hệ thống AI có thể "tạo video về con người nói chuyện, hát và chuyển động một cách tự nhiên chỉ bằng một bức ảnh duy nhất"
Vượt qua giới hạn của các mô hình AI trước đây vốn chỉ có thể tạo hoạt ảnh cho khuôn mặt hoặc phần thân trên, hệ thống này có thể tạo ra "video phản ánh chuyển động toàn thân"
Đây là mô hình hợp nhất đầu tiên có thể tạo hoạt ảnh chuyển động của con người một cách chân thực bằng cách "sử dụng đầu vào là âm thanh, video, hoặc kết hợp cả hai"
Các đặc điểm chính
- Tạo video dựa trên một ảnh duy nhất
  - Có thể tạo video tự nhiên phản ánh chuyển động toàn thân chỉ từ một bức ảnh của nhân vật
- Hỗ trợ đầu vào đa phương thức
  - Hỗ trợ đầu vào bằng âm thanh, video hoặc kết hợp cả hai
  - Khả năng thể hiện cử chỉ được cải thiện đáng kể so với các mô hình trước đây
- Có thể xử lý ảnh ở mọi tỷ lệ
  - Hỗ trợ nhiều tỷ lệ ảnh khác nhau như ảnh chân dung dọc, ảnh bán thân, ảnh toàn thân
- Tương thích với nhiều phong cách và dữ liệu đầu vào
  - Có thể phản ánh nhiều phong cách như tranh hoạt hình, nhân vật nhân tạo, động vật, tư thế phức tạp
  Quảng cáo
- Biểu đạt cử chỉ cơ thể tự nhiên theo phong cách âm nhạc
  - Có thể tạo chuyển động phù hợp với âm cao, âm trầm và nhiều thể loại nhạc khác nhau
- Có thể mô phỏng chuyển động dựa trên video
  - Hỗ trợ video driving để tái hiện nguyên vẹn chuyển động của một nhân vật cụ thể

2 bình luận

dhy0613 2025-02-13

Wow, giờ nếu Trung Quốc tiến hành chiến tranh thì chắc sẽ có không ít video tuyên truyền bị thao túng.

colus001 2025-02-13

Wow... cái này ngầu thật đấy?

OmniHuman - Mô hình tạo video chân thực chỉ từ một bức ảnh

Bài viết liên quan

2 bình luận