Stable Video 3D: tổng hợp góc nhìn mới chất lượng cao và tạo 3D từ một hình ảnh duy nhất
- Đã ra mắt Stable Video 3D (SV3D), mô hình tạo sinh dựa trên Stable Video Diffusion. Chất lượng video và độ nhất quán giữa các góc nhìn được cải thiện đáng kể
- Bao gồm hai biến thể: SV3D_u và SV3D_p
- SV3D_u tạo video quỹ đạo từ đầu vào là một hình ảnh duy nhất mà không cần điều kiện camera
- SV3D_p mở rộng khả năng tạo video 3D theo đường đi camera được chỉ định, bằng cách nhận cả một hình ảnh duy nhất và các góc nhìn quỹ đạo
- Stable Video 3D có thể được dùng cho mục đích thương mại thông qua gói thành viên của Stability AI; với mục đích phi thương mại, có thể tải trọng số mô hình trên Hugging Face và xem bài báo nghiên cứu
Ưu điểm của Video Diffusion
- Bằng cách áp dụng mô hình diffusion image-to-video Stable Video Diffusion kèm điều kiện đường đi camera, Stable Video 3D có thể tạo video đa góc nhìn của đối tượng
- Việc sử dụng mô hình Video Diffusion mang lại lợi thế lớn về khả năng khái quát hóa của đầu ra được tạo và độ nhất quán giữa các góc nhìn, so với mô hình diffusion ảnh được dùng trong Stable Zero123
- Ngoài ra, tận dụng năng lực mạnh mẽ của Stable Video 3D, họ đề xuất một phương pháp tối ưu hóa 3D được cải tiến để tạo các quỹ đạo tùy ý quanh đối tượng
Tạo góc nhìn mới
- SV3D mang đến bước tiến quan trọng, đặc biệt trong tổng hợp góc nhìn mới (NVS)
- Trong khi các phương pháp trước đây thường gặp hạn chế về số góc nhìn và sự thiếu nhất quán của đầu ra, SV3D cung cấp các góc nhìn nhất quán ở bất kỳ góc nào được đưa ra
- Khả năng này không chỉ cải thiện khả năng điều khiển tư thế mà còn đảm bảo ngoại hình đối tượng nhất quán trên nhiều góc nhìn, từ đó tiếp tục nâng cao một khía cạnh quan trọng của việc tạo 3D chân thực và chính xác
Tạo 3D
- SV3D tận dụng tính nhất quán đa góc nhìn để tối ưu hóa biểu diễn Neural Radiance Field (NeRF) 3D và dạng biểu diễn mesh, qua đó nâng cao chất lượng của mesh 3D được tạo trực tiếp từ các góc nhìn mới
- Để làm điều này, họ đã thiết kế hàm mất mát mask score distillation sampling nhằm tiếp tục cải thiện chất lượng 3D của các vùng không nhìn thấy trong các góc nhìn được dự đoán
- Ngoài ra, SV3D sử dụng một mô hình chiếu sáng tách biệt được tối ưu hóa cùng với hình dạng và kết cấu 3D để giảm vấn đề ánh sáng đã bị bake vào
1 bình luận
Ý kiến trên Hacker News