2 điểm bởi GN⁺ 2024-03-19 | 1 bình luận | Chia sẻ qua WhatsApp

Stable Video 3D: tổng hợp góc nhìn mới chất lượng cao và tạo 3D từ một hình ảnh duy nhất

  • Đã ra mắt Stable Video 3D (SV3D), mô hình tạo sinh dựa trên Stable Video Diffusion. Chất lượng video và độ nhất quán giữa các góc nhìn được cải thiện đáng kể
  • Bao gồm hai biến thể: SV3D_u và SV3D_p
    • SV3D_u tạo video quỹ đạo từ đầu vào là một hình ảnh duy nhất mà không cần điều kiện camera
    • SV3D_p mở rộng khả năng tạo video 3D theo đường đi camera được chỉ định, bằng cách nhận cả một hình ảnh duy nhất và các góc nhìn quỹ đạo
  • Stable Video 3D có thể được dùng cho mục đích thương mại thông qua gói thành viên của Stability AI; với mục đích phi thương mại, có thể tải trọng số mô hình trên Hugging Face và xem bài báo nghiên cứu

Ưu điểm của Video Diffusion

  • Bằng cách áp dụng mô hình diffusion image-to-video Stable Video Diffusion kèm điều kiện đường đi camera, Stable Video 3D có thể tạo video đa góc nhìn của đối tượng
  • Việc sử dụng mô hình Video Diffusion mang lại lợi thế lớn về khả năng khái quát hóa của đầu ra được tạo và độ nhất quán giữa các góc nhìn, so với mô hình diffusion ảnh được dùng trong Stable Zero123
  • Ngoài ra, tận dụng năng lực mạnh mẽ của Stable Video 3D, họ đề xuất một phương pháp tối ưu hóa 3D được cải tiến để tạo các quỹ đạo tùy ý quanh đối tượng

Tạo góc nhìn mới

  • SV3D mang đến bước tiến quan trọng, đặc biệt trong tổng hợp góc nhìn mới (NVS)
  • Trong khi các phương pháp trước đây thường gặp hạn chế về số góc nhìn và sự thiếu nhất quán của đầu ra, SV3D cung cấp các góc nhìn nhất quán ở bất kỳ góc nào được đưa ra
  • Khả năng này không chỉ cải thiện khả năng điều khiển tư thế mà còn đảm bảo ngoại hình đối tượng nhất quán trên nhiều góc nhìn, từ đó tiếp tục nâng cao một khía cạnh quan trọng của việc tạo 3D chân thực và chính xác

Tạo 3D

  • SV3D tận dụng tính nhất quán đa góc nhìn để tối ưu hóa biểu diễn Neural Radiance Field (NeRF) 3D và dạng biểu diễn mesh, qua đó nâng cao chất lượng của mesh 3D được tạo trực tiếp từ các góc nhìn mới
  • Để làm điều này, họ đã thiết kế hàm mất mát mask score distillation sampling nhằm tiếp tục cải thiện chất lượng 3D của các vùng không nhìn thấy trong các góc nhìn được dự đoán
  • Ngoài ra, SV3D sử dụng một mô hình chiếu sáng tách biệt được tối ưu hóa cùng với hình dạng và kết cấu 3D để giảm vấn đề ánh sáng đã bị bake vào

1 bình luận

 
GN⁺ 2024-03-19
Ý kiến trên Hacker News
  • Người dùng đầu tiên đã thử mô hình Stable Video 3D (SV3D) bằng card đồ họa 4090 (24GB VRAM), nhưng bị sập do thiếu bộ nhớ sau khi chạy hơn 1 phút. Sau khi điều chỉnh script để giảm số khung hình được tạo cùng lúc, họ đã tạo thành công; mức sử dụng VRAM tối đa là 19.5GB, mất 1 phút 25 giây ở 225 watt.

    Stable Video 3D(SV3D): Mô hình tạo sinh nhận ảnh tĩnh làm đầu vào và tạo video quỹ đạo của đối tượng tương ứng, dựa trên Stable Video Diffusion.

  • Người dùng thứ hai thắc mắc liệu SV3D có thể xuất ra mô hình 3D thực sự hay chỉ tạo ra hình ảnh về việc đối tượng sẽ trông như thế nào từ các góc nhìn khác.
  • Người dùng thứ ba cho rằng nếu hoạt ảnh được đưa ra là mang tính đại diện, thì mesh được tạo ra có thể đủ tốt để dùng cho máy in 3D, và họ mong chờ được thử nghiệm.
  • Người dùng thứ tư hỏi về yêu cầu phần cứng hoặc bộ nhớ để chạy được SV3D.
  • Người dùng thứ năm thắc mắc liệu đầu vào có cần nhiều hơn một hình ảnh hay không, liệu có URL bản demo để thử hay không, và đặt câu hỏi liệu "đầu vào hình ảnh đơn" có nghĩa là nhiều hình ảnh hay không.
  • Người dùng thứ sáu nhận xét rằng mọi ví dụ đều trông giống như đồ chơi trẻ em bằng nhựa, và thắc mắc hệ thống sẽ xử lý các đối tượng khác (con người, vải vóc, tòa nhà, thực vật, núi, bộ phận máy móc, v.v.) như thế nào.
  • Người dùng thứ bảy đánh giá hoạt ảnh demo là rất thông minh và tạo cảm giác thỏa mãn.
  • Người dùng thứ tám hy vọng công nghệ như thế này sẽ có thể được sử dụng trong thiết kế kiến trúc.
  • Bình luận thứ chín và thứ mười lần lượt được đánh dấu là "[dead]" và "[flagged]", nên không thể biết nội dung.