- Mô hình khuếch tán tiềm ẩn (latent diffusion model) dành cho việc tạo cảnh 3D siêu tốc
- Có thể tạo cảnh 3D độ phân giải cao trong vòng 7 giây từ một hoặc nhiều ảnh đầu vào
- Được huấn luyện bằng một bộ dữ liệu nhất quán đa góc nhìn quy mô lớn, và nhanh hơn tới 300 lần so với các mô hình tạo 3D hiện có
- Trong khi các mô hình hiện có cần quá trình tối ưu hóa, Bolt3D có thể tạo cảnh ngay lập tức bằng phương pháp feed-forward
Giới hạn và vấn đề của các mô hình hiện có
- Các mô hình tạo 2D hiện có có thể tạo ảnh chất lượng cao, nhưng tạo cảnh 3D vẫn rất khó
- Các mô hình 3D hiện tại có những vấn đề sau:
- Khó xử lý cấu trúc dữ liệu 3D phức tạp
- Thiếu dữ liệu cảnh 3D thực tế chất lượng cao
- Chi phí tính toán cao và tốc độ xử lý chậm
Kỹ thuật và cấu trúc chính của Bolt3D
Phương thức biểu diễn 3D
- Sử dụng biểu diễn 3D Gaussian:
- 3D Gaussian bao gồm màu sắc, vị trí, độ mờ và ma trận hiệp phương sai
- Thực hiện kết xuất 3D Gaussian thông qua ảnh căn chỉnh theo pixel gọi là Splatter Image
- Có thể bù sinh cả những vùng không nhìn thấy
Quy trình tạo của Bolt3D
- Ước lượng cảnh 3D từ ảnh đầu vào thông qua mô hình khuếch tán tiềm ẩn (latent diffusion model)
- Mã hóa thông tin hình học vào không gian tiềm ẩn thông qua Geometry VAE
- Gaussian Head dự đoán và hiệu chỉnh các thuộc tính chi tiết của 3D Gaussian (độ mờ, màu sắc, v.v.)
- Thực hiện kết xuất tức thì cảnh 3D độ phân giải cao
Cấu trúc mô hình
- Mô hình khuếch tán tiềm ẩn sử dụng cấu trúc phát triển từ mô hình tạo ảnh 2D
- Geometry VAE mã hóa bản đồ điểm 3D và tư thế camera
- Gaussian Head bổ sung các thuộc tính chi tiết của cảnh 3D được tạo ra
Bộ dữ liệu và huấn luyện
- Xây dựng bộ dữ liệu đa góc nhìn quy mô lớn:
- Bao gồm CO3D, MVImg, RealEstate10K, DL3DV-7K
- Gồm khoảng 300.000 cảnh đa góc nhìn
- Sử dụng kỹ thuật MASt3R để thu được dữ liệu hình học chính xác
- Quy trình huấn luyện:
- Geometry VAE: huấn luyện với độ phân giải 256×256 → 512×512
- Gaussian Head: hiệu chỉnh việc tạo Splatter Image
- Latent Diffusion Model: tinh chỉnh dựa trên mô hình CAT3D
Kết quả thực nghiệm và so sánh hiệu năng
So sánh với các mô hình hiện có
- Bolt3D cho hiệu năng vượt trội hơn các mô hình Flash3D và DepthSplat hiện có
- So với Flash3D, Bolt3D đạt cao hơn khoảng 3,6 điểm theo chỉ số PSNR, đồng thời cũng được cải thiện ở các chỉ số SSIM và LPIPS
- So với mô hình DepthSplat, Bolt3D vượt trội ở mọi chỉ số hiệu năng
- Đặc biệt, mức cải thiện hiệu năng lớn nhất xuất hiện trong tình huống chỉ có một ảnh đầu vào
So sánh hiệu năng với các mô hình dựa trên tối ưu hóa
- So với các mô hình dựa trên tối ưu hóa như CAT3D, Bolt3D cho hiệu năng tương đương hoặc tốt hơn, đồng thời đạt tốc độ nhanh hơn 300 lần
- CAT3D cần khoảng 5 phút để tạo một cảnh, trong khi Bolt3D có thể thực hiện cùng tác vụ chỉ trong 6,25 giây
- Về chỉ số hiệu năng, CAT3D ghi nhận điểm PSNR hơi cao hơn Bolt3D, nhưng về tốc độ xử lý thì Bolt3D vượt trội áp đảo
Các cải tiến về cấu trúc và kiến trúc mô hình
Cải tiến Geometry VAE
- Sử dụng VAE chuyên cho thông tin hình học → tăng độ chính xác so với VAE hình ảnh thông thường
- Áp dụng scaling phi tuyến và ánh xạ độ sâu → cải thiện hiệu năng mô hình
Cải tiến Gaussian Head
- Tích hợp và hiệu chỉnh thông tin đa góc nhìn
- Áp dụng Cross-Attention → có thể bù sinh cả những vùng không nhìn thấy
Kết luận và hàm ý
- Bolt3D có thể tạo cảnh 3D tốc độ cao thông qua học thông tin hình học và phương pháp feed-forward
- Cải thiện cả hiệu năng lẫn tốc độ so với các mô hình hiện có
- Có thể tạo cảnh 3D chất lượng cao tức thì trong nhiều lĩnh vực ứng dụng:
- Phát triển game
- Thực tế ảo (VR) và thực tế tăng cường (AR)
- Trực quan hóa kiến trúc và thiết kế
- Với tốc độ xử lý cao hơn 300 lần, khả năng thương mại hóa và mở rộng là rất lớn
Tóm tắt thành tựu chính
- Có thể tạo cảnh 3D trong vòng 7 giây
- Hiệu năng nhanh hơn 300 lần so với các mô hình hiện có
- Đảm bảo mô tả chi tiết và tính nhất quán ở độ phân giải cao
- Hiệu năng cao với cả một góc nhìn và nhiều góc nhìn
- Có thể bù sinh tự nhiên ngay cả trong các cảnh phức tạp và chưa hoàn chỉnh
Chưa có bình luận nào.