Bolt3D - Mô hình tạo cảnh 3D siêu tốc

(szymanowiczs.github.io)

6 điểm bởi GN⁺ 2025-03-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình khuếch tán tiềm ẩn (latent diffusion model) dành cho việc tạo cảnh 3D siêu tốc
Có thể tạo cảnh 3D độ phân giải cao trong vòng 7 giây từ một hoặc nhiều ảnh đầu vào
Được huấn luyện bằng một bộ dữ liệu nhất quán đa góc nhìn quy mô lớn, và nhanh hơn tới 300 lần so với các mô hình tạo 3D hiện có
Trong khi các mô hình hiện có cần quá trình tối ưu hóa, Bolt3D có thể tạo cảnh ngay lập tức bằng phương pháp feed-forward

Giới hạn và vấn đề của các mô hình hiện có

Các mô hình tạo 2D hiện có có thể tạo ảnh chất lượng cao, nhưng tạo cảnh 3D vẫn rất khó
Các mô hình 3D hiện tại có những vấn đề sau:
- Khó xử lý cấu trúc dữ liệu 3D phức tạp
- Thiếu dữ liệu cảnh 3D thực tế chất lượng cao
- Chi phí tính toán cao và tốc độ xử lý chậm

Kỹ thuật và cấu trúc chính của Bolt3D

Phương thức biểu diễn 3D

Sử dụng biểu diễn 3D Gaussian:
- 3D Gaussian bao gồm màu sắc, vị trí, độ mờ và ma trận hiệp phương sai
- Thực hiện kết xuất 3D Gaussian thông qua ảnh căn chỉnh theo pixel gọi là Splatter Image
- Có thể bù sinh cả những vùng không nhìn thấy

Quy trình tạo của Bolt3D

Ước lượng cảnh 3D từ ảnh đầu vào thông qua mô hình khuếch tán tiềm ẩn (latent diffusion model)
Mã hóa thông tin hình học vào không gian tiềm ẩn thông qua Geometry VAE
Gaussian Head dự đoán và hiệu chỉnh các thuộc tính chi tiết của 3D Gaussian (độ mờ, màu sắc, v.v.)
Thực hiện kết xuất tức thì cảnh 3D độ phân giải cao

Cấu trúc mô hình

Mô hình khuếch tán tiềm ẩn sử dụng cấu trúc phát triển từ mô hình tạo ảnh 2D
Geometry VAE mã hóa bản đồ điểm 3D và tư thế camera
Gaussian Head bổ sung các thuộc tính chi tiết của cảnh 3D được tạo ra

Bộ dữ liệu và huấn luyện

Xây dựng bộ dữ liệu đa góc nhìn quy mô lớn:
- Bao gồm CO3D, MVImg, RealEstate10K, DL3DV-7K
- Gồm khoảng 300.000 cảnh đa góc nhìn
- Sử dụng kỹ thuật MASt3R để thu được dữ liệu hình học chính xác
Quy trình huấn luyện:
1. Geometry VAE: huấn luyện với độ phân giải 256×256 → 512×512
2. Gaussian Head: hiệu chỉnh việc tạo Splatter Image
3. Latent Diffusion Model: tinh chỉnh dựa trên mô hình CAT3D

Kết quả thực nghiệm và so sánh hiệu năng

So sánh với các mô hình hiện có

Bolt3D cho hiệu năng vượt trội hơn các mô hình Flash3D và DepthSplat hiện có
So với Flash3D, Bolt3D đạt cao hơn khoảng 3,6 điểm theo chỉ số PSNR, đồng thời cũng được cải thiện ở các chỉ số SSIM và LPIPS
So với mô hình DepthSplat, Bolt3D vượt trội ở mọi chỉ số hiệu năng
Đặc biệt, mức cải thiện hiệu năng lớn nhất xuất hiện trong tình huống chỉ có một ảnh đầu vào

So sánh hiệu năng với các mô hình dựa trên tối ưu hóa

So với các mô hình dựa trên tối ưu hóa như CAT3D, Bolt3D cho hiệu năng tương đương hoặc tốt hơn, đồng thời đạt tốc độ nhanh hơn 300 lần
CAT3D cần khoảng 5 phút để tạo một cảnh, trong khi Bolt3D có thể thực hiện cùng tác vụ chỉ trong 6,25 giây
Về chỉ số hiệu năng, CAT3D ghi nhận điểm PSNR hơi cao hơn Bolt3D, nhưng về tốc độ xử lý thì Bolt3D vượt trội áp đảo

Các cải tiến về cấu trúc và kiến trúc mô hình

Cải tiến Geometry VAE

Sử dụng VAE chuyên cho thông tin hình học → tăng độ chính xác so với VAE hình ảnh thông thường
Áp dụng scaling phi tuyến và ánh xạ độ sâu → cải thiện hiệu năng mô hình

Cải tiến Gaussian Head

Tích hợp và hiệu chỉnh thông tin đa góc nhìn
Áp dụng Cross-Attention → có thể bù sinh cả những vùng không nhìn thấy

Kết luận và hàm ý

Bolt3D có thể tạo cảnh 3D tốc độ cao thông qua học thông tin hình học và phương pháp feed-forward
Cải thiện cả hiệu năng lẫn tốc độ so với các mô hình hiện có
Có thể tạo cảnh 3D chất lượng cao tức thì trong nhiều lĩnh vực ứng dụng:
- Phát triển game
- Thực tế ảo (VR) và thực tế tăng cường (AR)
- Trực quan hóa kiến trúc và thiết kế
Với tốc độ xử lý cao hơn 300 lần, khả năng thương mại hóa và mở rộng là rất lớn

Tóm tắt thành tựu chính

Có thể tạo cảnh 3D trong vòng 7 giây
Hiệu năng nhanh hơn 300 lần so với các mô hình hiện có
Đảm bảo mô tả chi tiết và tính nhất quán ở độ phân giải cao
Hiệu năng cao với cả một góc nhìn và nhiều góc nhìn
Có thể bù sinh tự nhiên ngay cả trong các cảnh phức tạp và chưa hoàn chỉnh

Chưa có bình luận nào.

Chưa có bình luận nào.