- Con người có thể nhận thức thế giới 3D ngay cả từ những hình ảnh không nhất quán về 3D
- Toon3D có thể khôi phục tư thế camera và hình học mật độ cao thông qua tối ưu hóa deformable piecewise-rigid
- Các cảnh vẽ tay không có tính nhất quán 3D, nhưng có thể được khôi phục bằng Toon3D và nội suy ra những góc nhìn mới chưa từng thấy trước đây
Abstract
- Đề xuất Toon3D
- Khôi phục cấu trúc 3D cơ bản của các cảnh không nhất quán về mặt hình học
- Tập trung vào hình ảnh vẽ tay trong truyện tranh và hoạt hình
- Nhiều truyện tranh được nghệ sĩ vẽ trực tiếp mà không dùng engine dựng hình 3D
- Hình ảnh vẽ tay thể hiện thế giới một cách trung thực về mặt định tính, nhưng rất khó vẽ nhiều góc nhìn sao cho nhất quán trong 3D
- Con người có thể dễ dàng nhận ra cảnh 3D ngay cả từ đầu vào không nhất quán
- Sửa các điểm không khớp trong hình 2D để những hình đã được biến dạng mới trở nên nhất quán với nhau
- Khôi phục cấu trúc dày đặc thông qua công cụ chú thích thân thiện với người dùng, ước lượng tư thế camera và biến dạng ảnh
- Có thể cắm vào các phương pháp tái dựng tạo góc nhìn mới bằng cách biến dạng ảnh để phù hợp với mô hình camera phối cảnh
Tái dựng truyện tranh
- Trước tiên khôi phục tư thế camera và point cloud đã được căn chỉnh
- Khởi tạo Gaussian từ point cloud dày đặc và tối ưu Gaussian Splatting với camera đã khôi phục
- Có chuẩn hóa độ sâu và được xây dựng trên Nerfstudio
- Trình bày render fly-through của cảnh
Phương pháp
- Dự đoán độ sâu của từng ảnh bằng Marigold và lấy các mặt nạ tạm thời ứng viên bằng SAM
- Gắn nhãn ảnh bằng Toon3D Labeler để lấy các cặp tương ứng và đánh dấu vùng tạm thời
- Tối ưu tư thế camera và làm biến dạng ảnh để thu được camera phối cảnh đã hiệu chỉnh
- Khởi tạo Gaussian bằng point cloud dày đặc đã căn chỉnh và chạy bước tinh chỉnh
Toon3D Labeler
- Trình bày hai bước chính của phương pháp
- Video căn chỉnh thưa: ước lượng xấp xỉ tham số camera
- Video căn chỉnh dày đặc: cho thấy cách căn chỉnh trong 3D bằng nhiều lớp khác nhau (camera, tương ứng thưa, lưới biến dạng, v.v.)
Khám phá bên trong ngôi nhà của Rick and Morty
- Gắn nhãn tường và trần để nối các căn phòng, từ đó tái dựng nội thất ngôi nhà của Rick and Morty
- Video đầu tiên: hiển thị point cloud, camera và giao diện gắn nhãn tùy chỉnh
- Video thứ hai: có thể kéo thanh trượt để tham quan bên trong ngôi nhà
Point cloud và camera
- Hiển thị point cloud và camera đã khôi phục cho 12 cảnh truyện tranh trong bộ dữ liệu Toon3D
- Có thể nhấp vào biểu tượng để khám phá cảnh
Tái dựng từ góc nhìn thưa
- Có thể tái dựng cảnh với ít ảnh và thay đổi góc nhìn lớn
- Ở những nơi COLMAP có thể thất bại, con người có thể can thiệp bằng Toon3D Labeler để lấy các cặp tương ứng được gắn nhãn
- Trình bày render fly-through cho hai phòng trong danh sách Airbnb ("phòng khách" và "phòng ngủ 2")
Trực quan hóa sự không nhất quán
- Vì truyện tranh được vẽ tay, ảnh cần được biến dạng để đạt tính nhất quán 3D
- Mục đầu tiên: video cho thấy biến dạng xảy ra trong quá trình tối ưu căn chỉnh
- Hai mục tiếp theo: hình ảnh cho thấy tranh gốc và tranh đã biến dạng, cùng phần chồng lấp giữa hai hình
- Các vùng mờ biểu thị nơi xảy ra nhiều biến dạng
Tái dựng tranh vẽ
- Toon3D cũng có thể tái dựng các bức tranh vẽ tay
- Dự đoán độ sâu của từng ảnh, sau đó căn chỉnh point cloud và làm biến dạng
- Cuối cùng dùng bước tinh chỉnh Gaussian để tạo video
Ý kiến của GN⁺
- Toon3D là một phương pháp đột phá để tái dựng 3D từ hình ảnh vẽ tay trong truyện tranh và hoạt hình
- Công nghệ này mang lại trải nghiệm thị giác mới và có thể đặc biệt hữu ích cho sản xuất hoạt hình cũng như phát triển game
- Tuy vậy, quá trình gắn nhãn thủ công có thể hơi phiền phức; sẽ tốt hơn nếu các phương pháp tự động tiếp tục phát triển
- Các dự án khác cung cấp chức năng tương tự gồm có COLMAP và Nerfstudio
- Khi áp dụng công nghệ này, việc gắn nhãn chính xác và dự đoán độ sâu là rất quan trọng để đạt được tái dựng 3D nhất quán hơn
1 bình luận
Ý kiến trên Hacker News
Tóm tắt các bình luận trên Hacker News
Ví dụ về tòa nhà Planet Express trong Futurama
Sự thú vị của việc tạo không gian 3D
Khả năng tạo mô hình 3D trong tương lai
Vấn đề chuyển tác phẩm 2D sang 3D
Photogrammetry và VR
Sự cần thiết phải cải thiện thuật toán
Vấn đề tự động phát video trên trang web
Phản ứng của Miyazaki
Kết quả không đạt kỳ vọng