1 điểm bởi GN⁺ 2024-05-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Con người có thể nhận thức thế giới 3D ngay cả từ những hình ảnh không nhất quán về 3D
  • Toon3D có thể khôi phục tư thế camera và hình học mật độ cao thông qua tối ưu hóa deformable piecewise-rigid
  • Các cảnh vẽ tay không có tính nhất quán 3D, nhưng có thể được khôi phục bằng Toon3D và nội suy ra những góc nhìn mới chưa từng thấy trước đây

Abstract

  • Đề xuất Toon3D
    • Khôi phục cấu trúc 3D cơ bản của các cảnh không nhất quán về mặt hình học
    • Tập trung vào hình ảnh vẽ tay trong truyện tranh và hoạt hình
    • Nhiều truyện tranh được nghệ sĩ vẽ trực tiếp mà không dùng engine dựng hình 3D
    • Hình ảnh vẽ tay thể hiện thế giới một cách trung thực về mặt định tính, nhưng rất khó vẽ nhiều góc nhìn sao cho nhất quán trong 3D
    • Con người có thể dễ dàng nhận ra cảnh 3D ngay cả từ đầu vào không nhất quán
    • Sửa các điểm không khớp trong hình 2D để những hình đã được biến dạng mới trở nên nhất quán với nhau
    • Khôi phục cấu trúc dày đặc thông qua công cụ chú thích thân thiện với người dùng, ước lượng tư thế camera và biến dạng ảnh
    • Có thể cắm vào các phương pháp tái dựng tạo góc nhìn mới bằng cách biến dạng ảnh để phù hợp với mô hình camera phối cảnh

Tái dựng truyện tranh

  • Trước tiên khôi phục tư thế camera và point cloud đã được căn chỉnh
  • Khởi tạo Gaussian từ point cloud dày đặc và tối ưu Gaussian Splatting với camera đã khôi phục
  • Có chuẩn hóa độ sâu và được xây dựng trên Nerfstudio
  • Trình bày render fly-through của cảnh

Phương pháp

  • Dự đoán độ sâu của từng ảnh bằng Marigold và lấy các mặt nạ tạm thời ứng viên bằng SAM
  • Gắn nhãn ảnh bằng Toon3D Labeler để lấy các cặp tương ứng và đánh dấu vùng tạm thời
  • Tối ưu tư thế camera và làm biến dạng ảnh để thu được camera phối cảnh đã hiệu chỉnh
  • Khởi tạo Gaussian bằng point cloud dày đặc đã căn chỉnh và chạy bước tinh chỉnh

Toon3D Labeler

  • Trình bày hai bước chính của phương pháp
    • Video căn chỉnh thưa: ước lượng xấp xỉ tham số camera
    • Video căn chỉnh dày đặc: cho thấy cách căn chỉnh trong 3D bằng nhiều lớp khác nhau (camera, tương ứng thưa, lưới biến dạng, v.v.)

Khám phá bên trong ngôi nhà của Rick and Morty

  • Gắn nhãn tường và trần để nối các căn phòng, từ đó tái dựng nội thất ngôi nhà của Rick and Morty
  • Video đầu tiên: hiển thị point cloud, camera và giao diện gắn nhãn tùy chỉnh
  • Video thứ hai: có thể kéo thanh trượt để tham quan bên trong ngôi nhà

Point cloud và camera

  • Hiển thị point cloud và camera đã khôi phục cho 12 cảnh truyện tranh trong bộ dữ liệu Toon3D
  • Có thể nhấp vào biểu tượng để khám phá cảnh

Tái dựng từ góc nhìn thưa

  • Có thể tái dựng cảnh với ít ảnh và thay đổi góc nhìn lớn
  • Ở những nơi COLMAP có thể thất bại, con người có thể can thiệp bằng Toon3D Labeler để lấy các cặp tương ứng được gắn nhãn
  • Trình bày render fly-through cho hai phòng trong danh sách Airbnb ("phòng khách" và "phòng ngủ 2")

Trực quan hóa sự không nhất quán

  • Vì truyện tranh được vẽ tay, ảnh cần được biến dạng để đạt tính nhất quán 3D
  • Mục đầu tiên: video cho thấy biến dạng xảy ra trong quá trình tối ưu căn chỉnh
  • Hai mục tiếp theo: hình ảnh cho thấy tranh gốc và tranh đã biến dạng, cùng phần chồng lấp giữa hai hình
  • Các vùng mờ biểu thị nơi xảy ra nhiều biến dạng

Tái dựng tranh vẽ

  • Toon3D cũng có thể tái dựng các bức tranh vẽ tay
  • Dự đoán độ sâu của từng ảnh, sau đó căn chỉnh point cloud và làm biến dạng
  • Cuối cùng dùng bước tinh chỉnh Gaussian để tạo video

Ý kiến của GN⁺

  • Toon3D là một phương pháp đột phá để tái dựng 3D từ hình ảnh vẽ tay trong truyện tranh và hoạt hình
  • Công nghệ này mang lại trải nghiệm thị giác mới và có thể đặc biệt hữu ích cho sản xuất hoạt hình cũng như phát triển game
  • Tuy vậy, quá trình gắn nhãn thủ công có thể hơi phiền phức; sẽ tốt hơn nếu các phương pháp tự động tiếp tục phát triển
  • Các dự án khác cung cấp chức năng tương tự gồm có COLMAP và Nerfstudio
  • Khi áp dụng công nghệ này, việc gắn nhãn chính xác và dự đoán độ sâu là rất quan trọng để đạt được tái dựng 3D nhất quán hơn

1 bình luận

 
GN⁺ 2024-05-18
Ý kiến trên Hacker News

Tóm tắt các bình luận trên Hacker News

  • Ví dụ về tòa nhà Planet Express trong Futurama

    • Thật thú vị khi tòa nhà Planet Express trong Futurama được dùng làm ví dụ về sự không khớp trong 3D. Trên thực tế, có vẻ nó đã được tạo từ mô hình 3D.
    • Dù không phải nghệ sĩ đồ họa, người bình luận vẫn đánh giá cao việc nghệ thuật của họa sĩ minh họa sử dụng những kỹ pháp biểu đạt sáng tạo để truyền tải các ý nghĩa phức tạp.
    • Điều này gợi nhớ đến kiểu tái dựng không gian 3D “rối rắm”, tương tự làn sóng thổi phồng gần đây quanh LLMs (mô hình ngôn ngữ lớn).
  • Sự thú vị của việc tạo không gian 3D

    • Tạo ra không gian 3D từ các ảnh nguồn thiếu nhất quán là một ý tưởng rất thú vị.
    • Vài năm trước, đã từng thử biến các hình ảnh trừu tượng, phi không gian thành không gian thực tế ảo. Ví dụ, chuyển tranh trừu tượng của Kandinsky hay Pollock thành không gian VR có thể khám phá.
    • Quy trình là bắt đầu từ ảnh trừu tượng, dùng SinGan để tạo các “góc nhìn” thay thế của “cảnh”, sau đó dùng 3D photo inpainting để ánh xạ độ sâu rồi đưa các khung hình vào ứng dụng photogrammetry.
  • Khả năng tạo mô hình 3D trong tương lai

    • Thật đáng ngạc nhiên khi có thể tạo ra mô hình 3D, dù chất lượng thấp, dựa trên tranh vẽ của một cảnh tưởng tượng.
    • Trong tương lai, có lẽ nghệ sĩ sẽ có thể thu được mô hình 3D chính xác chỉ từ vài hình ảnh.
    • Có lo ngại về tác động mà các công cụ kiểu AI sẽ gây ra cho nghệ sĩ. Tuy vậy, cũng có thể hình dung ra một tương lai nơi các hệ thống dựa trên machine learning hợp tác trực tiếp hơn với nghệ sĩ.
    • Khi nghĩ đến giá trị của việc nghệ sĩ sáng tạo nghệ thuật, việc AI thay thế nghệ sĩ có thể dẫn tới những hệ quả tồi tệ cho toàn bộ nền văn minh.
  • Vấn đề chuyển tác phẩm 2D sang 3D

    • Tác phẩm 2D không có một không gian 3D nhất quán. Có vẻ vấn đề này vẫn chưa được giải quyết một cách hữu ích.
    • Một khi rời khỏi vị trí camera ban đầu, cảnh gần như không còn tính nhất quán.
  • Photogrammetry và VR

    • Có người từng tìm hiểu về photogrammetry bằng Quest 2. Họ khám phá pipeline tạo mô hình 3D bằng ảnh chụp từ nhiều góc độ.
    • Khi port sang VR, điều quan trọng là tạo được mesh sạch. Các công cụ hiện tại không tạo ra 3D mesh.
    • Từng có động lực tạo các mô hình kiểu Matterport để bán cho công ty bất động sản. Nhưng bước tự động tạo mesh sạch lại là phần tốn công sức nhất.
  • Sự cần thiết phải cải thiện thuật toán

    • Hiệu năng chưa tốt trong việc tái hiện diện mạo từ góc nhìn của một hình ảnh cụ thể. Ví dụ như trường hợp Magic School Bus.
    • Thuật toán cần được điều chỉnh để tin tưởng hình ảnh hơn.
  • Vấn đề tự động phát video trên trang web

    • Một trang web mà mọi video đều tự động phát và lặp lại gây khó chịu. Khi xem video trên màn hình thứ hai, việc truy cập trang gây ra hiện tượng giật lag.
  • Phản ứng của Miyazaki

    • Nếu cho Miyazaki xem ví dụ từ Spirited Away, có lẽ ông sẽ nói đó là sự xúc phạm đến chính sự sống.
  • Kết quả không đạt kỳ vọng

    • Tất cả ví dụ trông đều rất tệ. Nhiễu và độ mờ ở các khung hình trung gian khiến chúng không thể dùng cùng bản gốc.
    • Điểm bắt đầu và kết thúc của từng thành phần hầu như không nối với nhau. Tường, cửa và các vật thể khác bay về phía đích nhưng lại biến mất khi còn cách vị trí cuối vài feet.
    • Ý tưởng thì rất hay, nhưng người bình luận muốn thấy một phiên bản thực sự hoạt động.