- Một pipeline mới, nhanh và tối tân để tạo tài sản 3D từ văn bản
- 3DGen có thể tạo hình học và texture 3D chất lượng cao, bám sát prompt trong vòng chưa đầy 1 phút
- Hỗ trợ PBR (kết xuất dựa trên vật lý), cần thiết cho việc tái chiếu sáng tài sản 3D trong các ứng dụng thực tế
- Có thể thay đổi vật liệu của hình học 3D đã được tạo trước đó (hoặc do nghệ sĩ tạo ra) theo hướng tạo sinh bằng cách dùng thêm đầu vào văn bản do người dùng cung cấp
- 3DGen tích hợp các thành phần công nghệ cốt lõi là Meta 3D AssetGen và Meta 3D TextureGen, được phát triển cho bài toán tạo 3D từ văn bản và tạo texture từ văn bản
- Bằng cách kết hợp hai công nghệ này, 3DGen biểu diễn vật thể 3D đồng thời theo 3 cách trong không gian khung nhìn, không gian thể tích và không gian UV (hoặc texture)
- Đạt tỷ lệ thắng 68% so với mô hình một bước
- 3DGen vượt qua các benchmark trong ngành về độ bám prompt và chất lượng hình ảnh với các prompt văn bản phức tạp, đồng thời nhanh hơn đáng kể
Bài báo liên quan
Meta 3D AssetGen: Tạo text-to-mesh với hình học, texture và vật liệu PBR chất lượng cao
- AssetGen là một bước tiến quan trọng trong tạo 3D từ văn bản, tạo ra mesh trung thực và chất lượng cao với khả năng kiểm soát texture và vật liệu
- So với việc bake đổ bóng vào ngoại quan của đối tượng 3D, AssetGen xuất ra vật liệu PBR hỗ trợ tái chiếu sáng thực sự
- AssetGen trước tiên tạo nhiều góc nhìn của đối tượng với các kênh ngoại quan albedo và đổ bóng đã được factor hóa, sau đó tái dựng màu sắc, độ kim loại và độ nhám trong 3D bằng cách sử dụng hàm mất mát deferred shading để giám sát hiệu quả
- Ngoài ra, nó dùng signed distance function để biểu diễn hình học 3D ổn định hơn và đưa vào hàm mất mát tương ứng để giám sát hình học trực tiếp
- Sau khi trích xuất mesh, một transformer tinh chỉnh texture hoạt động trong không gian UV giúp cải thiện đáng kể độ sắc nét và chi tiết
- AssetGen đạt cải thiện 17% về khoảng cách Chamfer và 40% về LPIPS so với đối thủ đồng thời tốt nhất cho bài toán tái dựng từ ít góc nhìn, đồng thời đạt mức độ ưa thích của con người cao hơn 72% so với đối thủ công nghiệp tốt nhất có tốc độ tương đương và hỗ trợ PBR
Meta 3D TextureGen: Tạo texture nhanh và nhất quán cho vật thể 3D
- Sự sẵn có và khả năng thích ứng gần đây của các mô hình text-to-image đã mở ra một kỷ nguyên mới trong nhiều lĩnh vực liên quan như tạo texture
- Các phương pháp tạo texture gần đây đạt được kết quả ấn tượng bằng cách dùng mạng text-to-image, nhưng sự kết hợp giữa tính nhất quán toàn cục, chất lượng và tốc độ là yếu tố then chốt để đưa việc tạo texture vào ứng dụng thực tế
- Giới thiệu Meta 3D TextureGen, một phương pháp feed-forward mới gồm hai mạng tuần tự để tạo texture chất lượng cao, nhất quán toàn cục cho hình học bất kỳ trong chưa đến 20 giây
- 3DGen đạt kết quả tối tân về chất lượng và tốc độ bằng cách điều kiện hóa mô hình text-to-image trên ngữ nghĩa 3D trong không gian 2D rồi hợp nhất chúng thành bản đồ texture UV đầy đủ, độ phân giải cao
- Đồng thời giới thiệu một mạng tăng cường texture có thể mở rộng texture theo tỷ lệ tùy ý để tạo texture độ phân giải 4k pixel
Ý kiến của GN+
- 3DGen có vẻ là một bước tiến đột phá trong lĩnh vực tạo tài sản 3D. Công nghệ có thể nhanh chóng tạo ra mô hình 3D chất lượng cao dựa trên prompt văn bản này có thể được ứng dụng trong nhiều lĩnh vực như game, phim ảnh, thiết kế
- Đặc biệt, hỗ trợ vật liệu PBR và khả năng thay đổi texture của các mô hình 3D đã được tạo sẵn được kỳ vọng sẽ nâng cao tính ứng dụng thực tế
- Tuy vậy, việc hiểu chính xác ý nghĩa của prompt văn bản và tạo mô hình 3D đúng như mong muốn vẫn sẽ là một thách thức khó. Có vẻ vẫn cần song hành với sự phát triển của kỹ thuật prompt engineering
- Cũng rất đáng chú ý là các chuyên gia trong lĩnh vực dựng hình 3D sẽ sử dụng công nghệ này như thế nào, và nó sẽ ảnh hưởng ra sao đến sự thể hiện sáng tạo. Có lẽ cũng cần so sánh sự khác biệt, ưu và nhược điểm với các công cụ dựng hình 3D hiện có
- Cũng có những giải pháp khác cung cấp chức năng tương tự như GET3D của Nvidia hay Imagine 3D của Luma Lab. Cần có phân tích so sánh về ưu và nhược điểm của chúng ở khía cạnh hiệu năng và khả năng sử dụng
- Khi công nghệ tạo mô hình 3D phát triển đến mức bất kỳ ai cũng có thể dễ dàng tạo ra mô hình 3D mong muốn, các vấn đề mới như bản quyền mô hình 3D hay khả năng bị lạm dụng có thể nổi lên. Có vẻ cần có thảo luận xã hội và đạt được đồng thuận về vấn đề này
1 bình luận
Ý kiến trên Hacker News
Một người dùng nhìn nhận tích cực sự phát triển của mô hình hóa 3D như một khía cạnh quan trọng của AI tạo sinh, đặc biệt nhắc đến độ khó của việc tạo tài sản cho VR
Một người dùng khác cho rằng việc tạo nội dung VR rất tốn công sức, và kỳ vọng các công cụ tạo mô hình 3D sẽ trở thành động lực chính thúc đẩy metaverse
Một người dùng khác nữa đánh giá rằng các dịch vụ chuyển đổi văn bản/hình ảnh thành mô hình 3D gần đây đều tạo ra kết quả vô dụng
Một người dùng nhận xét rằng việc vận hành toàn bộ hệ thống bằng quy trình tạo texture PBR là rất ấn tượng
Một người dùng khác nói có thể nhận ra topo không tốt qua việc thiếu wireframe
Một người dùng cho rằng đây là một bước tiên phong nữa trong việc tái hiện hiện thực bằng kỹ thuật số
Một người dùng khác kỳ vọng việc chuyển đổi 3D-to-3D đơn giản sẽ sớm khả thi
Một người dùng hình dung rằng nếu có đầu vào từ nghệ sĩ, các mô hình được tạo ra có thể được chỉnh sửa về sau hoặc dùng làm điểm khởi đầu
Một người dùng đánh giá Meta 3D Gen là một bước tiến quan trọng trong việc tạo nội dung 3D cho các ứng dụng VR
Cuối cùng, một người dùng nói rằng họ muốn thấy một kỹ thuật thay thế cho screened Poisson surface reconstruction dùng mạng nơ-ron