Trellis – Mô hình tạo mesh 3D
(trellis3d.github.io)Giới thiệu phương pháp tạo sinh 3D mới
-
Biểu diễn Structured LATent (SLAT): Giới thiệu một biểu diễn tiềm ẩn có cấu trúc thống nhất có thể được giải mã sang nhiều định dạng đầu ra khác nhau. Cách này tích hợp các đặc trưng thị giác đa góc nhìn dày đặc được trích xuất từ các mô hình thị giác mạnh với lưới 3D được lấp đầy thưa, từ đó nắm bắt toàn diện thông tin cấu trúc (hình học) và kết cấu (diện mạo).
-
Rectified Flow Transformers: Mô hình tạo sinh 3D được thiết kế phù hợp với SLAT, với mô hình được huấn luyện trên bộ dữ liệu tài sản 3D quy mô lớn gồm 500.000 đối tượng đa dạng và có tối đa 2 tỷ tham số. Mô hình tạo ra kết quả chất lượng cao từ điều kiện văn bản hoặc hình ảnh, vượt trội đáng kể so với các phương pháp trước đây.
Tạo và chỉnh sửa tài sản 3D
-
Tạo tài sản 3D dựa trên văn bản và hình ảnh: TRELLIS có thể tạo nhiều loại tài sản 3D bằng prompt văn bản hoặc hình ảnh. Ví dụ gồm có điện thoại quay bằng đồng, nhà gạch hai tầng và robot hình cầu.
-
Biến thể tài sản và chỉnh sửa cục bộ: Có thể tạo các biến thể của tài sản 3D đã cho theo prompt văn bản, đồng thời thao tác trên các vùng cụ thể để tạo ra thiết kế mới. Ví dụ, có thể thực hiện các tác vụ như tháo cánh tay của robot chiến đấu hoặc thêm vũ khí.
Ứng dụng và phương pháp luận của TRELLIS
-
Thiết kế nghệ thuật 3D: Có thể dễ dàng tạo ra các thiết kế nghệ thuật 3D phức tạp và sống động bằng cách kết hợp các tài sản 3D chất lượng cao do TRELLIS tạo ra.
-
Biểu diễn tiềm ẩn có cấu trúc: SLAT kết hợp cấu trúc thưa với biểu diễn thị giác mạnh để xác định latent cục bộ trên các voxel hoạt động giao cắt với bề mặt đối tượng. Các đặc trưng này được suy ra từ các bộ mã hóa thị giác đã tiền huấn luyện mạnh, giúp nắm bắt các đặc tính hình học và thị giác chi tiết.
-
Mô hình TRELLIS: Huấn luyện một mô hình tạo sinh 3D quy mô lớn với điều kiện là prompt văn bản hoặc hình ảnh. Mô hình áp dụng pipeline hai giai đoạn để trước tiên tạo ra cấu trúc thưa của SLAT, sau đó tạo vector tiềm ẩn cho các ô không rỗng. Nhờ đó có thể dễ dàng tạo tài sản 3D ở nhiều định dạng đầu ra khác nhau.
1 bình luận
Ý kiến trên Hacker News
Lần đầu tiên cảm thấy hơi khó chịu khi nhìn nội dung do AI tạo ra. Nội dung như thế này rất xuất sắc, nhưng cũng khiến tôi buồn vì có cảm giác những tác phẩm do bàn tay con người làm ra đang biến mất. Tôi muốn những thế giới xuất phát từ suy nghĩ của con người hơn là các trò chơi được tạo ra theo quy trình.
Có vẻ như ai cũng đã nghĩ đến điều này từ sau demo NeRF. Tôi đã tìm lại bình luận của mình từ 5 năm trước. Bước tiếp theo là thêm "node" vào hình ảnh 3D để tạo ra nội dung có thể chuyển động và tương tác.
Chưa hoàn hảo, nhưng đây là trình tạo mô hình 3D tốt nhất mà tôi từng thử cho đến nay. Tôi muốn một định dạng tệp có thể đưa thẳng vào Orca Slicer.
Tôi đã thử với hình ảnh máy bay ném bom tàng hình F-117 trên Wikipedia, nhưng kết quả thất bại hoàn toàn. Cần có tính năng cho phép tải lên ảnh từ nhiều góc độ.
Tôi tò mò không biết có bản demo nào cho tính năng "Text to 3D Asset" không.
Tôi đã thấy bài này được gửi lên vài ngày trước, và đó là một bản demo rất ấn tượng. Tôi mong nó được thảo luận ở đây.
Tôi có thể thấy tiềm năng, nhưng có vẻ hình ảnh tôi cung cấp nằm ngoài phạm vi huấn luyện nên nó chỉ tạo ra những mặt phẳng kỳ lạ.
Tôi đã dùng layer diffusion để tạo một airship low-poly. Nó đã đạt đến mức có thể dùng làm tài sản game.
Tôi đã tải lên ảnh dây cáp và phích cắm để tạo ra một mesh phích cắm với từng sợi dây riêng lẻ và các lỗ chính xác.
Mô hình hóa bông tuyết Nix rất tệ. Có vẻ nó được huấn luyện nhiều hơn trên các cấu trúc và texture tự nhiên cũng như sinh học.