TRELLIS - Mô hình tạo mesh 3D

(trellis3d.github.io)

1 điểm bởi GN⁺ 2024-12-10 | 1 bình luận | Chia sẻ qua WhatsApp

TRELLIS là mô hình tạo sinh tạo ra tài sản 3D từ văn bản hoặc hình ảnh làm điều kiện, kết hợp biểu diễn tiềm ẩn thống nhất SLAT và Rectified Flow Transformers để nâng cao chất lượng và độ linh hoạt của đầu ra
SLAT biểu diễn cấu trúc hình học và texture bằng cách đồng thời chứa lưới 3D thưa và đặc trưng thị giác đa góc nhìn, đồng thời có thể được giải mã thành Radiance Fields, 3D Gaussians và meshes
Mô hình lên tới 2 tỷ tham số được huấn luyện trên bộ dữ liệu 500.000 tài sản 3D, và cho biết tạo ra chất lượng cao hơn các phương pháp trước đây, bao gồm cả những cách tiếp cận mới nhất có quy mô tương đương
Ngoài tạo sinh text-to-3D và image-to-3D, mô hình còn hỗ trợ biến thể hóa tài sản 3D hiện có và chỉnh sửa cục bộ theo vùng, với các thao tác như bỏ cánh tay, thêm vũ khí, thay chân
Tài liệu công khai chỉ giới hạn cho mục đích học thuật và nghiên cứu, đồng thời vẫn còn tồn tại thiên lệch tiềm ẩn từ bộ dữ liệu thu thập trên Internet và hạn chế trong việc tạo ra các vật thể thực tế chân thật

Mục tiêu và phạm vi của TRELLIS

TRELLIS là mô hình tạo sinh 3D native hướng đến khả năng mở rộng và tạo sinh 3D đa dạng
Trang dự án là trang web chính thức duy nhất của TRELLIS, và công trình được ghi là CVPR 2025 Highlight
Mục tiêu cốt lõi là tạo ra tài sản 3D chất lượng cao từ điều kiện văn bản hoặc hình ảnh, đồng thời cung cấp nhiều định dạng đầu ra và khả năng chỉnh sửa
Mã nguồn, mô hình và dữ liệu sẽ được công khai

Biểu diễn Structured LATent (SLAT)

SLAT là biểu diễn tiềm ẩn 3D thống nhất cho việc tạo sinh 3D chất lượng cao, đa mục đích
Nó định nghĩa các vector tiềm ẩn cục bộ trên các voxel hoạt động (active voxel) cắt qua bề mặt vật thể
Các vector tiềm ẩn cục bộ được mã hóa bằng cách render dày đặc tài sản 3D từ nhiều góc nhìn, sau đó hợp nhất và xử lý các đặc trưng hình ảnh
Các đặc trưng này đến từ bộ mã hóa thị giác đã được huấn luyện trước, giúp bổ sung cấu trúc thô do các voxel hoạt động cung cấp để nắm bắt hình học chi tiết và đặc tính thị giác
Có thể áp dụng các bộ giải mã khác nhau để chuyển SLAT sang nhiều biểu diễn 3D
- Radiance Fields
- 3D Gaussians
- meshes

Kiến trúc mô hình tạo sinh và huấn luyện

TRELLIS là họ mô hình tạo sinh 3D quy mô lớn được xây dựng trên SLAT, dùng text prompt hoặc hình ảnh làm điều kiện
Pipeline tạo sinh được chia thành 2 giai đoạn
- Trước tiên tạo ra cấu trúc thưa của SLAT
- Sau đó tạo các vector tiềm ẩn cho những ô không rỗng
Mô hình backbone là Rectified Flow Transformers, được điều chỉnh để xử lý tính thưa của SLAT
Quy mô huấn luyện lên tới 2 tỷ tham số, sử dụng bộ dữ liệu lớn gồm 500.000 đối tượng 3D đa dạng
Kết quả là các tài sản 3D có hình học chi tiết và texture sống động, và tác giả cho biết vượt trội đáng kể so với các phương pháp trước đó

Ví dụ tạo sinh, chỉnh sửa và định dạng đầu ra

Các ví dụ text-to-3D sử dụng text prompt do GPT-4 tạo ra
- điện thoại quay bằng đồng phong cách vintage
- ngôi nhà gạch hai tầng với mái đỏ và hàng rào
- quả cầu phát sáng trên bệ đá
- robot hình cầu với thiết kế màu vàng và bạc
Các ví dụ image-to-3D sử dụng image prompt do DALL-E 3 tạo ra
Diện mạo và hình học trên trang lần lượt được render từ 3D Gaussians và meshes
Tệp GLB được trích xuất bằng cách bake diện mạo của 3D Gaussians lên mesh
Với một tài sản 3D cho trước, mô hình có thể tạo ra các biến thể nhất quán với text prompt
- chất liệu kim loại với lớp sơn hoàn thiện màu cam và trắng
- chất liệu giống vải dệt kim màu xanh lá và tím
- chất liệu kim loại phong cách vũ khí thời trung cổ với dây đeo da và điểm nhấn màu xanh dương
- cấu trúc công nghệ cao trong suốt như kính
Thao tác cục bộ cho phép chỉnh sửa một vùng cụ thể theo text prompt hoặc image prompt
- bỏ cánh tay của một mecha chiến đấu hình người
- thêm vũ khí chùm tia khổng lồ
- thay chân bằng khung gầm bánh xích
Có thể tổng hợp các tài sản 3D được tạo ra để tạo nên thiết kế nghệ thuật 3D phức tạp và sống động

Mục đích nghiên cứu và các hạn chế

TRELLIS là dự án nghiên cứu thuần túy
Bộ dữ liệu được sử dụng là bộ dữ liệu công khai và đã được rà soát để không chứa thông tin nhận dạng cá nhân hay nội dung độc hại
Vì bộ dữ liệu được thu thập từ Internet nên vẫn có thể tồn tại thiên lệch tiềm ẩn
Hiện tại mô hình có thế mạnh trong việc tạo ra tài sản 3D mang phong cách nghệ thuật
Khả năng tạo ra các vật thể thực tế chân thật còn hạn chế
Tài liệu trên trang chỉ được cung cấp cho mục đích học thuật và nghiên cứu nhằm khám phá công nghệ tạo sinh text-to-3D và image-to-3D
Không nhằm phục vụ việc sử dụng hay khai thác thương mại
Bài báo liên quan là preprint trên arXiv Structured 3D Latents for Scalable and Versatile 3D Generation

1 bình luận

GN⁺ 2024-12-10

Ý kiến trên Hacker News

Chà, thật sự rất ấn tượng, nhưng có lẽ đây là lần đầu tiên mình thấy buồn nôn khi nhìn nội dung do AI tạo ra
Nó được làm quá tốt, đến mức trông như những asset sản xuất hàng loạt chất lượng cực cao nhưng vô hồn, khiến mình thấy buồn
Không phải mình muốn hạ thấp thành tựu này; ngược lại, nó có cảm giác như báo hiệu hồi kết của những asset làm thủ công
Không hẳn là mình thấy tội cho nghệ sĩ, mà mình thấy tiếc cho chính mình vì mình muốn bản thân thuộc tính “được làm bởi bàn tay con người”
Đây cũng là lý do mình không thích lắm các game tạo sinh theo thủ tục. Mình muốn đi trong một thế giới nảy ra từ đầu óc của ai đó; nếu muốn một thế giới tạo sinh theo thủ tục tồn tại chẳng vì lý do gì cụ thể, thì mình cứ ra ngoài đi dạo là được
Mình muốn tác phẩm nghệ thuật do những người cùng thời tạo ra có chủ đích, chứa đựng tầm nhìn, ý tưởng, giá trị, sự thấu hiểu và cá tính của họ, chứ không phải một đống nội dung hay đồ vật để lục lọi. Không nhất thiết phải trông đẹp đến mức này, chỉ cần được tạo ra có mục đích là được
- Cũng có thể nghĩ thế này: giờ game AAA sẽ không còn khác biệt được chỉ nhờ “đồ họa khủng” nữa
  Thành thật mà nói, phần lớn game mới hiện nay gần như chỉ là cùng một gameplay nhưng được làm mới đồ họa
  Nhưng nếu chẳng bao lâu nữa mình cũng có thể làm được những thứ như vậy, mình tò mò các studio lớn sẽ chuẩn bị gì để khiến chúng ta quay lại với họ
- Câu “nếu muốn một thế giới tạo sinh theo thủ tục tồn tại chẳng vì lý do gì cụ thể thì cứ ra ngoài” khiến mình nhớ lại lúc bắt đầu tập thể dục ngoài trời vài năm trước
  Trước đó mình gần như không ra ngoài, chỉ ở trong một căn phòng tương đối tối; rồi một ngày nhìn lên bầu trời và nghĩ: “Chà, mấy đám mây này trông giống mây trong các game như Horizon hay Assassin's Creed”
  Nhìn các asset cũng khiến mình hơi buồn. Thấy “ngôi nhà gạch hai tầng có mái đỏ và hàng rào” làm mình nhớ đến ví dụ animation/keyframe của three.js
  Ví dụ three.js được con người làm thủ công, và đằng sau mọi lựa chọn đều có ý định thật sự; còn Trellis thì trông như một hỗn hợp các tác phẩm tìm thấy trên Internet và trong game, kiểu “bụp, nó ở đây này”
  AI sẽ khiến một số giá trị biến mất, nhưng vì thế nội dung thủ công có thể trở nên có giá trị hơn. Chỉ có điều, liệu chúng ta có công nhận giá trị đó đủ để nghệ sĩ có thể sống bền vững hay không thì còn đáng nghi
  https://threejs.org/examples/#webgl_animation_keyframes
- Nhiều nhà phát triển game ghét thiết kế màn chơi, và lý do họ không dùng tạo sinh theo thủ tục cũng là vì nó khó, nên họ buộc phải xây dựng thế giới thủ công
  Mình cũng thuộc dạng đó, nên nếu có ai chơi game của mình và nghĩ rằng các màn chơi “tuôn ra” từ trong đầu mình thì chắc khá buồn cười. Như thể mình là một nghệ sĩ sâu sắc vậy
  Mình rất tự hào về những phần khác của phát triển game, nhưng thiết kế màn chơi của mình thì không nằm trong số đó
- Mình không nghĩ công nghệ này sẽ thay đổi căn bản lĩnh vực cạnh tranh của con người
  Khi nó bắt đầu được dùng rộng rãi, sẽ có một làn sóng sản phẩm đại trà chất lượng thấp, nhưng những nghệ sĩ thật sự muốn tạo ra thứ gì đó có mục đích sẽ học cách dùng công nghệ này làm bệ phóng cho điều gì đó lớn hơn
  Nhìn những người như Martin Nebelong, họ đang học cách tận dụng AI trong khi vẫn giữ con người ở trong vòng lặp
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- Với những người không biết tạo asset 3D, đây thật sự là một công cụ tạo mẫu rất tốt
  Nó giống như cách scripting trực quan kiểu Unreal Blueprints đã mở ra phát triển game và modding cho những người không quen lập trình
  Vì vậy, nếu có thể có được các model để đưa vào prototype mà không cần học Blender hay Maya thì cũng ổn. Dù chúng hơi thất thường và trông kỳ lạ, ít nhất bạn cũng có nội dung
Chà, kết quả tuyệt vời. Tôi không phải chuyên gia, nhưng có vẻ đây chính là điều mọi người đã nghĩ tới từ khi bản demo NeRF đầu tiên xuất hiện
Tìm lại thì còn thấy bình luận tôi viết 5 năm trước, mong đợi điều này: https://news.ycombinator.com/item?id=22642628
Bước tiếp theo là tự động gắn các “node” để mô hình có thể pivot hoặc xoay trong ảnh 3D. Khi đó nội dung hoạt họa/tương tác theo yêu cầu sẽ xuất hiện ngay
Có thể đưa ảnh thời thơ ấu vào để tái hiện ký ức, rồi thêm mẫu giọng nói của người thân yêu để họ có thể nói chuyện với bạn. Muốn tăng độ nhập vai thì đeo tai nghe chống ồn và bước vào VR là được
Sắp ra mắt! Nhấn vào đây để tham gia danh sách chờ “Surrender Reality”
- Bước tiếp theo là tạo các mô hình có topology mesh chất lượng cao hơn để mesh không bị vỡ khi animate và chỉnh sửa
  Tôi đã làm retopology khá nhiều; nếu rig trực tiếp các mô hình này thì sẽ phát sinh đủ kiểu vấn đề về shading và biến dạng. Ngay cả không animate, nhìn gần cũng thấy việc tam giác hóa khá rõ
  Dù vậy, có cảm giác việc tạo asset 3D chất lượng cao đã ở rất gần. Chỉ cần kết hợp cách tiếp cận đang thấy ở đây với remeshing tứ giác bằng AI dựa trên trường hướng ước lượng và phát hiện đặc trưng; mảng này cũng đang tốt lên đáng sợ
- Theo trực giác, sự kết hợp giữa 3D engine và công nghệ này có vẻ là lời giải tốt hơn cách hiện tại là render video đã raster hóa trực tiếp trong không gian tiềm ẩn. Tình cờ là hôm nay Sora cũng ra mắt
  Có thể việc rig và animate mesh, rồi huấn luyện mạng để thiết lập toàn bộ cảnh của một video bất kỳ thành “digital twin”, là không thực tế
  Nhưng nếu cấu hình như vậy khả thi, có lẽ ta sẽ kiểm soát video sinh ra chi tiết hơn rất nhiều trong khi giữ nguyên các phần còn lại
- Tôi không chắc “node” ở đây chính xác là gì. Xoay hay phóng to/thu nhỏ tùy ý về lý thuyết chỉ nghe hay khi muốn một lazy susan hoặc cái đầu xoay vòng vòng kiểu phim Trừ tà
  Bước tiếp theo có lẽ sẽ gần với topology đối xứng bình thường hơn, UV map tốt hơn, và auto-rigging (FK/IK) để dễ animate
- Tôi tò mò điều này sẽ ảnh hưởng thế nào đến 3D artist trong các studio phát triển game
  Liệu studio sẽ dùng các công cụ này trong khi vẫn giữ artist, giúp họ tạo nhiều nội dung nhanh và dễ hơn, hay chỉ giữ lại một phần và cắt 80% còn lại rồi thay bằng công cụ này
- Không chỉ hữu ích cho nội dung hoạt họa/tương tác theo yêu cầu, mà cả render ảnh tĩnh nữa
  Đến nay ảnh 2D do AI tạo thường sai ánh sáng và đầy lỗi. Một khi đã thành cảnh 3D và render bằng công cụ miễn phí như Blender, ánh sáng sẽ chính xác và có thể cấu hình, các chi tiết sai cũng dễ sửa
  Đã có những công cụ mạnh đến vô lý, và từ đây có vẻ chúng sẽ còn mạnh lên nhanh hơn nhiều
Chưa hoàn hảo, nhưng tốt hơn hẳn phần lớn các trình tạo mô hình 3D mà tôi từng dùng
Trước đây kết quả tệ đến khó tin, còn lần này ít nhất cũng trên mức trung bình
Giờ chỉ cần cung cấp định dạng file có thể đưa thẳng vào Orca Slicer là được
Ấn tượng. Tôi đã dùng layer diffusion để tạo chiếc khí cầu low-poly này: https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
Kết quả như sau: https://video.non.io/video-2732101706.mp4
Thành thật mà nói không tệ chút nào, và đang tiến gần tới mức có thể dùng làm game asset
Tôi thử đưa ảnh máy bay tàng hình F-117 trên Wikipedia vào, nhưng đầu ra thất bại hoàn toàn
Đến mức tôi không hiểu các ví dụ trên trang dự án được tạo ra thế nào; ngay từ silhouette cơ bản đã sai hoàn toàn
Tôi đã hy vọng có thể tải ảnh từ nhiều góc lên để hiệu chỉnh, nhưng có vẻ không có chức năng đó
- F-117 có hình dạng rất khác thường. Nếu không biết trước nó trông như thế nào, ngoại suy từ một góc nhìn đơn lẻ ở một góc nhất định cũng khá khó ngay cả với con người
  Nếu nó không có trong dataset thì mức đó có thể thông cảm. Đặc biệt do hình khối góc cạnh, có vẻ cũng dễ bị nhận nhầm là không phải máy bay
  Tôi không có ý nói về chất lượng tổng thể của mô hình; chỉ là F-117 gần như chắc chắn là một bài test không công bằng
Tôi đã thấy nó được đăng vài ngày trước, nhưng đây là demo rất ấn tượng nên mong nó được thảo luận ở đây
https://news.ycombinator.com/item?id=42342557
Có thấy tiềm năng, nhưng các ảnh tôi đưa vào chắc lệch khá xa phân phối huấn luyện nên chỉ tạo ra những tấm phẳng kỳ lạ
- Tôi đã khiến nó hoạt động khá tốt với ảnh kiểu game isometric, nhìn nhân vật hoặc vật thể từ trên xuống
  Dùng ảnh nhìn chính diện thì tất cả đều ra kết quả phẳng
- Lại thêm một công cụ như phép màu. Cho đến khi tự thử nghiệm
Tùy ảnh mà khác nhau rất nhiều, nhưng việc tái hiện lông động vật bằng một tổ hợp hợp lý giữa polygon mesh và texture trong suốt thật sự đáng kinh ngạc
Ngay cả các ví dụ trên trang cũng không cho thấy khả năng này
https://imgur.com/a/qJp4HNX
AlphaFold là mô hình tạo 3D từ chuỗi protein một chiều, với biểu diễn dữ liệu nội bộ rất hào nhoáng và phức tạp
Trong khi đó, điều thú vị ở bài báo này là về cơ bản họ voxel hóa dữ liệu đầu vào và chụp thật nhiều ảnh từ nhiều góc để tạo tập huấn luyện
Tôi đã dùng cái này để đi từ ảnh do AI tạo đến in 3D. Các bước được ghi lại ở đây: https://x.com/ryanlanciaux/status/1866163343788007619
- Thật sự rất tương lai. Bạn có thể dùng lời nói để tạo ảnh, rồi biến nó thành vật thể vật lý ngay tại nhà, nhưng phần văn bản thuần và ảnh mô tả quy trình đó lại không đọc được vì một trang web hỏng

TRELLIS - Mô hình tạo mesh 3D

Mục tiêu và phạm vi của TRELLIS

Biểu diễn Structured LATent (SLAT)

Kiến trúc mô hình tạo sinh và huấn luyện

Ví dụ tạo sinh, chỉnh sửa và định dạng đầu ra

Mục đích nghiên cứu và các hạn chế

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News