1 điểm bởi GN⁺ 2023-11-29 | 1 bình luận | Chia sẻ qua WhatsApp

MeshGPT: Transformer chỉ dùng decoder cho việc tạo lưới tam giác

  • MeshGPT tạo ra lưới tam giác bằng cách lấy mẫu tự hồi quy từ một mô hình transformer sinh token từ vốn từ vựng hình học đã được học.
  • Các token này có thể được giải mã thành các mặt của lưới tam giác, và lưới được tạo ra có đặc trưng sạch, nhất quán, với các cạnh sắc nét và độ trung thực cao.

Tóm tắt

  • MeshGPT là một phương pháp mới để tạo lưới tam giác phản ánh tính cô đọng, một đặc trưng của các lưới do nghệ sĩ tạo ra, trái ngược với các lưới tam giác dày đặc được trích xuất từ các trường neural.
  • Lấy cảm hứng từ những tiến bộ gần đây của các mô hình ngôn ngữ lớn mạnh mẽ, phương pháp này áp dụng cách tiếp cận dựa trên chuỗi để tự hồi quy tạo ra lưới tam giác dưới dạng chuỗi các tam giác.
  • Trước tiên, phương pháp sử dụng graph convolution để học một vốn từ vựng các embedding được lượng tử hóa trong không gian tiềm ẩn; các embedding này sau đó được decoder sắp xếp thành chuỗi và giải mã thành các tam giác để có thể tái tạo lưới một cách hiệu quả.

So sánh video và các ứng dụng khác

  • Cách tiếp cận của MeshGPT tạo ra các lưới cô đọng với chi tiết hình học sắc nét, trong khi các phương pháp trước đây thường bỏ lỡ những chi tiết này, tạo ra lưới bị tam giác hóa quá mức hoặc xuất ra các hình dạng quá đơn giản.
  • Khi được cung cấp một phần lưới, phương pháp này có thể suy luận ra nhiều khả năng hoàn thiện hình dạng khác nhau.
  • Phương pháp này có thể được dùng để tạo tài sản 3D cho các cảnh, và ở đây cho thấy một căn phòng được lấp đầy bằng các tài sản được tạo bằng phương pháp này.

Tổng quan phương pháp

  • Trước tiên học một vốn từ vựng cho lưới tam giác, sau đó dùng nó để thực hiện việc sinh lưới theo kiểu tự hồi quy.
  • Học một vốn từ vựng các embedding hình học từ bộ sưu tập nhiều hình dạng khác nhau, với đặc trưng là một mạng encoder-decoder có vector quantization.
  • Sau khi được huấn luyện đầy đủ, transformer này có thể trực tiếp lấy mẫu lưới dưới dạng chuỗi token từ vốn từ vựng đã học.

Ý kiến của GN⁺

MeshGPT đưa ra một cách tiếp cận đột phá vượt qua các phương pháp tạo lưới hiện có, cho thấy sự cải thiện rõ rệt về độ bao phủ hình dạng và điểm FID. Công nghệ này đánh dấu một bước tiến lớn trong lĩnh vực mô hình hóa 3D và đồ họa máy tính, đặc biệt thú vị nhờ khả năng trực tiếp tạo ra các lưới cô đọng với các cạnh sắc, mô phỏng tốt hơn các mẫu tam giác hóa hiệu quả của lưới do con người tạo ra. Những tiến bộ này mang đến cho các nhà sáng tạo nội dung 3D những công cụ mới và mở ra khả năng tạo tài sản 3D chất lượng tốt hơn nhanh hơn và hiệu quả hơn.

1 bình luận

 
GN⁺ 2023-11-29
Ý kiến trên Hacker News
  • Đây là một nghiên cứu cho thấy diện mạo của một ý tưởng mang tính cách mạng, và bài báo có rất nhiều chi tiết. Người ta đã biết rằng mô hình transformer có thể mở rộng tốt, và ý tưởng này được kỳ vọng sẽ được nhiều công ty dùng để huấn luyện các pipeline tạo tài sản 3D tổng quát.

    "Trước tiên, chúng tôi học một từ vựng các embedding lượng tử hóa tiềm ẩn, có chứa thông tin về hình học và tô-pô mesh cục bộ bằng cách sử dụng graph convolution. Các embedding này sau đó được tuần tự hóa và giải mã thành các tam giác bởi decoder, từ đó có thể tái tạo mesh một cách hiệu quả."

  • Với tư cách là một kỹ sư machine learning có quan tâm đến Blender và phát triển game như một sở thích, nghiên cứu này gây ấn tượng nhưng chưa thực sự hữu ích theo cách thực dụng đối với các ví dụ đồ nội thất còn hạn chế. Một modeler lành nghề có thể tạo các mesh như vậy trong chưa tới 5 phút, và vẫn cần polygon để phục vụ việc sinh tạo. Bước tiếp theo có lẽ sẽ là điều khiển tạo seed bằng LLM và thêm mô hình hình ảnh vào phần tự hồi quy của kiến trúc. Khi đó, chúng ta mới thực sự có thể thấy các tài sản phù hợp cho game di động.

  • Với tư cách là người làm nghề trong lĩnh vực sản xuất 3D/phim ảnh, tình hình hiện tại vừa rất thú vị vừa đáng sợ.

  • Tôi tò mò không biết đầu vào là gì. Có phải là chuyển các truy vấn văn bản như "ghế" thành mesh không? Chỉnh sửa: có vẻ như hoàn thiện mesh mới là phương thức đầu vào-đầu ra chính, chứ không phải một tính năng đơn giản.

  • Có vẻ như những bài toán khó còn sót lại vốn không có nhiều tiến triển lớn kể từ thập niên 90 sẽ bằng cách nào đó được giải quyết nhờ transformer. Thật thú vị khi được sống trong thời đại này.

  • Đổi mới tiếp theo sẽ là UX để tạo ra các cảnh 3D giống như từ những mô hình này ngay trước mặt trong VR. Điều đó sẽ cho phép chúng ta tạo ra các môi trường 3D bền vững và tùy ý cho bất kỳ bối cảnh nào mà ta có dữ liệu huấn luyện. Mô hình khuếch tán có thể được dùng để tạo texture.

  • Ngay cả nếu đây "chỉ là" tự động hoàn thiện mesh thì nó vẫn cực kỳ hữu ích với nghệ sĩ 3D. Hiện có một khoảng cách giữa cách điêu khắc nhân vật và cách làm cho nó hoạt ảnh. Việc retopology model tốn rất nhiều thời gian. Một hệ thống retopology dựa trên transformer có thể lấy mesh thô và cung cấp tô-pô sạch sẽ sẽ tiết kiệm được rất nhiều thời gian.

  • Tôi rất yêu lĩnh vực này. Bài báo có một website, ví dụ và video rất tuyệt. Nó đem lại cảm giác mới mẻ hơn nhiều so với phong cách bài báo với phần tóm tắt, mở đầu và kết quả dày đặc.

  • Công nghệ này đang tiến bộ rất mạnh! Vẫn còn những cạnh kỳ lạ, nhưng giờ đây chúng giống các "chi tiết lặp lại" hơn là vấn đề mang tính thuật toán hay phức tạp. Nếu có thể ném mọi mesh vào một thư mục, huấn luyện mạng, rồi yêu cầu nó tạo thứ khác theo phong cách đó, thì sẽ không còn cần retopology những gì được tạo ra hoặc áp thêm các ảnh hưởng sáng tạo khác. Dĩ nhiên, cho đến khi hoàn toàn đạt tới mức đó thì procgen vẫn phục vụ tốt hơn, nhưng tôi cực kỳ phấn khích về tốc độ tiến bộ của công nghệ này! Hy vọng trong buổi showcase Unreal năm sau, người ta sẽ nói về tính năng "Asset Generator" mới.

  • Công nghệ này thực sự trông rất ngầu! Có vẻ nó sẽ là trợ giúp to lớn cho các nhà phát triển game indie trong việc tạo ra nhiều tài sản.