- WorldGen của Meta là một hệ thống AI tạo sinh end-to-end tự động tạo ra thế giới 3D có thể khám phá từ một lời nhắc văn bản duy nhất
- Kết hợp suy luận thủ tục, tạo 3D dựa trên khuếch tán và phân tách cảnh nhận diện đối tượng để xây dựng môi trường nhất quán về hình học và phong phú về thị giác
- Quy trình tạo gồm 4 giai đoạn: lập kế hoạch (Planning), tái dựng (Reconstruction), phân tách (Decomposition) và tinh chỉnh (Refinement)
- Kết quả tương thích với các game engine tiêu chuẩn như Unity, Unreal và có thể sử dụng mà không cần quy trình chuyển đổi riêng
- Có tiềm năng dân chủ hóa và nâng cao hiệu quả cho việc sản xuất nội dung 3D vốn phức tạp và tốn kém
Tổng quan về WorldGen
- WorldGen có thể tạo ra thế giới 3D tương tác chỉ trong vài phút từ các đầu vào văn bản như “cartoon medieval village” hoặc “sci-fi base station on Mars”
- Thế giới được tạo ra giữ được sự nhất quán về phong cách và chủ đề, đồng thời được kết nối theo cấu trúc cho phép nhân vật di chuyển tự do
- Dựa trên sự phát triển của công nghệ AI tạo sinh, hệ thống có thể xây dựng môi trường 3D hoàn chỉnh từ một lời nhắc văn bản hoặc hình ảnh duy nhất
Cấu trúc kỹ thuật và các bước tạo sinh
- WorldGen bắt đầu bằng giai đoạn lập kế hoạch gồm tạo blockout theo thủ tục, trích xuất Navmesh và tạo ảnh tham chiếu
- Sau đó là giai đoạn tái dựng, thực hiện chuyển đổi ảnh sang 3D, tạo cảnh dựa trên Navmesh và tạo texture cơ bản
- Sử dụng AutoPartGen để phân tách cảnh và tuyển chọn dữ liệu, qua đó tách riêng các thành phần chi tiết
- Cuối cùng là giai đoạn tinh chỉnh thông qua nâng cao hình ảnh, tinh chỉnh mesh và mô hình tạo texture
Điểm khác biệt so với phương pháp hiện có
- Các hệ thống hiện có tạo sinh xoay quanh một góc nhìn (viewpoint) duy nhất nên chất lượng giảm mạnh ở các vùng ngoài khu vực trung tâm
- WorldGen tạo ra một cảnh hoàn chỉnh có texture ở quy mô 50×50 mét, đồng thời duy trì sự nhất quán về phong cách và hình học
- Nghiên cứu đang tiếp tục hướng tới các thế giới có quy mô lớn hơn trong tương lai
Khả năng tương thích và ứng dụng
- Hiện vẫn đang ở giai đoạn nghiên cứu và chưa được mở cho nhà phát triển, nhưng nội dung được tạo ra có thể dùng ngay trong Unity, Unreal và các công cụ tương tự
- Không cần chuyển đổi pipeline render riêng
Hạn chế và định hướng tương lai
- Mô hình hiện tại vẫn còn chỗ để cải thiện về kích thước không gian và độ trễ tạo sinh (latency)
- Các phiên bản tương lai hướng tới tạo không gian lớn hơn và tăng tốc độ
Ý nghĩa với ngành
- Giảm độ phức tạp và gánh nặng chi phí trong sản xuất nội dung 3D, đồng thời mở ra khả năng người không chuyên cũng có thể xây dựng thế giới ảo
- Phù hợp với tầm nhìn Meta nêu tại sự kiện Connect về “tương lai nơi ai cũng có thể tạo ra thế giới ảo mà không cần viết một dòng code nào”
Danh sách cảm ơn
- Dự án do nhóm Reality Labs 3D GenAI thực hiện
- Những người đóng góp chính: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, v.v. (dấu † chỉ trưởng dự án)
1 bình luận
Ý kiến Hacker News
Đây là một bản demo thú vị, nhưng không thể đi vào bên trong tòa nhà, kích thước tòa nhà hay cách bố trí ngôi làng gần như giống nhau, và có nhiều điểm thiếu nhất quán về mặt hình ảnh
Cuối cùng trông như chỉ ở mức đặt những chiếc hộp na ná nhau lên một lưới rồi đi lòng vòng giữa chúng
Tôi biết tiến bộ diễn ra từng bước, nhưng so với các demo tạo thế giới khác thì nó có vẻ là một bước tiến quá nhỏ
Mọi tòa nhà đều được đặt cách đều nhau trên lưới, và có vẻ cũng có giới hạn chiều cao
Các game thế giới mở thực tế hơn (GTA, Cyberpunk, v.v.) cố tình có kiểu "sự lộn xộn được thiết kế" như ngõ cụt hay cửa bị khóa
Nếu mọi con đường đều dẫn tới một nơi thú vị thì cảm giác khám phá lại biến mất
Nếu là cách dùng tài sản rõ ràng thì có thể phù hợp hơn với việc làm game
Meta đã công bố nhiều bài báo cốt lõi trong lĩnh vực này và cũng có Hyperscape, nên có thể xem đây là một thử nghiệm theo hướng khác
Tôi tự hỏi đến bao giờ người dùng bình thường mới có thể tự tay dùng thử những engine worldgen như thế này
Không hiểu vì sao Google, Meta và Tencent cứ trình diễn mãi mà không phát hành thực sự
Trông cái này giống một pipeline kỹ thuật ghép các công nghệ GenAI hiện có lại hơn
Kết quả cũng chưa ở mức SOTA, và thay vì là tiến bộ thì lại giống một hướng tiếp cận ngõ cụt
Đột phá thực sự hẳn phải là tạo trực tiếp mesh có kèm texture bằng mô hình học end-to-end, nên việc chưa làm được có thể có nghĩa là vẫn còn thiếu công nghệ cốt lõi
Dù vậy, có vẻ vẫn có thể dùng để bootstrap bộ dữ liệu cho việc huấn luyện mô hình sau này
Cái này gần với 3DAssetGen hơn là một "world model"
Nó không thực sự tạo ra cả một thế giới, mà chỉ ở mức ghép các tài sản lại với nhau
Một thế giới làm thủ công còn tốt hơn nhiều, thậm chí còn kém hấp dẫn hơn cả game làm bằng RPG Maker
Dù vậy, xét đây là bước thử đầu tiên thì vẫn có ý nghĩa, và tôi kỳ vọng AI có thể hạ thấp rào cản tạo thế giới metaverse
Nghĩ đến thực tế là chỉ để làm ra một hòn đảo nhỏ như trong GTA cũng đã tốn thời gian và chi phí khổng lồ thì càng thấy vậy
Thà mua mô hình tòa nhà ở asset store giá 5 USD còn hơn
Tôi không hiểu tại sao phải bỏ ra hàng chục tỷ USD để xây data center và phá hoại môi trường chỉ để làm ra thứ này
Tôi cũng tò mò không biết dạo này các nghệ sĩ 3D còn muốn phát hành tài sản miễn phí nữa không
Bầu không khí của video đầu tiên làm tôi nhớ đến Warcraft 3 hay DotA
Đã từng có thời chỉ một bản đồ đơn giản cũng có thể thay đổi hoàn toàn game online và eSports
Giờ đây ta có thể tạo ra thế giới on-demand chất lượng cao hơn nhiều, vậy mà bản đồ đơn giản thời đó lại còn thấy vĩ đại hơn
Cuối cùng thì thứ chúng ta muốn chỉ là một SimCity tốt hơn, nên tôi không hiểu vì sao lại cần nhiều mô hình tạo thế giới và data center đến thế
Thật mỉa mai khi tiêu tốn lượng điện và nước khổng lồ để tạo ra những ngôi làng giả
Tôi thậm chí còn cố tình không mua console vì sợ mình sẽ nghiện những game như Red Dead
Tôi nghi ngờ không biết công nghệ này thực sự mang lại lợi ích cho ai
Tôi bấm vào liên kết thì gặp lỗi 404, tìm thử mới biết hồi tháng 5 đã có một dự án Worldgen cùng tên rồi
Bên đó có vẻ dựng được cảnh 3D chân thực tốt hơn nhiều
Chỉ cần di chuyển camera một chút là hỏng ngay
Bản thân bài báo khá ổn
Có một số chi tiết thú vị về cách xử lý mesh riêng lẻ
Liên kết bài báo
Họ dùng từ "interactive" nhiều lần nên tôi đã kỳ vọng kiểu tương tác thực sự như mở cửa hay nhặt đồ,
nhưng thực ra chỉ có nghĩa là có thể nhìn quanh ở góc nhìn thứ nhất
Nếu định nghĩa như vậy thì mọi mô hình 3D đều có thể gọi là interactive
Tạo panorama bằng diffusion 2D → chuyển thành point cloud → lifting lên 3D → inpainting 2D → tối ưu hóa 3D Gaussian splatting
Tức là họ ghép nối hình ảnh theo kiểu đó để tạo thành 3D
Về mặt khái niệm thì đây là một cách tiếp cận khó gọi là world model, nên thật đáng tiếc là thuật ngữ bị dùng khá mơ hồ