WorldGen – Tạo thế giới 3D nhập vai từ văn bản

(meta.com)

3 điểm bởi GN⁺ 2025-11-24 | 1 bình luận | Chia sẻ qua WhatsApp

WorldGen của Meta là một hệ thống AI tạo sinh end-to-end tự động tạo ra thế giới 3D có thể khám phá từ một lời nhắc văn bản duy nhất
Kết hợp suy luận thủ tục, tạo 3D dựa trên khuếch tán và phân tách cảnh nhận diện đối tượng để xây dựng môi trường nhất quán về hình học và phong phú về thị giác
Quy trình tạo gồm 4 giai đoạn: lập kế hoạch (Planning), tái dựng (Reconstruction), phân tách (Decomposition) và tinh chỉnh (Refinement)
Kết quả tương thích với các game engine tiêu chuẩn như Unity, Unreal và có thể sử dụng mà không cần quy trình chuyển đổi riêng
Có tiềm năng dân chủ hóa và nâng cao hiệu quả cho việc sản xuất nội dung 3D vốn phức tạp và tốn kém

Tổng quan về WorldGen

WorldGen có thể tạo ra thế giới 3D tương tác chỉ trong vài phút từ các đầu vào văn bản như “cartoon medieval village” hoặc “sci-fi base station on Mars”
- Thế giới được tạo ra giữ được sự nhất quán về phong cách và chủ đề, đồng thời được kết nối theo cấu trúc cho phép nhân vật di chuyển tự do
Dựa trên sự phát triển của công nghệ AI tạo sinh, hệ thống có thể xây dựng môi trường 3D hoàn chỉnh từ một lời nhắc văn bản hoặc hình ảnh duy nhất

Cấu trúc kỹ thuật và các bước tạo sinh

WorldGen bắt đầu bằng giai đoạn lập kế hoạch gồm tạo blockout theo thủ tục, trích xuất Navmesh và tạo ảnh tham chiếu
Sau đó là giai đoạn tái dựng, thực hiện chuyển đổi ảnh sang 3D, tạo cảnh dựa trên Navmesh và tạo texture cơ bản
Sử dụng AutoPartGen để phân tách cảnh và tuyển chọn dữ liệu, qua đó tách riêng các thành phần chi tiết
Cuối cùng là giai đoạn tinh chỉnh thông qua nâng cao hình ảnh, tinh chỉnh mesh và mô hình tạo texture

Điểm khác biệt so với phương pháp hiện có

Các hệ thống hiện có tạo sinh xoay quanh một góc nhìn (viewpoint) duy nhất nên chất lượng giảm mạnh ở các vùng ngoài khu vực trung tâm
WorldGen tạo ra một cảnh hoàn chỉnh có texture ở quy mô 50×50 mét, đồng thời duy trì sự nhất quán về phong cách và hình học
Nghiên cứu đang tiếp tục hướng tới các thế giới có quy mô lớn hơn trong tương lai

Khả năng tương thích và ứng dụng

Hiện vẫn đang ở giai đoạn nghiên cứu và chưa được mở cho nhà phát triển, nhưng nội dung được tạo ra có thể dùng ngay trong Unity, Unreal và các công cụ tương tự
Không cần chuyển đổi pipeline render riêng

Hạn chế và định hướng tương lai

Mô hình hiện tại vẫn còn chỗ để cải thiện về kích thước không gian và độ trễ tạo sinh (latency)
Các phiên bản tương lai hướng tới tạo không gian lớn hơn và tăng tốc độ

Ý nghĩa với ngành

Giảm độ phức tạp và gánh nặng chi phí trong sản xuất nội dung 3D, đồng thời mở ra khả năng người không chuyên cũng có thể xây dựng thế giới ảo
Phù hợp với tầm nhìn Meta nêu tại sự kiện Connect về “tương lai nơi ai cũng có thể tạo ra thế giới ảo mà không cần viết một dòng code nào”

Danh sách cảm ơn

Dự án do nhóm Reality Labs 3D GenAI thực hiện
Những người đóng góp chính: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, v.v. (dấu † chỉ trưởng dự án)

1 bình luận

GN⁺ 2025-11-24

Ý kiến Hacker News

Đây là một bản demo thú vị, nhưng không thể đi vào bên trong tòa nhà, kích thước tòa nhà hay cách bố trí ngôi làng gần như giống nhau, và có nhiều điểm thiếu nhất quán về mặt hình ảnh
Cuối cùng trông như chỉ ở mức đặt những chiếc hộp na ná nhau lên một lưới rồi đi lòng vòng giữa chúng
Tôi biết tiến bộ diễn ra từng bước, nhưng so với các demo tạo thế giới khác thì nó có vẻ là một bước tiến quá nhỏ
- Những ngôi làng do AI tạo ra trông như thể đã bị áp quy định quy hoạch đô thị nghiêm ngặt
  Mọi tòa nhà đều được đặt cách đều nhau trên lưới, và có vẻ cũng có giới hạn chiều cao
  Các game thế giới mở thực tế hơn (GTA, Cyberpunk, v.v.) cố tình có kiểu "sự lộn xộn được thiết kế" như ngõ cụt hay cửa bị khóa
  Nếu mọi con đường đều dẫn tới một nơi thú vị thì cảm giác khám phá lại biến mất
- Bản demo này có thể hữu ích hơn trong pipeline sản xuất nội dung so với những ví dụ khác như World Labs
  Nếu là cách dùng tài sản rõ ràng thì có thể phù hợp hơn với việc làm game
  Meta đã công bố nhiều bài báo cốt lõi trong lĩnh vực này và cũng có Hyperscape, nên có thể xem đây là một thử nghiệm theo hướng khác
- Tôi không thấy liên kết demo thực tế nào đang hoạt động
- Phần lớn game cũng không thể vào trong tòa nhà. Ngay cả trong Cyberpunk thì số cánh cửa mở được cũng cực kỳ ít
  Tôi tự hỏi đến bao giờ người dùng bình thường mới có thể tự tay dùng thử những engine worldgen như thế này
  Không hiểu vì sao Google, Meta và Tencent cứ trình diễn mãi mà không phát hành thực sự
Trông cái này giống một pipeline kỹ thuật ghép các công nghệ GenAI hiện có lại hơn
Kết quả cũng chưa ở mức SOTA, và thay vì là tiến bộ thì lại giống một hướng tiếp cận ngõ cụt
Đột phá thực sự hẳn phải là tạo trực tiếp mesh có kèm texture bằng mô hình học end-to-end, nên việc chưa làm được có thể có nghĩa là vẫn còn thiếu công nghệ cốt lõi
Dù vậy, có vẻ vẫn có thể dùng để bootstrap bộ dữ liệu cho việc huấn luyện mô hình sau này
- Tôi tò mò không biết công nghệ SOTA hiện tại trong lĩnh vực này là gì
- Có lẽ các nhà phát triển đã cố hết sức để đáp ứng yêu cầu từ cấp trên, nhưng đây trông như một ví dụ cho thấy giới hạn đổi mới của các tập đoàn lớn
Cái này gần với 3DAssetGen hơn là một "world model"
Nó không thực sự tạo ra cả một thế giới, mà chỉ ở mức ghép các tài sản lại với nhau
Một thế giới làm thủ công còn tốt hơn nhiều, thậm chí còn kém hấp dẫn hơn cả game làm bằng RPG Maker
- Thực tế có vẻ nó chỉ tạo ra những khu vuông nhỏ. Kiểu thế giới dạng lưới như vậy sẽ gây khó chịu cho người chơi
  Dù vậy, xét đây là bước thử đầu tiên thì vẫn có ý nghĩa, và tôi kỳ vọng AI có thể hạ thấp rào cản tạo thế giới metaverse
  Nghĩ đến thực tế là chỉ để làm ra một hòn đảo nhỏ như trong GTA cũng đã tốn thời gian và chi phí khổng lồ thì càng thấy vậy
- Không có chỗ nào trên trang dùng cụm từ "world model"
Thà mua mô hình tòa nhà ở asset store giá 5 USD còn hơn
Tôi không hiểu tại sao phải bỏ ra hàng chục tỷ USD để xây data center và phá hoại môi trường chỉ để làm ra thứ này
- Tôi nghĩ dùng số tiền đó để hỗ trợ các nghệ sĩ low-poly như Quaternius còn tốt hơn
  Tôi cũng tò mò không biết dạo này các nghệ sĩ 3D còn muốn phát hành tài sản miễn phí nữa không
Bầu không khí của video đầu tiên làm tôi nhớ đến Warcraft 3 hay DotA
Đã từng có thời chỉ một bản đồ đơn giản cũng có thể thay đổi hoàn toàn game online và eSports
Giờ đây ta có thể tạo ra thế giới on-demand chất lượng cao hơn nhiều, vậy mà bản đồ đơn giản thời đó lại còn thấy vĩ đại hơn
Cuối cùng thì thứ chúng ta muốn chỉ là một SimCity tốt hơn, nên tôi không hiểu vì sao lại cần nhiều mô hình tạo thế giới và data center đến thế
Thật mỉa mai khi tiêu tốn lượng điện và nước khổng lồ để tạo ra những ngôi làng giả
Tôi thậm chí còn cố tình không mua console vì sợ mình sẽ nghiện những game như Red Dead
Tôi nghi ngờ không biết công nghệ này thực sự mang lại lợi ích cho ai
Tôi bấm vào liên kết thì gặp lỗi 404, tìm thử mới biết hồi tháng 5 đã có một dự án Worldgen cùng tên rồi
Bên đó có vẻ dựng được cảnh 3D chân thực tốt hơn nhiều
- Nhưng thực ra cái đó gần như chỉ là mánh biến ảnh 2D trông như 3D
  Chỉ cần di chuyển camera một chút là hỏng ngay
Bản thân bài báo khá ổn
Có một số chi tiết thú vị về cách xử lý mesh riêng lẻ
Liên kết bài báo
Họ dùng từ "interactive" nhiều lần nên tôi đã kỳ vọng kiểu tương tác thực sự như mở cửa hay nhặt đồ,
nhưng thực ra chỉ có nghĩa là có thể nhìn quanh ở góc nhìn thứ nhất
Nếu định nghĩa như vậy thì mọi mô hình 3D đều có thể gọi là interactive
Tạo panorama bằng diffusion 2D → chuyển thành point cloud → lifting lên 3D → inpainting 2D → tối ưu hóa 3D Gaussian splatting
Tức là họ ghép nối hình ảnh theo kiểu đó để tạo thành 3D
Về mặt khái niệm thì đây là một cách tiếp cận khó gọi là world model, nên thật đáng tiếc là thuật ngữ bị dùng khá mơ hồ

WorldGen – Tạo thế giới 3D nhập vai từ văn bản

Tổng quan về WorldGen

Cấu trúc kỹ thuật và các bước tạo sinh

Điểm khác biệt so với phương pháp hiện có

Khả năng tương thích và ứng dụng

Hạn chế và định hướng tương lai

Ý nghĩa với ngành

Danh sách cảm ơn

Bài viết liên quan

1 bình luận

Ý kiến Hacker News