3 điểm bởi GN⁺ 2025-11-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • WorldGen của Meta là một hệ thống AI tạo sinh end-to-end tự động tạo ra thế giới 3D có thể khám phá từ một lời nhắc văn bản duy nhất
  • Kết hợp suy luận thủ tục, tạo 3D dựa trên khuếch tánphân tách cảnh nhận diện đối tượng để xây dựng môi trường nhất quán về hình học và phong phú về thị giác
  • Quy trình tạo gồm 4 giai đoạn: lập kế hoạch (Planning), tái dựng (Reconstruction), phân tách (Decomposition)tinh chỉnh (Refinement)
  • Kết quả tương thích với các game engine tiêu chuẩn như Unity, Unreal và có thể sử dụng mà không cần quy trình chuyển đổi riêng
  • Có tiềm năng dân chủ hóa và nâng cao hiệu quả cho việc sản xuất nội dung 3D vốn phức tạp và tốn kém

Tổng quan về WorldGen

  • WorldGen có thể tạo ra thế giới 3D tương tác chỉ trong vài phút từ các đầu vào văn bản như “cartoon medieval village” hoặc “sci-fi base station on Mars”
    • Thế giới được tạo ra giữ được sự nhất quán về phong cách và chủ đề, đồng thời được kết nối theo cấu trúc cho phép nhân vật di chuyển tự do
  • Dựa trên sự phát triển của công nghệ AI tạo sinh, hệ thống có thể xây dựng môi trường 3D hoàn chỉnh từ một lời nhắc văn bản hoặc hình ảnh duy nhất

Cấu trúc kỹ thuật và các bước tạo sinh

  • WorldGen bắt đầu bằng giai đoạn lập kế hoạch gồm tạo blockout theo thủ tục, trích xuất Navmeshtạo ảnh tham chiếu
  • Sau đó là giai đoạn tái dựng, thực hiện chuyển đổi ảnh sang 3D, tạo cảnh dựa trên Navmeshtạo texture cơ bản
  • Sử dụng AutoPartGen để phân tách cảnh và tuyển chọn dữ liệu, qua đó tách riêng các thành phần chi tiết
  • Cuối cùng là giai đoạn tinh chỉnh thông qua nâng cao hình ảnh, tinh chỉnh meshmô hình tạo texture

Điểm khác biệt so với phương pháp hiện có

  • Các hệ thống hiện có tạo sinh xoay quanh một góc nhìn (viewpoint) duy nhất nên chất lượng giảm mạnh ở các vùng ngoài khu vực trung tâm
  • WorldGen tạo ra một cảnh hoàn chỉnh có texture ở quy mô 50×50 mét, đồng thời duy trì sự nhất quán về phong cách và hình học
  • Nghiên cứu đang tiếp tục hướng tới các thế giới có quy mô lớn hơn trong tương lai

Khả năng tương thích và ứng dụng

  • Hiện vẫn đang ở giai đoạn nghiên cứu và chưa được mở cho nhà phát triển, nhưng nội dung được tạo ra có thể dùng ngay trong Unity, Unreal và các công cụ tương tự
  • Không cần chuyển đổi pipeline render riêng

Hạn chế và định hướng tương lai

  • Mô hình hiện tại vẫn còn chỗ để cải thiện về kích thước không gianđộ trễ tạo sinh (latency)
  • Các phiên bản tương lai hướng tới tạo không gian lớn hơntăng tốc độ

Ý nghĩa với ngành

  • Giảm độ phức tạp và gánh nặng chi phí trong sản xuất nội dung 3D, đồng thời mở ra khả năng người không chuyên cũng có thể xây dựng thế giới ảo
  • Phù hợp với tầm nhìn Meta nêu tại sự kiện Connect về “tương lai nơi ai cũng có thể tạo ra thế giới ảo mà không cần viết một dòng code nào

Danh sách cảm ơn

  • Dự án do nhóm Reality Labs 3D GenAI thực hiện
  • Những người đóng góp chính: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, v.v. (dấu † chỉ trưởng dự án)

1 bình luận

 
GN⁺ 2025-11-24
Ý kiến Hacker News
  • Đây là một bản demo thú vị, nhưng không thể đi vào bên trong tòa nhà, kích thước tòa nhà hay cách bố trí ngôi làng gần như giống nhau, và có nhiều điểm thiếu nhất quán về mặt hình ảnh
    Cuối cùng trông như chỉ ở mức đặt những chiếc hộp na ná nhau lên một lưới rồi đi lòng vòng giữa chúng
    Tôi biết tiến bộ diễn ra từng bước, nhưng so với các demo tạo thế giới khác thì nó có vẻ là một bước tiến quá nhỏ

    • Những ngôi làng do AI tạo ra trông như thể đã bị áp quy định quy hoạch đô thị nghiêm ngặt
      Mọi tòa nhà đều được đặt cách đều nhau trên lưới, và có vẻ cũng có giới hạn chiều cao
      Các game thế giới mở thực tế hơn (GTA, Cyberpunk, v.v.) cố tình có kiểu "sự lộn xộn được thiết kế" như ngõ cụt hay cửa bị khóa
      Nếu mọi con đường đều dẫn tới một nơi thú vị thì cảm giác khám phá lại biến mất
    • Bản demo này có thể hữu ích hơn trong pipeline sản xuất nội dung so với những ví dụ khác như World Labs
      Nếu là cách dùng tài sản rõ ràng thì có thể phù hợp hơn với việc làm game
      Meta đã công bố nhiều bài báo cốt lõi trong lĩnh vực này và cũng có Hyperscape, nên có thể xem đây là một thử nghiệm theo hướng khác
    • Tôi không thấy liên kết demo thực tế nào đang hoạt động
    • Phần lớn game cũng không thể vào trong tòa nhà. Ngay cả trong Cyberpunk thì số cánh cửa mở được cũng cực kỳ ít
      Tôi tự hỏi đến bao giờ người dùng bình thường mới có thể tự tay dùng thử những engine worldgen như thế này
      Không hiểu vì sao Google, Meta và Tencent cứ trình diễn mãi mà không phát hành thực sự
  • Trông cái này giống một pipeline kỹ thuật ghép các công nghệ GenAI hiện có lại hơn
    Kết quả cũng chưa ở mức SOTA, và thay vì là tiến bộ thì lại giống một hướng tiếp cận ngõ cụt
    Đột phá thực sự hẳn phải là tạo trực tiếp mesh có kèm texture bằng mô hình học end-to-end, nên việc chưa làm được có thể có nghĩa là vẫn còn thiếu công nghệ cốt lõi
    Dù vậy, có vẻ vẫn có thể dùng để bootstrap bộ dữ liệu cho việc huấn luyện mô hình sau này

    • Tôi tò mò không biết công nghệ SOTA hiện tại trong lĩnh vực này là gì
    • Có lẽ các nhà phát triển đã cố hết sức để đáp ứng yêu cầu từ cấp trên, nhưng đây trông như một ví dụ cho thấy giới hạn đổi mới của các tập đoàn lớn
  • Cái này gần với 3DAssetGen hơn là một "world model"
    Nó không thực sự tạo ra cả một thế giới, mà chỉ ở mức ghép các tài sản lại với nhau
    Một thế giới làm thủ công còn tốt hơn nhiều, thậm chí còn kém hấp dẫn hơn cả game làm bằng RPG Maker

    • Thực tế có vẻ nó chỉ tạo ra những khu vuông nhỏ. Kiểu thế giới dạng lưới như vậy sẽ gây khó chịu cho người chơi
      Dù vậy, xét đây là bước thử đầu tiên thì vẫn có ý nghĩa, và tôi kỳ vọng AI có thể hạ thấp rào cản tạo thế giới metaverse
      Nghĩ đến thực tế là chỉ để làm ra một hòn đảo nhỏ như trong GTA cũng đã tốn thời gian và chi phí khổng lồ thì càng thấy vậy
    • Không có chỗ nào trên trang dùng cụm từ "world model"
  • Thà mua mô hình tòa nhà ở asset store giá 5 USD còn hơn
    Tôi không hiểu tại sao phải bỏ ra hàng chục tỷ USD để xây data center và phá hoại môi trường chỉ để làm ra thứ này

    • Tôi nghĩ dùng số tiền đó để hỗ trợ các nghệ sĩ low-poly như Quaternius còn tốt hơn
      Tôi cũng tò mò không biết dạo này các nghệ sĩ 3D còn muốn phát hành tài sản miễn phí nữa không
  • Bầu không khí của video đầu tiên làm tôi nhớ đến Warcraft 3 hay DotA
    Đã từng có thời chỉ một bản đồ đơn giản cũng có thể thay đổi hoàn toàn game online và eSports
    Giờ đây ta có thể tạo ra thế giới on-demand chất lượng cao hơn nhiều, vậy mà bản đồ đơn giản thời đó lại còn thấy vĩ đại hơn

  • Cuối cùng thì thứ chúng ta muốn chỉ là một SimCity tốt hơn, nên tôi không hiểu vì sao lại cần nhiều mô hình tạo thế giới và data center đến thế
    Thật mỉa mai khi tiêu tốn lượng điện và nước khổng lồ để tạo ra những ngôi làng giả
    Tôi thậm chí còn cố tình không mua console vì sợ mình sẽ nghiện những game như Red Dead
    Tôi nghi ngờ không biết công nghệ này thực sự mang lại lợi ích cho ai

  • Tôi bấm vào liên kết thì gặp lỗi 404, tìm thử mới biết hồi tháng 5 đã có một dự án Worldgen cùng tên rồi
    Bên đó có vẻ dựng được cảnh 3D chân thực tốt hơn nhiều

    • Nhưng thực ra cái đó gần như chỉ là mánh biến ảnh 2D trông như 3D
      Chỉ cần di chuyển camera một chút là hỏng ngay
  • Bản thân bài báo khá ổn
    Có một số chi tiết thú vị về cách xử lý mesh riêng lẻ
    Liên kết bài báo

  • Họ dùng từ "interactive" nhiều lần nên tôi đã kỳ vọng kiểu tương tác thực sự như mở cửa hay nhặt đồ,
    nhưng thực ra chỉ có nghĩa là có thể nhìn quanh ở góc nhìn thứ nhất
    Nếu định nghĩa như vậy thì mọi mô hình 3D đều có thể gọi là interactive

  • Tạo panorama bằng diffusion 2D → chuyển thành point cloud → lifting lên 3D → inpainting 2D → tối ưu hóa 3D Gaussian splatting
    Tức là họ ghép nối hình ảnh theo kiểu đó để tạo thành 3D
    Về mặt khái niệm thì đây là một cách tiếp cận khó gọi là world model, nên thật đáng tiếc là thuật ngữ bị dùng khá mơ hồ