1 điểm bởi GN⁺ 2025-09-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Voyager là một khung khuếch tán video mới tạo ra chuỗi point cloud 3D nhất quán dựa trên ảnh đầu vào và quỹ đạo camera do người dùng chỉ định
  • Tạo đồng thời thông tin RGB và độ sâu để cho phép tái dựng 3D hiệu quả và trực tiếp
  • Giới thiệu pipeline tạo bộ dữ liệu video quy mô lớn nhằm thu thập dữ liệu huấn luyện đa dạng mà không cần gán nhãn 3D thủ công
  • Trên benchmark WorldScore, mô hình cho thấy hiệu năng vượt trội so với nhiều mô hình trước đó ở nhiều hạng mục như tính nhất quán 3D và độ khớp nội dung
  • Hỗ trợ suy luận song song được tối ưu trên một hoặc nhiều GPU và cho thấy nhiều khả năng ứng dụng thông qua bản demo thời gian thực

Giới thiệu dự án

  • HunyuanWorld-Voyager tạo ra chuỗi video point cloud nhất quán với thế giới (3D-Consistent) dựa trên ảnh đầu vào và quỹ đạo di chuyển camera do người dùng chỉ định
  • Người dùng có thể tự do thiết lập quỹ đạo camera để tạo video cảnh 3D phục vụ khám phá thế giới
  • Tùy biến tạo đồng thời video RGB và độ sâu (Depth), cho phép tái dựng 3D nhanh và có độ tin cậy cao

Kiến trúc

  • Voyager được thiết kế với hai thành phần cốt lõi
    • (1) Kiến trúc khuếch tán video nhất quán với thế giới: đảm bảo tính nhất quán cảnh ở quy mô toàn cục, đồng thời tạo RGB và độ sâu trong trạng thái được căn chỉnh
    • (2) Khám phá thế giới tầm xa: hỗ trợ mở rộng cảnh nhất quán theo ngữ cảnh bằng cách tận dụng point culling, suy luận tự hồi quy và lấy mẫu video mượt mà

Data engine

  • Để huấn luyện Voyager, nhóm phát triển đã thiết kế riêng một data engine có khả năng mở rộng dựa trên pipeline tái dựng video
    • Tự động hóa ước lượng pose camera và dự đoán độ sâu theo đơn vị mét cho các video thông thường bất kỳ, cho phép tạo bộ dữ liệu huấn luyện quy mô lớn mà không cần thao tác thủ công
    • Cung cấp bộ dữ liệu gồm hơn 100.000 clip video, bao gồm video quay thực tế và dữ liệu tổng hợp dựa trên Unreal Engine

Tính năng chính và demo

  • Cung cấp demo tạo video tương tác dựa trên điều khiển quỹ đạo camera
  • Có thể tái dựng ngay point cloud 3D liên kết với video đã tạo
  • Trình diễn nhiều kịch bản ứng dụng khác nhau như tạo cảnh 3Dước lượng video-depth từ một ảnh đơn

So sánh hiệu năng

  • Được đánh giá trên benchmark WorldScore
    • Voyager đạt hiệu năng nhóm đầu ở nhiều hạng mục như điều khiển camera, điều khiển vật thể, căn chỉnh nội dung, tính nhất quán 3D, v.v.
    • Đặc biệt đạt điểm cao nhất ở các hạng mục chất lượng chủ quan (Subjective Quality)tính nhất quán 3D

Yêu cầu hệ thống

  • Khi tạo video độ phân giải 540p trên một GPU 80GB, cần ít nhất 60GB bộ nhớ
  • Cung cấp hiệu năng tối ưu trên hệ điều hành Linux và môi trường CUDA 12.4 (khuyến nghị từ 80GB trở lên)

Hiệu năng suy luận song song

  • Hỗ trợ suy luận song song đa GPU dựa trên xDiT
    • Khi sử dụng 8 GPU H20, mô hình tạo kết quả trong 288 giây cho cấu hình 49 khung hình, 50 bước (512x768), nhanh hơn 6,69 lần so với một GPU đơn

Giao diện người dùng và demo

  • Cung cấp demo thời gian thực dựa trên Gradio
    • Có thể dễ dàng tạo video RGB-D bằng cách tải ảnh lên, chọn hướng camera và nhập prompt văn bản

Công bố data engine

  • Data engine tạo dữ liệu quy mô lớn, có khả năng mở rộng cho huấn luyện video RGB-D cũng được cung cấp dưới dạng mã nguồn mở

Trích dẫn và tham khảo

  • Bài báo arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • HunyuanWorld-Voyager được thiết kế và triển khai dựa trên thành quả nghiên cứu từ nhiều mã nguồn mở khác nhau như VGGT, MoGE, Metric3D, v.v.

Giá trị cốt lõi và điểm khác biệt của dự án

  • Điểm mạnh của Voyager so với phần lớn các dự án tạo image-to-video hiện nay là khả năng xuất video 3D nhất quán với thế giới (dựa trên point cloud) từ một ảnh đơn theo nhiều quỹ đạo đa dạng
  • Bằng việc tạo ra cả thông tin RGB lẫn độ sâu và đồng thời cung cấp data engine tự động hóa quy mô lớn, mô hình có tiềm năng ứng dụng rộng rãi trong tạo nội dung 3D thực tế, xây dựng môi trường ảo, digital twin, AIGC và nhiều lĩnh vực công nghiệp khác

Chưa có bình luận nào.

Chưa có bình luận nào.