Voyager – Mô hình tạo video tương tác hỗ trợ tái dựng 3D theo thời gian thực

(github.com/Tencent-Hunyuan)

1 điểm bởi GN⁺ 2025-09-05 | 1 bình luận | Chia sẻ qua WhatsApp

Voyager là một khung khuếch tán video mới tạo ra chuỗi point cloud 3D nhất quán dựa trên ảnh đầu vào và quỹ đạo camera do người dùng chỉ định
Tạo đồng thời thông tin RGB và độ sâu để cho phép tái dựng 3D hiệu quả và trực tiếp
Giới thiệu pipeline tạo bộ dữ liệu video quy mô lớn nhằm thu thập dữ liệu huấn luyện đa dạng mà không cần gán nhãn 3D thủ công
Trên benchmark WorldScore, mô hình cho thấy hiệu năng vượt trội so với nhiều mô hình trước đó ở nhiều hạng mục như tính nhất quán 3D và độ khớp nội dung
Hỗ trợ suy luận song song được tối ưu trên một hoặc nhiều GPU và cho thấy nhiều khả năng ứng dụng thông qua bản demo thời gian thực

Giới thiệu dự án

HunyuanWorld-Voyager tạo ra chuỗi video point cloud nhất quán với thế giới (3D-Consistent) dựa trên ảnh đầu vào và quỹ đạo di chuyển camera do người dùng chỉ định
Người dùng có thể tự do thiết lập quỹ đạo camera để tạo video cảnh 3D phục vụ khám phá thế giới
Tùy biến tạo đồng thời video RGB và độ sâu (Depth), cho phép tái dựng 3D nhanh và có độ tin cậy cao

Kiến trúc

Voyager được thiết kế với hai thành phần cốt lõi
- (1) Kiến trúc khuếch tán video nhất quán với thế giới: đảm bảo tính nhất quán cảnh ở quy mô toàn cục, đồng thời tạo RGB và độ sâu trong trạng thái được căn chỉnh
- (2) Khám phá thế giới tầm xa: hỗ trợ mở rộng cảnh nhất quán theo ngữ cảnh bằng cách tận dụng point culling, suy luận tự hồi quy và lấy mẫu video mượt mà

Data engine

Để huấn luyện Voyager, nhóm phát triển đã thiết kế riêng một data engine có khả năng mở rộng dựa trên pipeline tái dựng video
- Tự động hóa ước lượng pose camera và dự đoán độ sâu theo đơn vị mét cho các video thông thường bất kỳ, cho phép tạo bộ dữ liệu huấn luyện quy mô lớn mà không cần thao tác thủ công
- Cung cấp bộ dữ liệu gồm hơn 100.000 clip video, bao gồm video quay thực tế và dữ liệu tổng hợp dựa trên Unreal Engine

Tính năng chính và demo

Cung cấp demo tạo video tương tác dựa trên điều khiển quỹ đạo camera
Có thể tái dựng ngay point cloud 3D liên kết với video đã tạo
Trình diễn nhiều kịch bản ứng dụng khác nhau như tạo cảnh 3D và ước lượng video-depth từ một ảnh đơn

So sánh hiệu năng

Được đánh giá trên benchmark WorldScore
- Voyager đạt hiệu năng nhóm đầu ở nhiều hạng mục như điều khiển camera, điều khiển vật thể, căn chỉnh nội dung, tính nhất quán 3D, v.v.
- Đặc biệt đạt điểm cao nhất ở các hạng mục chất lượng chủ quan (Subjective Quality) và tính nhất quán 3D

Yêu cầu hệ thống

Khi tạo video độ phân giải 540p trên một GPU 80GB, cần ít nhất 60GB bộ nhớ
Cung cấp hiệu năng tối ưu trên hệ điều hành Linux và môi trường CUDA 12.4 (khuyến nghị từ 80GB trở lên)

Hiệu năng suy luận song song

Hỗ trợ suy luận song song đa GPU dựa trên xDiT
- Khi sử dụng 8 GPU H20, mô hình tạo kết quả trong 288 giây cho cấu hình 49 khung hình, 50 bước (512x768), nhanh hơn 6,69 lần so với một GPU đơn

Giao diện người dùng và demo

Cung cấp demo thời gian thực dựa trên Gradio
- Có thể dễ dàng tạo video RGB-D bằng cách tải ảnh lên, chọn hướng camera và nhập prompt văn bản

Công bố data engine

Data engine tạo dữ liệu quy mô lớn, có khả năng mở rộng cho huấn luyện video RGB-D cũng được cung cấp dưới dạng mã nguồn mở

Trích dẫn và tham khảo

Bài báo arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
HunyuanWorld-Voyager được thiết kế và triển khai dựa trên thành quả nghiên cứu từ nhiều mã nguồn mở khác nhau như VGGT, MoGE, Metric3D, v.v.

Giá trị cốt lõi và điểm khác biệt của dự án

Điểm mạnh của Voyager so với phần lớn các dự án tạo image-to-video hiện nay là khả năng xuất video 3D nhất quán với thế giới (dựa trên point cloud) từ một ảnh đơn theo nhiều quỹ đạo đa dạng
Bằng việc tạo ra cả thông tin RGB lẫn độ sâu và đồng thời cung cấp data engine tự động hóa quy mô lớn, mô hình có tiềm năng ứng dụng rộng rãi trong tạo nội dung 3D thực tế, xây dựng môi trường ảo, digital twin, AIGC và nhiều lĩnh vực công nghiệp khác

1 bình luận

GN⁺ 2025-09-05

Ý kiến trên Hacker News

Giấy phép này có khá nhiều điều khoản thú vị

Có thể sử dụng ở bất kỳ đâu trên thế giới, ngoại trừ EU, Vương quốc Anh và Hàn Quốc
Tôi đã đoán Mỹ/Canada mới là nơi bị loại trừ, nên tổ hợp này khá bất ngờ
Ngoài ra,
“Ít nhất một lần hãy đăng bài blog giới thiệu công nghệ hoặc bài cảm nhận sau khi sử dụng, và với dịch vụ mới thì hãy gắn nhãn ‘Powered by Tencent Hunyuan’”
một khuyến nghị như vậy lại được đưa vào giấy phép
Tôi tò mò không biết việc đưa kiểu khuyến nghị này vào giấy phép mang ý nghĩa gì
- Tôi nghĩ là vì Đạo luật AI của EU
  Tôi đã thử trực tiếp một ứng dụng kiểm tra tuân thủ, và dù đã chọn doanh nghiệp nhỏ/mã nguồn mở/nghiên cứu/không có khách hàng, thì vẫn vướng đăng ký, công bố và đủ loại thủ tục
  Bản nháp ban đầu đã rất rối, tưởng như đã được cải thiện nhưng vẫn mơ hồ và quan liêu
- Những nơi như EU đang muốn quản lý AI rất tích cực
  Mục đích của thư viện mã nguồn mở là tránh trách nhiệm pháp lý
  Nhưng ở các khu vực như vậy, trách nhiệm pháp lý quá phức tạp, nên có vẻ họ quyết định theo hướng đơn giản là cấm sử dụng luôn
- Nội dung giấy phép khuyến nghị “bài blog hay bài trải nghiệm sử dụng, gắn nhãn ‘Powered by Tencent Hunyuan’”
  Tôi thấy đây chẳng khác nào một kiểu quảng bá mới, kiểu các YouTuber nói “hãy đăng ký và bấm like”
- Tôi xem những hạn chế này về thực chất là kiểu tuân thủ mang tính ác ý
  Trên thực tế, Đạo luật AI chỉ yêu cầu mô tả tóm tắt về dữ liệu huấn luyện, mức độ phù hợp với bản quyền và cách quản lý rủi ro
  Không phải thứ gì quá phức tạp hay kiểu khoa học tên lửa
- Dù vậy, tôi vẫn tò mò không biết ở EU có thật sự tải về và dùng được không
  Tôi không quá để tâm đến giấy phép, nhưng đoán là có lẽ phải đăng ký tài khoản mới tải được gì đó
Về mặt kỹ thuật, tài liệu cũng ghi rất rõ là chỉ nhận đầu vào một ảnh, nhưng tôi tự hỏi nếu cho nhiều ảnh vào để làm kiểu photogrammetry thì chẳng phải sẽ biểu đạt tốt hơn sao
- Tôi cũng có đúng thắc mắc đó
  Trường hợp của tôi thì lại có một ứng dụng hoàn toàn khác
  Có vài khu vực mà thuyền lidar không lấy được dữ liệu đo độ sâu, và đúng những vùng thú vị thì lại không có dữ liệu
  Chỗ đó chỉ có video bay qua thôi (ở những đoạn nước trong)
  Nếu có video với đủ góc độ, thì có thể loại bỏ nhiễu như phản xạ mặt nước, tăng cường hình ảnh đáy, rồi thử khôi phục bằng photogrammetry
  Điểm quan trọng là để khôi phục chính xác thì cần dữ liệu từ nhiều góc khác nhau
  Khả năng nhìn dưới nước thay đổi tùy theo ánh sáng và góc máy, nên trước đây phải bay lặp lại vào nhiều thời điểm khác nhau
  Tôi muốn thử xem liệu với model này có thể khôi phục tương tự chỉ từ một ảnh hay không
- Đã có các model photogrammetry làm việc này với nhiều ảnh đầu vào rồi
  Việc mở rộng tính năng để nhận một số ít ảnh thay vì chỉ một ảnh hoàn toàn là điều ai đó có thể thử
  Nhưng xét theo sắc thái của câu hỏi, thì nghe như đây chỉ là một chi tiết “bị bỏ sót do vô tình”
Tôi thấy khá thú vị khi trong bảng so sánh hiệu năng, “điểm cao nhất” được tô nổi bật bằng màu đỏ
- Đó là đúng kiểu biểu đồ chứng khoán Trung Quốc
  Ở Trung Quốc, màu đỏ nghĩa là tăng, còn màu xanh lá nghĩa là giảm
- Đúng như đã nói, ở Đông Á thì màu đỏ mang nghĩa tích cực
  Nhưng điều tôi còn thấy lạ hơn là màu thứ ba lại là màu vàng
  Thông thường nó không theo thứ tự phổ màu thị giác
  (đỏ ~700nm, xanh lá ~550nm, vàng ~580nm)
  Thứ tự màu khác với trực giác thông thường này khá thú vị
- Ý nghĩa của màu sắc là sản phẩm của văn hóa
  Ở Trung Quốc, màu đỏ mang ý nghĩa khác với phương Tây
  Trong bối cảnh Trung Quốc, lựa chọn đó hoàn toàn không có gì lạ
- Ngay cả trong truyền thông phương Tây (phim ảnh, thời trang), ta cũng thường thấy những màu biểu tượng kiểu này
  Màu đỏ thường xuất hiện như màu gợi liên tưởng đến Trung Quốc
- Đây là hiện tượng đến từ khác biệt văn hóa, và tôi thấy nó rất thú vị
  Chỉ là nó không ảnh hưởng gì đến đời sống hằng ngày của tôi, nên đơn giản là một quan sát xã hội thú vị thôi
Năm 1995 tôi từng học một khóa xử lý ảnh của một giáo sư người Ấn Độ
Hồi đó tôi hỏi làm sao để ảnh độ phân giải thấp trông đẹp hơn, và nhận được câu trả lời là “không thể tạo ra thông tin”
Thế mà 30 năm sau, chúng ta đã sống trong thời đại có thể tạo video từ một bức ảnh
- Thực ra có thể trích xuất được nhiều thông tin từ hình ảnh hơn người ta tưởng
  Đặc biệt là với video, lượng thông tin còn nhiều hơn nữa
  Kỹ thuật này được gọi là ‘super-resolution’
  Không thể tạo thông tin từ hư vô, nhưng có thể dùng hiểu biết về đặc tính của chủ thể để lấp đầy phần thiếu hụt một cách tự nhiên
- Tiến bộ công nghệ là rất lớn, nhưng thật ra ý nghĩa của “thông tin” và “sáng tạo” khi đó cũng khác
  Ví dụ, một đứa trẻ dùng bút sáp vẽ thêm thân hình que vào ảnh chân dung cũng có thể gọi là “thêm thông tin”
  Nhưng đó không phải là thông tin về sự kiện có thật vốn đã tồn tại
  Và nhà nghiên cứu thì không thể tùy tiện bịa dữ liệu, nhà báo thì không thể tùy tiện bịa trích dẫn; bối cảnh trách nhiệm ở mỗi nơi là khác nhau
Liệu model này có thật sự xoay đủ 360 độ được không?
Nhìn các video được đăng lên thì có vẻ chỉ hơi dịch chuyển hoặc cùng lắm là pan nhẹ một chút
- Về mặt lý thuyết thì có thể
  Ở mỗi khung hình, model tạo ra một ảnh độ sâu, và mỗi pixel trở thành một điểm 3D
  Với giả định toàn bộ cảnh 3D là tĩnh, có thể gom tất cả các khung hình thành một đám mây điểm 3D tích lũy
  Sau đó dùng renderer 3D cổ điển để xoay góc nhìn tùy ý
  Nhưng nếu trong giai đoạn sinh video thực tế mà thông tin giữa các khung hình không nhất quán (ví dụ: màu sắc thay đổi), thì đám mây điểm cũng chỉ là “dữ liệu sai một cách nhất quán”
  Kết quả là khi xoay xem, các tổ hợp màu sẽ lệch nhau và trông như bị hòa trộn mờ đục
  Và cũng khó chèn đúng các vật thể ảo vào cảnh đã tạo
  Vì không có thông tin chiếu sáng, và việc pha trộn màu sắc cũng không khớp với môi trường
  Ý tưởng thì rất hay, nhưng còn nhiều vấn đề bổ sung cần giải quyết
Tôi thật sự rất mong sớm được thử tính năng kiểu này trong VR
- Hãy thử chế độ visionOS 26 “Immersive Photo”
  Ảnh trong thư viện iCloud sẽ tự động được model cục bộ chuyển đổi (có lẽ là thành cảnh 3D kiểu Gaussian Splat)
  Có thể pan và xoay được, nên khá xứng đáng với Vision Pro
  Ngay cả ảnh chụp cũ từ Nikon D70 cũng khiến phong cảnh và con người trông như thật
- Mong thì mong, nhưng đừng quá sốt ruột
  Hiện tại vẫn còn rất xa mới đạt tới mức độ phân giải cao thực sự 120fps, stereo ổn định và độ trễ cực thấp
- Tôi nghĩ nếu áp dụng ở trạng thái hiện tại thì có thể gây say rất nặng
  Góc nhìn (fov) của các video này quá hỗn loạn
Tôi muốn biết hiện nay model hay tổ hợp nào là tốt nhất cho text-to-3D-asset (văn bản → tài sản 3D)
Nếu dựa trên mã nguồn mở thì càng tốt
- Tiện thể hỏi thêm, có giải pháp nào cho text-to-sprite-sheet (văn bản → sprite sheet),
  hoặc văn bản+cột ảnh đơn → sprite sheet không
Thực ra đây không phải mã nguồn mở, mà là kiểu “weights-available” (công khai trọng số)
Cũng không có dữ liệu huấn luyện, và nếu mã nguồn mở là “hình thức phù hợp nhất cho việc sửa đổi” thì đúng ra phải có cả dữ liệu nữa
Trích một phần giấy phép:

“Nếu MAU của tháng trước đạt từ 1 triệu trở lên thì cần giấy phép trước,
không được dùng để cải thiện các model AI khác”
Acceptable Use Policy (chính sách sử dụng được chấp nhận) cũng hạn chế rất cụ thể Xem toàn văn giấy phép
- Hạn chế với EU/UK/Hàn Quốc có lẽ là vì những khu vực đó có thể nêu vấn đề về việc huấn luyện trái phép trên dữ liệu hoặc yêu cầu bồi thường tài chính
- Tôi đồng ý với nhận định “đây không phải mã nguồn mở”
  Nhưng “hình thức phù hợp nhất cho việc sửa đổi” không nhất thiết là dữ liệu (dữ liệu huấn luyện), mà là trọng số
  Dữ liệu chỉ là một phương pháp để sửa đổi trọng số
- Tôi muốn chỉ ra rằng fine-tuning rẻ hơn rất nhiều
- Ngoại trừ AI2, tôi nghĩ trên thực tế hầu hết các model AI đều không phải mã nguồn mở đúng nghĩa (công khai cả log huấn luyện lẫn dữ liệu)
  Dạo này “mã nguồn mở” về cơ bản gần như được dùng như từ đồng nghĩa với “weights-available”
- “7. Không tạo và phát tán thông tin sai lệch một cách rõ ràng với mục đích gây hại cho người khác hoặc thao túng bầu cử”
  “8. Không tạo ra các hoạt động trực tuyến giả mạo như đánh giá giả”
  → Có phải là tự mình thì làm, còn cấm người khác làm không
  “15. Không sử dụng theo cách đi ngược lại đạo đức/xã hội của các quốc gia hay khu vực khác”
  và những điều khoản như vậy trên thực tế khiến việc sử dụng ở mọi khu vực đều trở nên khó khăn
  Chính sách quá nặng tay
Điều tôi quan tâm là đưa ảnh Panoramax (giải pháp thay thế StreetView mở) vào để tái dựng thành cảnh có thể điều hướng 3D
Tôi muốn hỏi là có thể xoay camera 1080 độ không!!
Các video này <i>quá</i> ngắn, đến 45 độ còn xoay chưa tới nơi
Genie3 cũng chỉ xoay được cỡ 90 độ
Trên thực tế phải chú ý đến những phần model “không làm được”, và ở đây là “không thể xoay tử tế”
Nếu còn không vượt qua nổi bài test đơn giản là đặt yên một chỗ rồi xoay quanh, thì tôi không muốn gọi nó là ‘world model’ nữa
Ôi bực thật

Voyager – Mô hình tạo video tương tác hỗ trợ tái dựng 3D theo thời gian thực

Giới thiệu dự án

Kiến trúc

Data engine

Tính năng chính và demo

So sánh hiệu năng

Yêu cầu hệ thống

Hiệu năng suy luận song song

Giao diện người dùng và demo

Công bố data engine

Trích dẫn và tham khảo

Giá trị cốt lõi và điểm khác biệt của dự án

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News