Voyager – Mô hình tạo video tương tác hỗ trợ tái dựng 3D theo thời gian thực
(github.com/Tencent-Hunyuan)- Voyager là một khung khuếch tán video mới tạo ra chuỗi point cloud 3D nhất quán dựa trên ảnh đầu vào và quỹ đạo camera do người dùng chỉ định
- Tạo đồng thời thông tin RGB và độ sâu để cho phép tái dựng 3D hiệu quả và trực tiếp
- Giới thiệu pipeline tạo bộ dữ liệu video quy mô lớn nhằm thu thập dữ liệu huấn luyện đa dạng mà không cần gán nhãn 3D thủ công
- Trên benchmark WorldScore, mô hình cho thấy hiệu năng vượt trội so với nhiều mô hình trước đó ở nhiều hạng mục như tính nhất quán 3D và độ khớp nội dung
- Hỗ trợ suy luận song song được tối ưu trên một hoặc nhiều GPU và cho thấy nhiều khả năng ứng dụng thông qua bản demo thời gian thực
Giới thiệu dự án
- HunyuanWorld-Voyager tạo ra chuỗi video point cloud nhất quán với thế giới (3D-Consistent) dựa trên ảnh đầu vào và quỹ đạo di chuyển camera do người dùng chỉ định
- Người dùng có thể tự do thiết lập quỹ đạo camera để tạo video cảnh 3D phục vụ khám phá thế giới
- Tùy biến tạo đồng thời video RGB và độ sâu (Depth), cho phép tái dựng 3D nhanh và có độ tin cậy cao
Kiến trúc
- Voyager được thiết kế với hai thành phần cốt lõi
- (1) Kiến trúc khuếch tán video nhất quán với thế giới: đảm bảo tính nhất quán cảnh ở quy mô toàn cục, đồng thời tạo RGB và độ sâu trong trạng thái được căn chỉnh
- (2) Khám phá thế giới tầm xa: hỗ trợ mở rộng cảnh nhất quán theo ngữ cảnh bằng cách tận dụng point culling, suy luận tự hồi quy và lấy mẫu video mượt mà
Data engine
- Để huấn luyện Voyager, nhóm phát triển đã thiết kế riêng một data engine có khả năng mở rộng dựa trên pipeline tái dựng video
- Tự động hóa ước lượng pose camera và dự đoán độ sâu theo đơn vị mét cho các video thông thường bất kỳ, cho phép tạo bộ dữ liệu huấn luyện quy mô lớn mà không cần thao tác thủ công
- Cung cấp bộ dữ liệu gồm hơn 100.000 clip video, bao gồm video quay thực tế và dữ liệu tổng hợp dựa trên Unreal Engine
Tính năng chính và demo
- Cung cấp demo tạo video tương tác dựa trên điều khiển quỹ đạo camera
- Có thể tái dựng ngay point cloud 3D liên kết với video đã tạo
- Trình diễn nhiều kịch bản ứng dụng khác nhau như tạo cảnh 3D và ước lượng video-depth từ một ảnh đơn
So sánh hiệu năng
- Được đánh giá trên benchmark WorldScore
- Voyager đạt hiệu năng nhóm đầu ở nhiều hạng mục như điều khiển camera, điều khiển vật thể, căn chỉnh nội dung, tính nhất quán 3D, v.v.
- Đặc biệt đạt điểm cao nhất ở các hạng mục chất lượng chủ quan (Subjective Quality) và tính nhất quán 3D
Yêu cầu hệ thống
- Khi tạo video độ phân giải 540p trên một GPU 80GB, cần ít nhất 60GB bộ nhớ
- Cung cấp hiệu năng tối ưu trên hệ điều hành Linux và môi trường CUDA 12.4 (khuyến nghị từ 80GB trở lên)
Hiệu năng suy luận song song
- Hỗ trợ suy luận song song đa GPU dựa trên xDiT
- Khi sử dụng 8 GPU H20, mô hình tạo kết quả trong 288 giây cho cấu hình 49 khung hình, 50 bước (512x768), nhanh hơn 6,69 lần so với một GPU đơn
Giao diện người dùng và demo
- Cung cấp demo thời gian thực dựa trên Gradio
- Có thể dễ dàng tạo video RGB-D bằng cách tải ảnh lên, chọn hướng camera và nhập prompt văn bản
Công bố data engine
- Data engine tạo dữ liệu quy mô lớn, có khả năng mở rộng cho huấn luyện video RGB-D cũng được cung cấp dưới dạng mã nguồn mở
Trích dẫn và tham khảo
- Bài báo arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager được thiết kế và triển khai dựa trên thành quả nghiên cứu từ nhiều mã nguồn mở khác nhau như VGGT, MoGE, Metric3D, v.v.
Giá trị cốt lõi và điểm khác biệt của dự án
- Điểm mạnh của Voyager so với phần lớn các dự án tạo image-to-video hiện nay là khả năng xuất video 3D nhất quán với thế giới (dựa trên point cloud) từ một ảnh đơn theo nhiều quỹ đạo đa dạng
- Bằng việc tạo ra cả thông tin RGB lẫn độ sâu và đồng thời cung cấp data engine tự động hóa quy mô lớn, mô hình có tiềm năng ứng dụng rộng rãi trong tạo nội dung 3D thực tế, xây dựng môi trường ảo, digital twin, AIGC và nhiều lĩnh vực công nghiệp khác
1 bình luận
Ý kiến trên Hacker News
Giấy phép này có khá nhiều điều khoản thú vị
Tôi nghĩ là vì Đạo luật AI của EU
Tôi đã thử trực tiếp một ứng dụng kiểm tra tuân thủ, và dù đã chọn doanh nghiệp nhỏ/mã nguồn mở/nghiên cứu/không có khách hàng, thì vẫn vướng đăng ký, công bố và đủ loại thủ tục
Bản nháp ban đầu đã rất rối, tưởng như đã được cải thiện nhưng vẫn mơ hồ và quan liêu
Những nơi như EU đang muốn quản lý AI rất tích cực
Mục đích của thư viện mã nguồn mở là tránh trách nhiệm pháp lý
Nhưng ở các khu vực như vậy, trách nhiệm pháp lý quá phức tạp, nên có vẻ họ quyết định theo hướng đơn giản là cấm sử dụng luôn
Nội dung giấy phép khuyến nghị “bài blog hay bài trải nghiệm sử dụng, gắn nhãn ‘Powered by Tencent Hunyuan’”
Tôi thấy đây chẳng khác nào một kiểu quảng bá mới, kiểu các YouTuber nói “hãy đăng ký và bấm like”
Tôi xem những hạn chế này về thực chất là kiểu tuân thủ mang tính ác ý
Trên thực tế, Đạo luật AI chỉ yêu cầu mô tả tóm tắt về dữ liệu huấn luyện, mức độ phù hợp với bản quyền và cách quản lý rủi ro
Không phải thứ gì quá phức tạp hay kiểu khoa học tên lửa
Dù vậy, tôi vẫn tò mò không biết ở EU có thật sự tải về và dùng được không
Tôi không quá để tâm đến giấy phép, nhưng đoán là có lẽ phải đăng ký tài khoản mới tải được gì đó
Về mặt kỹ thuật, tài liệu cũng ghi rất rõ là chỉ nhận đầu vào một ảnh, nhưng tôi tự hỏi nếu cho nhiều ảnh vào để làm kiểu photogrammetry thì chẳng phải sẽ biểu đạt tốt hơn sao
Tôi cũng có đúng thắc mắc đó
Trường hợp của tôi thì lại có một ứng dụng hoàn toàn khác
Có vài khu vực mà thuyền lidar không lấy được dữ liệu đo độ sâu, và đúng những vùng thú vị thì lại không có dữ liệu
Chỗ đó chỉ có video bay qua thôi (ở những đoạn nước trong)
Nếu có video với đủ góc độ, thì có thể loại bỏ nhiễu như phản xạ mặt nước, tăng cường hình ảnh đáy, rồi thử khôi phục bằng photogrammetry
Điểm quan trọng là để khôi phục chính xác thì cần dữ liệu từ nhiều góc khác nhau
Khả năng nhìn dưới nước thay đổi tùy theo ánh sáng và góc máy, nên trước đây phải bay lặp lại vào nhiều thời điểm khác nhau
Tôi muốn thử xem liệu với model này có thể khôi phục tương tự chỉ từ một ảnh hay không
Đã có các model photogrammetry làm việc này với nhiều ảnh đầu vào rồi
Việc mở rộng tính năng để nhận một số ít ảnh thay vì chỉ một ảnh hoàn toàn là điều ai đó có thể thử
Nhưng xét theo sắc thái của câu hỏi, thì nghe như đây chỉ là một chi tiết “bị bỏ sót do vô tình”
Tôi thấy khá thú vị khi trong bảng so sánh hiệu năng, “điểm cao nhất” được tô nổi bật bằng màu đỏ
Đó là đúng kiểu biểu đồ chứng khoán Trung Quốc
Ở Trung Quốc, màu đỏ nghĩa là tăng, còn màu xanh lá nghĩa là giảm
Đúng như đã nói, ở Đông Á thì màu đỏ mang nghĩa tích cực
Nhưng điều tôi còn thấy lạ hơn là màu thứ ba lại là màu vàng
Thông thường nó không theo thứ tự phổ màu thị giác
(đỏ ~700nm, xanh lá ~550nm, vàng ~580nm)
Thứ tự màu khác với trực giác thông thường này khá thú vị
Ý nghĩa của màu sắc là sản phẩm của văn hóa
Ở Trung Quốc, màu đỏ mang ý nghĩa khác với phương Tây
Trong bối cảnh Trung Quốc, lựa chọn đó hoàn toàn không có gì lạ
Ngay cả trong truyền thông phương Tây (phim ảnh, thời trang), ta cũng thường thấy những màu biểu tượng kiểu này
Màu đỏ thường xuất hiện như màu gợi liên tưởng đến Trung Quốc
Đây là hiện tượng đến từ khác biệt văn hóa, và tôi thấy nó rất thú vị
Chỉ là nó không ảnh hưởng gì đến đời sống hằng ngày của tôi, nên đơn giản là một quan sát xã hội thú vị thôi
Năm 1995 tôi từng học một khóa xử lý ảnh của một giáo sư người Ấn Độ
Hồi đó tôi hỏi làm sao để ảnh độ phân giải thấp trông đẹp hơn, và nhận được câu trả lời là “không thể tạo ra thông tin”
Thế mà 30 năm sau, chúng ta đã sống trong thời đại có thể tạo video từ một bức ảnh
Thực ra có thể trích xuất được nhiều thông tin từ hình ảnh hơn người ta tưởng
Đặc biệt là với video, lượng thông tin còn nhiều hơn nữa
Kỹ thuật này được gọi là ‘super-resolution’
Không thể tạo thông tin từ hư vô, nhưng có thể dùng hiểu biết về đặc tính của chủ thể để lấp đầy phần thiếu hụt một cách tự nhiên
Tiến bộ công nghệ là rất lớn, nhưng thật ra ý nghĩa của “thông tin” và “sáng tạo” khi đó cũng khác
Ví dụ, một đứa trẻ dùng bút sáp vẽ thêm thân hình que vào ảnh chân dung cũng có thể gọi là “thêm thông tin”
Nhưng đó không phải là thông tin về sự kiện có thật vốn đã tồn tại
Và nhà nghiên cứu thì không thể tùy tiện bịa dữ liệu, nhà báo thì không thể tùy tiện bịa trích dẫn; bối cảnh trách nhiệm ở mỗi nơi là khác nhau
Liệu model này có thật sự xoay đủ 360 độ được không?
Nhìn các video được đăng lên thì có vẻ chỉ hơi dịch chuyển hoặc cùng lắm là pan nhẹ một chút
Ở mỗi khung hình, model tạo ra một ảnh độ sâu, và mỗi pixel trở thành một điểm 3D
Với giả định toàn bộ cảnh 3D là tĩnh, có thể gom tất cả các khung hình thành một đám mây điểm 3D tích lũy
Sau đó dùng renderer 3D cổ điển để xoay góc nhìn tùy ý
Nhưng nếu trong giai đoạn sinh video thực tế mà thông tin giữa các khung hình không nhất quán (ví dụ: màu sắc thay đổi), thì đám mây điểm cũng chỉ là “dữ liệu sai một cách nhất quán”
Kết quả là khi xoay xem, các tổ hợp màu sẽ lệch nhau và trông như bị hòa trộn mờ đục
Và cũng khó chèn đúng các vật thể ảo vào cảnh đã tạo
Vì không có thông tin chiếu sáng, và việc pha trộn màu sắc cũng không khớp với môi trường
Ý tưởng thì rất hay, nhưng còn nhiều vấn đề bổ sung cần giải quyết
Tôi thật sự rất mong sớm được thử tính năng kiểu này trong VR
Hãy thử chế độ visionOS 26 “Immersive Photo”
Ảnh trong thư viện iCloud sẽ tự động được model cục bộ chuyển đổi (có lẽ là thành cảnh 3D kiểu Gaussian Splat)
Có thể pan và xoay được, nên khá xứng đáng với Vision Pro
Ngay cả ảnh chụp cũ từ Nikon D70 cũng khiến phong cảnh và con người trông như thật
Mong thì mong, nhưng đừng quá sốt ruột
Hiện tại vẫn còn rất xa mới đạt tới mức độ phân giải cao thực sự 120fps, stereo ổn định và độ trễ cực thấp
Tôi nghĩ nếu áp dụng ở trạng thái hiện tại thì có thể gây say rất nặng
Góc nhìn (fov) của các video này quá hỗn loạn
Tôi muốn biết hiện nay model hay tổ hợp nào là tốt nhất cho text-to-3D-asset (văn bản → tài sản 3D)
Nếu dựa trên mã nguồn mở thì càng tốt
hoặc văn bản+cột ảnh đơn → sprite sheet không
Thực ra đây không phải mã nguồn mở, mà là kiểu “weights-available” (công khai trọng số)
Cũng không có dữ liệu huấn luyện, và nếu mã nguồn mở là “hình thức phù hợp nhất cho việc sửa đổi” thì đúng ra phải có cả dữ liệu nữa
Trích một phần giấy phép:
Hạn chế với EU/UK/Hàn Quốc có lẽ là vì những khu vực đó có thể nêu vấn đề về việc huấn luyện trái phép trên dữ liệu hoặc yêu cầu bồi thường tài chính
Tôi đồng ý với nhận định “đây không phải mã nguồn mở”
Nhưng “hình thức phù hợp nhất cho việc sửa đổi” không nhất thiết là dữ liệu (dữ liệu huấn luyện), mà là trọng số
Dữ liệu chỉ là một phương pháp để sửa đổi trọng số
Tôi muốn chỉ ra rằng fine-tuning rẻ hơn rất nhiều
Ngoại trừ AI2, tôi nghĩ trên thực tế hầu hết các model AI đều không phải mã nguồn mở đúng nghĩa (công khai cả log huấn luyện lẫn dữ liệu)
Dạo này “mã nguồn mở” về cơ bản gần như được dùng như từ đồng nghĩa với “weights-available”
“7. Không tạo và phát tán thông tin sai lệch một cách rõ ràng với mục đích gây hại cho người khác hoặc thao túng bầu cử”
“8. Không tạo ra các hoạt động trực tuyến giả mạo như đánh giá giả”
→ Có phải là tự mình thì làm, còn cấm người khác làm không
“15. Không sử dụng theo cách đi ngược lại đạo đức/xã hội của các quốc gia hay khu vực khác”
và những điều khoản như vậy trên thực tế khiến việc sử dụng ở mọi khu vực đều trở nên khó khăn
Chính sách quá nặng tay
Điều tôi quan tâm là đưa ảnh Panoramax (giải pháp thay thế StreetView mở) vào để tái dựng thành cảnh có thể điều hướng 3D
Tôi muốn hỏi là có thể xoay camera 1080 độ không!!
Các video này <i>quá</i> ngắn, đến 45 độ còn xoay chưa tới nơi
Genie3 cũng chỉ xoay được cỡ 90 độ
Trên thực tế phải chú ý đến những phần model “không làm được”, và ở đây là “không thể xoay tử tế”
Nếu còn không vượt qua nổi bài test đơn giản là đặt yên một chỗ rồi xoay quanh, thì tôi không muốn gọi nó là ‘world model’ nữa
Ôi bực thật