- SANA-WM của NVIDIA nhận đầu vào là 1 hình ảnh và quỹ đạo camera 6-DoF để tạo video có thể điều khiển dài 1 phút ở 720p trên một GPU duy nhất
- Hybrid Linear Diffusion Transformer kết hợp Gated DeltaNet theo từng khung hình với softmax tuần hoàn để duy trì tính nhất quán trong các rollout dài
- Việc huấn luyện mất 15 ngày trên 64 H100, và biến thể chưng cất có thể khử nhiễu một clip 720p dài 60 giây trong 34 giây bằng NVFP4 trên 1 RTX 5090
- Sử dụng khoảng 213 nghìn video công khai và giám sát pose 6-DoF theo đơn vị mét để hỗ trợ bám theo đường đi camera một cách chính xác
- Trên benchmark mô hình thế giới 1 phút, mô hình đạt độ chính xác bám theo hành động cao hơn các baseline mã nguồn mở trước đó và đạt thông lượng cao hơn 36 lần ở chất lượng hình ảnh tương đương
Mô hình và tài liệu công khai
- SANA-WM là mô hình thế giới mã nguồn mở 2,6 tỷ tham số, nhận đầu vào là một hình ảnh và quỹ đạo camera để tạo video có thể điều khiển dài 1 phút ở 720p
- Có sự tham gia của Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie thuộc NVIDIA
- Có các tài liệu Paper, Code, Models soon
- Tên bài báo là
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
Thiết kế cốt lõi và pipeline tạo sinh
-
Kiến trúc lai cho rollout dài
- Hybrid Linear Diffusion Transformer kết hợp Gated DeltaNet theo từng khung hình với softmax tuần hoàn để duy trì tính nhất quán của thế giới trong các rollout dài tính bằng phút
- Trong so sánh hiệu quả, biến thể recurrent mở rộng nhỏ hơn về bộ nhớ và độ trễ, trong khi cách all-softmax gặp OOM khi tạo video 60 giây
-
Điều khiển camera chính xác
- SANA-WM nhận quỹ đạo camera 6-DoF làm đầu vào để tạo video bám theo đường đi camera theo hệ mét
- Nhánh pose toàn cục thô và nhánh hình học căn chỉnh pixel chi tiết cùng hoạt động để tăng độ trung thực khi bám theo đường đi camera
- Trích xuất pose camera 6-DoF chính xác theo đơn vị mét từ video công khai để tạo nhãn hành động chất lượng cao, nhất quán theo không gian-thời gian
-
Cải thiện chất lượng theo 2 giai đoạn
- Đầu ra giai đoạn 1 được áp dụng refiner video dài 17B để cải thiện chất lượng và tính nhất quán trên toàn bộ chuỗi
- Refiner làm rõ hơn texture, chuyển động và chất lượng ở phần sau của video trên backbone rollout dài
Hiệu quả huấn luyện và suy luận
- Việc huấn luyện mất 15 ngày trên 64 H100, và dữ liệu huấn luyện sử dụng khoảng 213 nghìn clip video công khai cùng giám sát pose theo đơn vị mét
- Ở suy luận, có thể tạo video 720p dài 1 phút bằng một H100 duy nhất
- Mô hình biến thể chưng cất dùng 1 RTX 5090 với lượng tử hóa NVFP4 để khử nhiễu clip 720p dài 60 giây trong 34 giây
- SANA-WM cho chất lượng hình ảnh tương đương với các baseline công nghiệp quy mô lớn như LingBot-World và HY-WorldPlay đồng thời cải thiện hiệu quả
- Trên benchmark mô hình thế giới 1 phút, mô hình cho độ chính xác bám theo hành động cao hơn các baseline mã nguồn mở trước đó và đạt thông lượng cao hơn 36 lần ở chất lượng hình ảnh tương đương
Đặc tính tạo sinh thể hiện trong demo
-
Demo thế giới 1 phút
- Nhiều ví dụ 1 phút duy trì điểm quan sát cố định ở góc nhìn thứ nhất, đồng thời tạo chuyển động của chính môi trường mà không có di chuyển camera hay hành động của người quan sát
- Video 68: xuất hiện con đường phủ tuyết ở dãy Alps, vách đá, cửa hang, măng băng, thông cong vì gió và người leo núi mặc áo khoác cam; đồng thời tạo các hạt tuyết, sương mù, cành cây rung và dòng tuyết bột
- Video 72: tạo ngã ba đường tại một giao lộ rộng mở, với rừng xanh, tháp đổ nát dưới mây bão và ngôi làng ngập nắng
- Video 81: xuất hiện giao lộ chữ T trong một cơ sở nghiên cứu khoa học viễn tưởng ngầm bị phong tỏa, với hành lang bên trái ngập nước, hành lang bên phải đầy hơi nước và cánh cửa kim loại tròn mở ra bóng tối
-
Demo thế giới 20 giây
- Video 82: tạo nội thất một túp lều bỏ hoang trên núi, bản đồ vẽ tay, chìa khóa gỉ, đèn lồng ấm và hang động vàng phía xa sau con đường rừng tuyết; khói tàn lửa, ngọn lửa đèn lồng và bão tuyết ở khe cửa chuyển động
- Video 85: xuất hiện cánh cửa tròn bị phong ấn trong tàn tích rừng rậm, ký hiệu màu xanh và robot thám hiểm nhỏ; dây leo, côn trùng, bướm, vũng nước và ký hiệu trên cửa dao động
- Video 92: xuất hiện hành lang đá của ngôi đền cổ dưới nước, cột san hô, khe nứt phát sáng xanh và robot lặn hình cầu nhỏ; thêm cá, bong bóng, hạt, rong biển và caustics
-
Cùng khung hình đầu và prompt lặp lại
- Video 100, Video 101, Video 102: từ cùng prompt về cánh đồng muối, mô hình giữ lại xe thể thao, lớp muối thô và ánh nắng thấp, đồng thời tạo bụi muối, mây dịch chuyển, ảo ảnh nhiệt và các vệt gió trên mặt đất
- Video 103, Video 104, Video 105: nước phản chiếu nông, đá bước bùn, rừng tím, tàu vũ trụ rơi bị chìm một nửa, một astronaut mặc đồ không gian và sinh vật ngoài hành tinh nhỏ xuất hiện dưới các biến thể của cùng prompt
- Video 119, Video 120, Video 121: trong cảnh bình minh trên bãi biển nhiệt đới, mô hình tạo chuyển động của sóng, lá cọ, chim và mây với góc nhìn cố định
Ví dụ về hiệu ứng Refiner
-
Hẻm núi rừng rậm
- Video 124 và Video 125 là ví dụ Stage 1 Refined, dựng nên nội cảnh một hẻm núi rừng rậm khổng lồ ở góc nhìn thứ nhất cố định
- Có ngôi đền đá cổ thấp thoáng sau thác nước, máy bay giấy gấp, chim nhiều màu, lá trôi, vách đá ướt, dây leo chằng chịt và giọt nước
- Thác nước, sương mù, nhịp vỗ cánh chim, lá rơi, giọt nước lấp lánh và máy bay giấy rung theo luồng khí chuyển động tự chủ
-
Cánh cổng cổ khắc vào vách đá
- Video 126 và Video 127 thể hiện cánh cổng cổ trong vách đá ở vùng cao của khu rừng
- Từ con đường phủ rêu dẫn tới cánh cổng hé mở một nửa là các bậc đá, cùng cột chạm khắc, tượng hộ vệ, bức tường phủ thường xuân, thung lũng núi bên trái và một lữ khách mặc áo choàng gần lối vào
- Ánh nắng ấm cuối buổi chiều kết hợp với ánh sáng xanh ngọc rò rỉ từ cánh cổng, trong khi lá, chim, dây leo và ánh sáng cổng dịch chuyển độc lập
-
Ngôi đền cổ ngập nước
- Video 130 và Video 131 đặt kết quả Stage 1 và refined cạnh nhau
- Lối đi bộ bằng đá chạy giữa các cột bám san hô, và từ vết nứt trung tâm của bức tường nghi lễ nứt vỡ rò ra ánh sáng xanh lục sáng, thẳng hàng với các ký hiệu phát sáng trên sàn
- Robot lặn hình cầu nhỏ lơ lửng phía trước, còn cá, bong bóng, hạt, rong biển, caustics và ký hiệu xanh tự chuyển động
Ghi chú về việc tạo demo
- Tất cả video trên trang đều được tạo bằng biến thể hai chiều của SANA-WM, sau đó đi qua refiner video dài giai đoạn 2
- Hình ảnh khung đầu tiên của mọi video demo trong thư viện đều được tạo bằng OpenAI GPT Image 2 và Google Nano Banana Pro, sau đó SANA-WM hoạt họa ảnh tĩnh thành video dài 1 phút
1 bình luận
Ý kiến trên Hacker News
Xét từ góc độ trò chơi điện tử thì những world model kiểu này không thực sự thuyết phục
Tôi không trực tiếp làm game, nhưng những trò tôi thích đều có tính chủ đích rất sâu. Ví dụ như game của FromSoftware hay Lies of P gần đây, thường không có món đồ nào bị đặt bừa bãi, gần như mọi vật thể đều được bố trí có chủ ý
Ngược lại, những game không có sự chủ đích đó thường tạo cảm giác chết, làm vỡ sự nhập vai hoặc khiến người chơi bị kéo ra khỏi trải nghiệm mà nhà phát triển muốn truyền tải
Thật khó hình dung world model có thể đạt tới mức nắm bắt được sự chủ đích đó hay không. Ngay cả các LLM hàng đầu cũng thường thất bại trong viết lách, cả trong code nữa, và bề mặt trải nghiệm của những phương tiện đó dường như còn nhỏ hơn phạm vi tương tác người dùng trong trò chơi điện tử
Cũng chưa rõ khi con người muốn tạo ra trải nghiệm có chủ ý thì sẽ dùng những world model như thế này theo kiểu mô-đun ra sao. Với LLM, ít nhất còn có mức độ mô-đun nhất định kiểu một mô hình tạo văn bản, con người chỉnh sửa rồi một LLM khác tiếp tục, nhưng tôi không biết đầu ra video ở đây có tương tự không
Cuối cùng thì bản thân world model vẫn rất ấn tượng, nhưng giống như LLM cho viết lách, chưa rõ chúng ta đang xây dựng thứ này để hướng tới điều gì. Liệu nó chỉ giúp tạo ra các trải nghiệm kém thỏa mãn hơn, kém tính con người hơn với tốc độ nhanh hơn, hay lợi ích trước mắt lớn nhất là các hệ thống robot có thể tạo ra thế giới và mô phỏng để tưởng tượng hệ quả của hành động
Nhìn chung, cảm giác như chúng ta đang lao tới một thế giới nơi tính chủ đích phía sau mọi thứ mình trải nghiệm đều giảm đi, và mọi thứ trở nên vô cảm hơn, ồn ào hơn
Sinh thủ tục cẩu thả có thể tạo ra kết quả thiếu đa dạng hoặc vô nghĩa, còn sắp đặt thủ công cẩu thả có thể phá vỡ các quy tắc mà game đã đặt ra, tạo thành trải nghiệm thiếu nhất quán
Việc giữ được tính nhất quán nội tại bằng cách bố trí tường minh sẽ ngày càng khó khi quy mô tăng lên. Nếu tính nhất quán nội tại là yếu tố ảnh hưởng đến chất lượng, thì từ một ngưỡng quy mô nào đó, nội dung sinh ra có thể lại là lời giải chất lượng cao hơn
Thứ hai, khi tạo nội dung bằng AI thì các quy tắc tương tự về sự cẩu thả vẫn áp dụng. Có những công cụ AI tạo sinh gần như không cho lựa chọn nào để định hình điều bạn muốn, nhưng đó không phải thuộc tính tất yếu của AI. Đôi khi là vì mọi người muốn giao diện đơn giản, cũng có khi vì trình tạo còn quá mới nên họ tập trung vào chuyện làm cho nó chạy được trước, hơn là đưa vào các cơ chế điều khiển tinh vi
Ở một khía cạnh nào đó, công nghệ này vẫn còn quá mới nên khó nói rõ kiểu khả năng điều khiển nào là đáng mong muốn, và trước hết cứ tạo ra trình sinh rồi xem người ta muốn làm gì với nó có lẽ là con đường hợp lý trước khi xây các tính năng điều khiển mong muốn. Cũng đã có các công cụ cho phép kiểm soát ở mức cao về phong cách đầu ra, vị trí vật thể, chuyển động camera và bố cục cảnh, nhưng ít người được tiếp cận hơn nhiều
AI có thể giúp tạo ra những thứ vốn dĩ không thể làm được nếu không có nó, nhưng để tạo ra thứ thật sự đặc biệt thì vẫn cần sự chăm chút
Những người không có gu sẽ không phàn nàn, nhưng phần còn lại sẽ phải dành ngày càng nhiều thời gian để tìm ra 1 món đáng giá giữa 100 thứ mà 99 thứ là nhiễu vì bị nhấn chìm bởi số lượng
Cũng khá giống Amazon. Xếp hạng hỏng, hiển thị đơn giá bị thao túng, cộng với làn sóng hàng nhái giá rẻ khiến người dùng bỏ cuộc và mua món hiện ở trên cùng, tức là trong danh sách gợi ý hoặc hàng nhái của Amazon
Nếu tìm web cho nhiều sản phẩm rồi chuyển sang tab hình ảnh, nhiều khi link sản phẩm Amazon chiếm 50~90% kết quả
Nhưng nhờ khối lượng áp đảo đó, xét tổng thể vẫn có thể tạo ra nhiều nội dung chất lượng cao hơn. Nói cách khác, chất lượng game trung bình có thể giảm xuống, nhưng tốc độ xuất hiện các game thực sự “xuất sắc” sẽ tăng lên
Với bất kỳ công việc nào trong đời sống, chất lượng kết quả là sự phản chiếu trực tiếp của mức độ quan tâm và chủ ý bỏ vào phía sau nó. Nói đơn giản, đó là mức độ bạn đã dồn tâm sức vào, và điều đó luôn lộ ra. Kỷ nguyên AI cũng vậy
Chỉ là giờ con đường từ không nỗ lực đến có kết quả ngắn hơn rất nhiều, nên số lượng tăng lên và làm loãng ấn tượng chung. Những sản phẩm rẻ tiền kiểu này khiến mọi lĩnh vực mà chúng chạm tới đều trở nên rẻ tiền hơn, vì thế để nổi bật lên có lẽ lại càng cần nhiều công sức hơn
Vẫn có nhiều game hay không phụ thuộc vào việc bố trí vật phẩm tinh vi. Chẳng hạn nhiều game của Bethesda từng rất hay dù phần lớn đồ vật chỉ là vật trang trí vô dụng, nhưng ở các bản gần đây khi họ gán mục đích cho đống tạp vật đó và phá vỡ quy tắc ấy thì mọi thứ lại tệ hơn nhiều
Cũng có nhiều game hay hoàn toàn không dựa vào kiểu chủ đích này, mà theo đúng nghĩa đen chỉ là ném các ý tưởng thú vị vào một cách ngẫu nhiên để ghép lại, hoặc được sinh thủ tục
Nói rằng trọng số mô hình sẽ ra mắt “sớm thôi” thì ở thời điểm hiện tại có nghĩa là vaporware. Trọng số còn chưa công bố thì sao gọi là “mã nguồn mở” được
Việc mọi người hoài nghi rằng mô hình 2.8B lại cho ra kết quả như thế này là hoàn toàn dễ hiểu. Không có trọng số thì coi như chưa từng xảy ra
https://github.com/NVlabs/Sana
Họ nói là 2.6B, nhưng ngay sau đó lại có câu này
“Bộ refiner video dài 17B chuyên dụng giúp làm sắc nét kết cấu, chuyển động và chất lượng ở phần sau trên backbone rollout dài”
Tất cả đều trông như trò chơi điện tử. Có lẽ họ đã dùng Unreal Engine để tạo dữ liệu tổng hợp phục vụ huấn luyện
Việc chạy được thứ này trên GPU quả thật khá ấn tượng. Tôi thấy có người bày tỏ bất mãn và lo ngại, nhưng đây vẫn còn giai đoạn đầu và trạng thái hiện tại sẽ là lúc nó tệ nhất, nên tôi rất háo hức xem tác động tới game của nó sẽ ra sao
Có thể là câu hỏi ngớ ngẩn, nhưng ở đây phần nào của thứ được tạo ra là “world”? Có một biểu diễn trừu tượng của không gian vật lý thực, ví dụ như scene graph kiểu game engine, hay chỉ đơn giản là “trình tạo video này nhất quán về mặt vật lý hơn các trình tạo video khác”
Trạng thái thế giới đó có thể là bất cứ thứ gì, nhưng trong 1~2 năm gần đây cách dùng đã thu hẹp hơn. Nó chỉ các mô hình sinh video phản ứng tự nhiên với thao tác kiểu game, khiến chúng trông như đang mô phỏng trò chơi điện tử. Dù vậy, không có thêm trạng thái nào phía sau các khung hình video
Mô hình được huấn luyện để giữ tính nhất quán của cảnh trong khoảng 1 phút, nên sau khi nhìn quanh, những vật thể đã ra khỏi màn hình vẫn sẽ xuất hiện lại khi bạn nhìn về hướng đó
Tải về ở đâu? Tôi không tìm thấy trên GitHub, còn nút tải xuống trên trang web thì bị vô hiệu hóa
Và nó có chạy được trên RTX 4090 với 24GB bộ nhớ không?
Cảnh báo: khi tôi xem video tự động phát trên trang đó, tốc độ tải xuống đã tăng vọt tới 350Mbps
Mong là không ai mở trang đó rồi để đấy trên mạng tính phí theo dung lượng hoặc có giới hạn
Tôi ngạc nhiên là GitHub chưa chặn trang đó
Có phải các nhà nghiên cứu AI đã quá quen với việc đốt tài nguyên tính toán và mạng đến mức thôi nghĩ về một trang web tự động phát và lặp lại nhiều video HD hay không
Việc một mô hình 2.6B có thể xuất ra video dài 1 phút với mức chất lượng và tính nhất quán như vậy nghe thật sự phi lý đến mức quá ấn tượng
Video đầu tiên cảnh người đàn ông đi trên núi tuyết có vấn đề về tính nhất quán ở cửa hang. Với kích thước mô hình này thì đó có phải điều “được dự đoán trước” không
Nếu các ví dụ là đại diện thì hiệu ứng của ‘Refiner’ có vẻ còn ngược lại. Trong mọi trường hợp, ảnh giai đoạn 1 trông đẹp hơn ảnh đã ‘tinh chỉnh’. Ít lộn xộn hơn, thực tế hơn, và với ai hiểu cách nói đó thì là cảm giác ít “cowbell” hơn