1 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • SANA-WM của NVIDIA nhận đầu vào là 1 hình ảnh và quỹ đạo camera 6-DoF để tạo video có thể điều khiển dài 1 phút ở 720p trên một GPU duy nhất
  • Hybrid Linear Diffusion Transformer kết hợp Gated DeltaNet theo từng khung hình với softmax tuần hoàn để duy trì tính nhất quán trong các rollout dài
  • Việc huấn luyện mất 15 ngày trên 64 H100, và biến thể chưng cất có thể khử nhiễu một clip 720p dài 60 giây trong 34 giây bằng NVFP4 trên 1 RTX 5090
  • Sử dụng khoảng 213 nghìn video công khai và giám sát pose 6-DoF theo đơn vị mét để hỗ trợ bám theo đường đi camera một cách chính xác
  • Trên benchmark mô hình thế giới 1 phút, mô hình đạt độ chính xác bám theo hành động cao hơn các baseline mã nguồn mở trước đó và đạt thông lượng cao hơn 36 lần ở chất lượng hình ảnh tương đương

Mô hình và tài liệu công khai

  • SANA-WM là mô hình thế giới mã nguồn mở 2,6 tỷ tham số, nhận đầu vào là một hình ảnh và quỹ đạo camera để tạo video có thể điều khiển dài 1 phút ở 720p
  • Có sự tham gia của Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie thuộc NVIDIA
  • Có các tài liệu Paper, Code, Models soon
  • Tên bài báo là SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Thiết kế cốt lõi và pipeline tạo sinh

  • Kiến trúc lai cho rollout dài

    • Hybrid Linear Diffusion Transformer kết hợp Gated DeltaNet theo từng khung hình với softmax tuần hoàn để duy trì tính nhất quán của thế giới trong các rollout dài tính bằng phút
    • Trong so sánh hiệu quả, biến thể recurrent mở rộng nhỏ hơn về bộ nhớ và độ trễ, trong khi cách all-softmax gặp OOM khi tạo video 60 giây
  • Điều khiển camera chính xác

    • SANA-WM nhận quỹ đạo camera 6-DoF làm đầu vào để tạo video bám theo đường đi camera theo hệ mét
    • Nhánh pose toàn cục thô và nhánh hình học căn chỉnh pixel chi tiết cùng hoạt động để tăng độ trung thực khi bám theo đường đi camera
    • Trích xuất pose camera 6-DoF chính xác theo đơn vị mét từ video công khai để tạo nhãn hành động chất lượng cao, nhất quán theo không gian-thời gian
  • Cải thiện chất lượng theo 2 giai đoạn

    • Đầu ra giai đoạn 1 được áp dụng refiner video dài 17B để cải thiện chất lượng và tính nhất quán trên toàn bộ chuỗi
    • Refiner làm rõ hơn texture, chuyển động và chất lượng ở phần sau của video trên backbone rollout dài

Hiệu quả huấn luyện và suy luận

  • Việc huấn luyện mất 15 ngày trên 64 H100, và dữ liệu huấn luyện sử dụng khoảng 213 nghìn clip video công khai cùng giám sát pose theo đơn vị mét
  • Ở suy luận, có thể tạo video 720p dài 1 phút bằng một H100 duy nhất
  • Mô hình biến thể chưng cất dùng 1 RTX 5090 với lượng tử hóa NVFP4 để khử nhiễu clip 720p dài 60 giây trong 34 giây
  • SANA-WM cho chất lượng hình ảnh tương đương với các baseline công nghiệp quy mô lớn như LingBot-World và HY-WorldPlay đồng thời cải thiện hiệu quả
  • Trên benchmark mô hình thế giới 1 phút, mô hình cho độ chính xác bám theo hành động cao hơn các baseline mã nguồn mở trước đó và đạt thông lượng cao hơn 36 lần ở chất lượng hình ảnh tương đương

Đặc tính tạo sinh thể hiện trong demo

  • Demo thế giới 1 phút

    • Nhiều ví dụ 1 phút duy trì điểm quan sát cố định ở góc nhìn thứ nhất, đồng thời tạo chuyển động của chính môi trường mà không có di chuyển camera hay hành động của người quan sát
    • Video 68: xuất hiện con đường phủ tuyết ở dãy Alps, vách đá, cửa hang, măng băng, thông cong vì gió và người leo núi mặc áo khoác cam; đồng thời tạo các hạt tuyết, sương mù, cành cây rung và dòng tuyết bột
    • Video 72: tạo ngã ba đường tại một giao lộ rộng mở, với rừng xanh, tháp đổ nát dưới mây bão và ngôi làng ngập nắng
    • Video 81: xuất hiện giao lộ chữ T trong một cơ sở nghiên cứu khoa học viễn tưởng ngầm bị phong tỏa, với hành lang bên trái ngập nước, hành lang bên phải đầy hơi nước và cánh cửa kim loại tròn mở ra bóng tối
  • Demo thế giới 20 giây

    • Video 82: tạo nội thất một túp lều bỏ hoang trên núi, bản đồ vẽ tay, chìa khóa gỉ, đèn lồng ấm và hang động vàng phía xa sau con đường rừng tuyết; khói tàn lửa, ngọn lửa đèn lồng và bão tuyết ở khe cửa chuyển động
    • Video 85: xuất hiện cánh cửa tròn bị phong ấn trong tàn tích rừng rậm, ký hiệu màu xanh và robot thám hiểm nhỏ; dây leo, côn trùng, bướm, vũng nước và ký hiệu trên cửa dao động
    • Video 92: xuất hiện hành lang đá của ngôi đền cổ dưới nước, cột san hô, khe nứt phát sáng xanh và robot lặn hình cầu nhỏ; thêm cá, bong bóng, hạt, rong biển và caustics
  • Cùng khung hình đầu và prompt lặp lại

    • Video 100, Video 101, Video 102: từ cùng prompt về cánh đồng muối, mô hình giữ lại xe thể thao, lớp muối thô và ánh nắng thấp, đồng thời tạo bụi muối, mây dịch chuyển, ảo ảnh nhiệt và các vệt gió trên mặt đất
    • Video 103, Video 104, Video 105: nước phản chiếu nông, đá bước bùn, rừng tím, tàu vũ trụ rơi bị chìm một nửa, một astronaut mặc đồ không gian và sinh vật ngoài hành tinh nhỏ xuất hiện dưới các biến thể của cùng prompt
    • Video 119, Video 120, Video 121: trong cảnh bình minh trên bãi biển nhiệt đới, mô hình tạo chuyển động của sóng, lá cọ, chim và mây với góc nhìn cố định

Ví dụ về hiệu ứng Refiner

  • Hẻm núi rừng rậm

    • Video 124Video 125 là ví dụ Stage 1 Refined, dựng nên nội cảnh một hẻm núi rừng rậm khổng lồ ở góc nhìn thứ nhất cố định
    • Có ngôi đền đá cổ thấp thoáng sau thác nước, máy bay giấy gấp, chim nhiều màu, lá trôi, vách đá ướt, dây leo chằng chịt và giọt nước
    • Thác nước, sương mù, nhịp vỗ cánh chim, lá rơi, giọt nước lấp lánh và máy bay giấy rung theo luồng khí chuyển động tự chủ
  • Cánh cổng cổ khắc vào vách đá

    • Video 126Video 127 thể hiện cánh cổng cổ trong vách đá ở vùng cao của khu rừng
    • Từ con đường phủ rêu dẫn tới cánh cổng hé mở một nửa là các bậc đá, cùng cột chạm khắc, tượng hộ vệ, bức tường phủ thường xuân, thung lũng núi bên trái và một lữ khách mặc áo choàng gần lối vào
    • Ánh nắng ấm cuối buổi chiều kết hợp với ánh sáng xanh ngọc rò rỉ từ cánh cổng, trong khi lá, chim, dây leo và ánh sáng cổng dịch chuyển độc lập
  • Ngôi đền cổ ngập nước

    • Video 130Video 131 đặt kết quả Stage 1 và refined cạnh nhau
    • Lối đi bộ bằng đá chạy giữa các cột bám san hô, và từ vết nứt trung tâm của bức tường nghi lễ nứt vỡ rò ra ánh sáng xanh lục sáng, thẳng hàng với các ký hiệu phát sáng trên sàn
    • Robot lặn hình cầu nhỏ lơ lửng phía trước, còn cá, bong bóng, hạt, rong biển, caustics và ký hiệu xanh tự chuyển động

Ghi chú về việc tạo demo

  • Tất cả video trên trang đều được tạo bằng biến thể hai chiều của SANA-WM, sau đó đi qua refiner video dài giai đoạn 2
  • Hình ảnh khung đầu tiên của mọi video demo trong thư viện đều được tạo bằng OpenAI GPT Image 2Google Nano Banana Pro, sau đó SANA-WM hoạt họa ảnh tĩnh thành video dài 1 phút

1 bình luận

 
Ý kiến trên Hacker News
  • Xét từ góc độ trò chơi điện tử thì những world model kiểu này không thực sự thuyết phục
    Tôi không trực tiếp làm game, nhưng những trò tôi thích đều có tính chủ đích rất sâu. Ví dụ như game của FromSoftware hay Lies of P gần đây, thường không có món đồ nào bị đặt bừa bãi, gần như mọi vật thể đều được bố trí có chủ ý
    Ngược lại, những game không có sự chủ đích đó thường tạo cảm giác chết, làm vỡ sự nhập vai hoặc khiến người chơi bị kéo ra khỏi trải nghiệm mà nhà phát triển muốn truyền tải
    Thật khó hình dung world model có thể đạt tới mức nắm bắt được sự chủ đích đó hay không. Ngay cả các LLM hàng đầu cũng thường thất bại trong viết lách, cả trong code nữa, và bề mặt trải nghiệm của những phương tiện đó dường như còn nhỏ hơn phạm vi tương tác người dùng trong trò chơi điện tử
    Cũng chưa rõ khi con người muốn tạo ra trải nghiệm có chủ ý thì sẽ dùng những world model như thế này theo kiểu mô-đun ra sao. Với LLM, ít nhất còn có mức độ mô-đun nhất định kiểu một mô hình tạo văn bản, con người chỉnh sửa rồi một LLM khác tiếp tục, nhưng tôi không biết đầu ra video ở đây có tương tự không
    Cuối cùng thì bản thân world model vẫn rất ấn tượng, nhưng giống như LLM cho viết lách, chưa rõ chúng ta đang xây dựng thứ này để hướng tới điều gì. Liệu nó chỉ giúp tạo ra các trải nghiệm kém thỏa mãn hơn, kém tính con người hơn với tốc độ nhanh hơn, hay lợi ích trước mắt lớn nhất là các hệ thống robot có thể tạo ra thế giới và mô phỏng để tưởng tượng hệ quả của hành động
    Nhìn chung, cảm giác như chúng ta đang lao tới một thế giới nơi tính chủ đích phía sau mọi thứ mình trải nghiệm đều giảm đi, và mọi thứ trở nên vô cảm hơn, ồn ào hơn

    • Ở đây có hai ý. Thứ nhất, ngay cả không có AI thì cả môi trường được thiết kế tinh xảo lẫn môi trường sinh thủ tục đều khả thi, và cả hai đều có thể làm tốt. Ngược lại, cả hai cũng có thể thất bại vì những lý do riêng của từng cách
      Sinh thủ tục cẩu thả có thể tạo ra kết quả thiếu đa dạng hoặc vô nghĩa, còn sắp đặt thủ công cẩu thả có thể phá vỡ các quy tắc mà game đã đặt ra, tạo thành trải nghiệm thiếu nhất quán
      Việc giữ được tính nhất quán nội tại bằng cách bố trí tường minh sẽ ngày càng khó khi quy mô tăng lên. Nếu tính nhất quán nội tại là yếu tố ảnh hưởng đến chất lượng, thì từ một ngưỡng quy mô nào đó, nội dung sinh ra có thể lại là lời giải chất lượng cao hơn
      Thứ hai, khi tạo nội dung bằng AI thì các quy tắc tương tự về sự cẩu thả vẫn áp dụng. Có những công cụ AI tạo sinh gần như không cho lựa chọn nào để định hình điều bạn muốn, nhưng đó không phải thuộc tính tất yếu của AI. Đôi khi là vì mọi người muốn giao diện đơn giản, cũng có khi vì trình tạo còn quá mới nên họ tập trung vào chuyện làm cho nó chạy được trước, hơn là đưa vào các cơ chế điều khiển tinh vi
      Ở một khía cạnh nào đó, công nghệ này vẫn còn quá mới nên khó nói rõ kiểu khả năng điều khiển nào là đáng mong muốn, và trước hết cứ tạo ra trình sinh rồi xem người ta muốn làm gì với nó có lẽ là con đường hợp lý trước khi xây các tính năng điều khiển mong muốn. Cũng đã có các công cụ cho phép kiểm soát ở mức cao về phong cách đầu ra, vị trí vật thể, chuyển động camera và bố cục cảnh, nhưng ít người được tiếp cận hơn nhiều
      AI có thể giúp tạo ra những thứ vốn dĩ không thể làm được nếu không có nó, nhưng để tạo ra thứ thật sự đặc biệt thì vẫn cần sự chăm chút
    • Đúng vậy. Nó sẽ làm thế giới ngập trong nội dung trông có vẻ ổn nhưng rỗng tuếch. Bạn còn có thể gắn bất kỳ chủ đề nào mình muốn vào đó
      Những người không có gu sẽ không phàn nàn, nhưng phần còn lại sẽ phải dành ngày càng nhiều thời gian để tìm ra 1 món đáng giá giữa 100 thứ mà 99 thứ là nhiễu vì bị nhấn chìm bởi số lượng
      Cũng khá giống Amazon. Xếp hạng hỏng, hiển thị đơn giá bị thao túng, cộng với làn sóng hàng nhái giá rẻ khiến người dùng bỏ cuộc và mua món hiện ở trên cùng, tức là trong danh sách gợi ý hoặc hàng nhái của Amazon
      Nếu tìm web cho nhiều sản phẩm rồi chuyển sang tab hình ảnh, nhiều khi link sản phẩm Amazon chiếm 50~90% kết quả
    • Tôi nghĩ các mô hình kiểu này sẽ giống máy in Gutenberg ngày xưa. Lượng nội dung sẽ tăng vọt, và phần lớn sẽ không hay ho lắm
      Nhưng nhờ khối lượng áp đảo đó, xét tổng thể vẫn có thể tạo ra nhiều nội dung chất lượng cao hơn. Nói cách khác, chất lượng game trung bình có thể giảm xuống, nhưng tốc độ xuất hiện các game thực sự “xuất sắc” sẽ tăng lên
    • Có vẻ bạn đã chạm đúng bản chất của những gì đang diễn ra với AI nói chung hiện nay. Đồ họa, hình ảnh, video, âm nhạc, văn bản, code, tất cả nhìn thì ấn tượng nhưng lại thấy rỗng rếch và vô giá trị
      Với bất kỳ công việc nào trong đời sống, chất lượng kết quả là sự phản chiếu trực tiếp của mức độ quan tâm và chủ ý bỏ vào phía sau nó. Nói đơn giản, đó là mức độ bạn đã dồn tâm sức vào, và điều đó luôn lộ ra. Kỷ nguyên AI cũng vậy
      Chỉ là giờ con đường từ không nỗ lực đến có kết quả ngắn hơn rất nhiều, nên số lượng tăng lên và làm loãng ấn tượng chung. Những sản phẩm rẻ tiền kiểu này khiến mọi lĩnh vực mà chúng chạm tới đều trở nên rẻ tiền hơn, vì thế để nổi bật lên có lẽ lại càng cần nhiều công sức hơn
    • Các ví dụ như FromSoftware hay Lies of P, nơi mọi món đồ đều được đặt có chủ ý, là ví dụ khá đặc thù và thiên lệch về một phía
      Vẫn có nhiều game hay không phụ thuộc vào việc bố trí vật phẩm tinh vi. Chẳng hạn nhiều game của Bethesda từng rất hay dù phần lớn đồ vật chỉ là vật trang trí vô dụng, nhưng ở các bản gần đây khi họ gán mục đích cho đống tạp vật đó và phá vỡ quy tắc ấy thì mọi thứ lại tệ hơn nhiều
      Cũng có nhiều game hay hoàn toàn không dựa vào kiểu chủ đích này, mà theo đúng nghĩa đen chỉ là ném các ý tưởng thú vị vào một cách ngẫu nhiên để ghép lại, hoặc được sinh thủ tục
  • Nói rằng trọng số mô hình sẽ ra mắt “sớm thôi” thì ở thời điểm hiện tại có nghĩa là vaporware. Trọng số còn chưa công bố thì sao gọi là “mã nguồn mở” được
    Việc mọi người hoài nghi rằng mô hình 2.8B lại cho ra kết quả như thế này là hoàn toàn dễ hiểu. Không có trọng số thì coi như chưa từng xảy ra

  • Họ nói là 2.6B, nhưng ngay sau đó lại có câu này
    “Bộ refiner video dài 17B chuyên dụng giúp làm sắc nét kết cấu, chuyển động và chất lượng ở phần sau trên backbone rollout dài”

  • Tất cả đều trông như trò chơi điện tử. Có lẽ họ đã dùng Unreal Engine để tạo dữ liệu tổng hợp phục vụ huấn luyện

  • Việc chạy được thứ này trên GPU quả thật khá ấn tượng. Tôi thấy có người bày tỏ bất mãn và lo ngại, nhưng đây vẫn còn giai đoạn đầu và trạng thái hiện tại sẽ là lúc nó tệ nhất, nên tôi rất háo hức xem tác động tới game của nó sẽ ra sao

  • Có thể là câu hỏi ngớ ngẩn, nhưng ở đây phần nào của thứ được tạo ra là “world”? Có một biểu diễn trừu tượng của không gian vật lý thực, ví dụ như scene graph kiểu game engine, hay chỉ đơn giản là “trình tạo video này nhất quán về mặt vật lý hơn các trình tạo video khác”

    • World model là mô hình dự đoán trạng thái kế tiếp của một thế giới mô phỏng khi biết trạng thái hiện tại và, tùy chọn, hành động của các tác tử sống trong thế giới đó. Nó khá giống mô hình ngôn ngữ dự đoán từ tiếp theo
      Trạng thái thế giới đó có thể là bất cứ thứ gì, nhưng trong 1~2 năm gần đây cách dùng đã thu hẹp hơn. Nó chỉ các mô hình sinh video phản ứng tự nhiên với thao tác kiểu game, khiến chúng trông như đang mô phỏng trò chơi điện tử. Dù vậy, không có thêm trạng thái nào phía sau các khung hình video
    • Trong ngữ cảnh này, world có nghĩa là các video này có thể tương tác như một trò chơi điện tử. Trong ví dụ được liên kết bạn có thể thấy đầu vào từ bàn phím và chuột
      Mô hình được huấn luyện để giữ tính nhất quán của cảnh trong khoảng 1 phút, nên sau khi nhìn quanh, những vật thể đã ra khỏi màn hình vẫn sẽ xuất hiện lại khi bạn nhìn về hướng đó
  • Tải về ở đâu? Tôi không tìm thấy trên GitHub, còn nút tải xuống trên trang web thì bị vô hiệu hóa
    Và nó có chạy được trên RTX 4090 với 24GB bộ nhớ không?

  • Cảnh báo: khi tôi xem video tự động phát trên trang đó, tốc độ tải xuống đã tăng vọt tới 350Mbps

    • Tôi chỉ nhận ra sau khi để trang đó mở trong tab hơn một tiếng. Có phải nó thật sự cứ stream đi stream lại đúng cùng một video không? Có phải số lượng quá nhiều để cache nên nó cứ truyền lại vô hạn
      Mong là không ai mở trang đó rồi để đấy trên mạng tính phí theo dung lượng hoặc có giới hạn
      Tôi ngạc nhiên là GitHub chưa chặn trang đó
      Có phải các nhà nghiên cứu AI đã quá quen với việc đốt tài nguyên tính toán và mạng đến mức thôi nghĩ về một trang web tự động phát và lặp lại nhiều video HD hay không
    • Với kết nối 70Mbps của tôi thì thậm chí video còn không buffer nổi nên tôi bỏ xem luôn. Trông cũng không đến mức chất lượng cao như vậy
  • Việc một mô hình 2.6B có thể xuất ra video dài 1 phút với mức chất lượng và tính nhất quán như vậy nghe thật sự phi lý đến mức quá ấn tượng

  • Video đầu tiên cảnh người đàn ông đi trên núi tuyết có vấn đề về tính nhất quán ở cửa hang. Với kích thước mô hình này thì đó có phải điều “được dự đoán trước” không

    • Hầu hết video có vẻ đều gặp vấn đề đó ở mức nào đó. Ví dụ trong video thư viện, hình dạng của cuốn sách trên bàn đôi lúc thay đổi
      Nếu các ví dụ là đại diện thì hiệu ứng của ‘Refiner’ có vẻ còn ngược lại. Trong mọi trường hợp, ảnh giai đoạn 1 trông đẹp hơn ảnh đã ‘tinh chỉnh’. Ít lộn xộn hơn, thực tế hơn, và với ai hiểu cách nói đó thì là cảm giác ít “cowbell” hơn
    • Tất cả video đều cho thấy vấn đề nhất quán khá rõ khi quay trở lại hướng về vùng đã được hiển thị trước đó