Mô hình tạo video như một trình mô phỏng thế giới

(openai.com)

1 điểm bởi GN⁺ 2024-02-17 | 1 bình luận | Chia sẻ qua WhatsApp

Thông qua Sora, OpenAI khám phá liệu mô hình tạo video có thể mở rộng vượt ra ngoài tổng hợp hình ảnh đơn thuần để trở thành mô phỏng thế giới vật lý và số hay không
Thiết kế cốt lõi là đưa video và hình ảnh vào không gian tiềm ẩn đã được nén theo thời gian và không gian, rồi chia chúng thành các bản vá không-thời gian để học như token của Transformer
Sora không cắt về kích thước cố định mà học nguyên trạng với độ dài, độ phân giải và tỷ lệ khung hình biến đổi, nhờ đó cùng một mô hình có thể xử lý tạo video màn hình rộng, video dọc và hình ảnh độ phân giải cao
Sora áp dụng recaptioning của DALL·E 3 cho video và dùng GPT để mở rộng prompt ngắn thành chú thích chi tiết, qua đó nâng cao độ trung thành với văn bản và chất lượng video
Tính nhất quán 3D, sự bền vững của đối tượng và mô phỏng thế giới số như Minecraft là khả thi ở một mức độ nào đó, nhưng vẫn còn giới hạn với tương tác vật lý đòi hỏi thay đổi trạng thái như kính vỡ hay ăn thức ăn

Vấn đề Sora giải quyết và phạm vi báo cáo

OpenAI nghiên cứu huấn luyện mô hình sinh quy mô lớn trên dữ liệu video
Sora là mô hình khuếch tán có điều kiện theo văn bản, được huấn luyện đồng thời trên video và hình ảnh với nhiều độ dài, độ phân giải và tỷ lệ khung hình khác nhau
Mô hình lớn nhất, Sora, có thể tạo video độ trung thực cao dài tối đa 1 phút
Báo cáo kỹ thuật này tập trung vào hai điểm
- Cách chuyển đổi dữ liệu thị giác đa dạng thành biểu diễn thống nhất phù hợp cho huấn luyện mô hình sinh quy mô lớn
- Đánh giá định tính về khả năng và giới hạn của Sora
Không bao gồm chi tiết về kiến trúc mô hình hay triển khai cụ thể
Các nghiên cứu tạo video trước đây đã dùng nhiều phương pháp như mạng nơ-ron hồi quy, GAN, Transformer tự hồi quy, mô hình khuếch tán, nhưng thường tập trung vào tập dữ liệu hẹp, video ngắn hoặc video kích thước cố định
Sora được thiết kế như một mô hình dữ liệu thị giác tổng quát có thể tạo cả video và hình ảnh ở nhiều độ dài, tỷ lệ khung hình và độ phân giải khác nhau

Cách hợp nhất dữ liệu thị giác bằng patch

Giống như các mô hình ngôn ngữ lớn dùng token văn bản để hợp nhất mã nguồn, toán học và ngôn ngữ tự nhiên, Sora dùng patch cho dữ liệu thị giác
Video trước tiên được nén vào không gian tiềm ẩn có số chiều thấp hơn, sau đó được phân rã thành các patch không-thời gian
Biểu diễn dựa trên patch có khả năng mở rộng và hoạt động hiệu quả trong việc học nhiều loại video và hình ảnh khác nhau

Nén video và các patch tiềm ẩn không-thời gian

Sora không xử lý trực tiếp video gốc trong không gian pixel, mà học và sinh trong biểu diễn tiềm ẩn đã được nén theo thời gian và không gian
Một mô hình giải mã riêng sẽ ánh xạ biểu diễn tiềm ẩn được sinh ra trở lại không gian pixel
Chuỗi patch không-thời gian được trích xuất từ video đầu vào đã nén hoạt động như token của Transformer
Hình ảnh có thể được xem là video một khung hình nên cũng có thể xử lý theo cùng cách
Khi suy luận, các patch khởi tạo ngẫu nhiên được đặt vào lưới có kích thước mong muốn để kiểm soát kích thước video đầu ra

Mở rộng Diffusion Transformer cho tạo video

Sora là mô hình khuếch tán được huấn luyện để dự đoán lại các patch sạch ban đầu từ các patch có nhiễu cùng thông tin điều kiện như prompt văn bản
Đồng thời, Sora cũng là một Diffusion Transformer
Transformer đã cho thấy đặc tính mở rộng trong nhiều lĩnh vực như mô hình ngôn ngữ, thị giác máy tính và tạo ảnh, và với Sora nó cũng mở rộng hiệu quả thành mô hình video
Với cùng seed và đầu vào, khi huấn luyện tiến triển và lượng tính toán tăng lên thì chất lượng mẫu cải thiện rõ rệt
- Ví dụ so sánh gồm base compute, 4x compute và 32x compute

Lợi ích của việc huấn luyện ở kích thước gốc

Các cách tiếp cận tạo ảnh và video trước đây thường resize, crop hoặc trim về kích thước chuẩn như 4 giây, 256x256
Sora thu được nhiều lợi ích từ cách huấn luyện dữ liệu ở kích thước gốc
Tính linh hoạt khi lấy mẫu
- Sora có thể lấy mẫu video màn hình rộng 1920x1080p, video dọc 1080x1920 và nhiều định dạng khác ở giữa
- Có thể trực tiếp tạo nội dung cho các thiết bị khác nhau với tỷ lệ khung hình gốc tương ứng
- Cùng một mô hình có thể tạo prototype nhanh ở kích thước thấp trước, rồi tạo tiếp ở độ phân giải đầy đủ
Cải thiện framing và bố cục
- Huấn luyện ở tỷ lệ khung hình gốc giúp cải thiện bố cục và framing
- Mô hình cắt toàn bộ video huấn luyện thành hình vuông đôi khi tạo ra video mà chủ thể chỉ hiện ra một phần
- Sora tạo ra video có framing tốt hơn so với mô hình crop hình vuông

Hiểu ngôn ngữ và xử lý chú thích

Để huấn luyện hệ thống tạo video từ văn bản, cần một lượng lớn video đi kèm chú thích văn bản tương ứng
OpenAI áp dụng kỹ thuật recaptioning được giới thiệu trong DALL·E 3 sang video
Trước tiên, họ huấn luyện một mô hình tạo chú thích rất chi tiết, sau đó dùng nó để sinh chú thích văn bản cho toàn bộ video huấn luyện
Huấn luyện với các chú thích video chi tiết giúp cải thiện độ trung thành với văn bản và chất lượng video tổng thể
Tương tự DALL·E 3, họ dùng GPT để biến prompt ngắn của người dùng thành chú thích dài và chi tiết rồi chuyển cho mô hình video
Cách làm này được dùng để giúp Sora tạo video chất lượng cao bám sát prompt của người dùng hơn

Tạo và chỉnh sửa bằng hình ảnh, video làm đầu vào

Sora có thể nhận không chỉ văn bản mà cả hình ảnh hoặc video có sẵn làm prompt
Tính năng này được dùng cho việc tạo video lặp hoàn hảo, hoạt hình hóa ảnh tĩnh và mở rộng video theo thời gian về phía trước hoặc phía sau
Hoạt hình hóa ảnh DALL·E
- Sora có thể nhận hình ảnh và prompt làm đầu vào để tạo video
- Ví dụ gồm tạo video dựa trên hình ảnh từ DALL·E 2 và DALL·E 3
Mở rộng video được tạo
- Sora có thể mở rộng video tiến về tương lai hoặc lùi về quá khứ theo trục thời gian
- Ba video được mở rộng về phía sau từ các đoạn khác nhau của cùng một video sinh ra có điểm bắt đầu khác nhau nhưng dẫn tới cùng một kết thúc
- Theo cách tương tự, có thể mở rộng video cả trước lẫn sau để tạo vòng lặp vô hạn liền mạch
Chỉnh sửa video-to-video và nối cảnh
- OpenAI áp dụng SDEdit, một phương pháp chỉnh sửa ảnh và video dựa trên mô hình khuếch tán, cho Sora
- Kỹ thuật này cho phép Sora chuyển đổi zero-shot phong cách và môi trường của video đầu vào
- Bằng cách nội suy dần giữa hai video đầu vào, có thể tạo chuyển tiếp mượt mà ngay cả giữa các video có chủ thể và bố cục cảnh hoàn toàn khác nhau

Khả năng tạo hình ảnh

Sora cũng có thể tạo hình ảnh
Hình ảnh được tạo bằng cách đặt các patch Gaussian noise lên một lưới không gian có độ dài thời gian là một khung hình
Kích thước ảnh có thể tạo là biến thiên, tối đa tới độ phân giải 2048x2048
Các prompt ví dụ gồm cận cảnh chân dung mùa thu, rạn san hô, digital art về hổ con dưới gốc táo và ngôi làng miền núi phủ tuyết có cực quang

Năng lực mô phỏng xuất hiện khi mở rộng quy mô

Các mô hình video được huấn luyện ở quy mô lớn cho thấy năng lực nổi sinh trong việc mô phỏng một số khía cạnh của con người, động vật và môi trường
Những đặc tính này được xem là hiện tượng xuất hiện khi mở rộng quy mô mà không cần thiên kiến quy nạp tường minh về 3D hay đối tượng
Tính nhất quán 3D
- Sora có thể tạo video có chuyển động máy quay động
- Khi máy quay di chuyển hoặc xoay, con người và các thành phần trong cảnh chuyển động nhất quán trong không gian ba chiều
Tính nhất quán dài hạn và sự bền vững của đối tượng
- Duy trì tính nhất quán theo thời gian trong các mẫu video dài là một thách thức quan trọng với hệ thống tạo video
- Sora không phải lúc nào cũng làm được, nhưng đôi khi mô hình hóa hiệu quả các phụ thuộc ngắn hạn và dài hạn
- Có trường hợp con người, động vật và vật thể vẫn được duy trì ngay cả khi bị che khuất hoặc ra khỏi khung hình
- Trong cùng một mẫu, nó có thể tạo nhiều cảnh quay của cùng một nhân vật và giữ nguyên ngoại hình xuyên suốt video
Tương tác với thế giới
- Sora đôi khi mô phỏng được các hành động ảnh hưởng đến trạng thái của thế giới theo cách đơn giản
- Ví dụ như nét cọ mà họa sĩ để lại trên canvas vẫn còn theo thời gian, hoặc người ăn hamburger để lại dấu cắn
Mô phỏng thế giới số
- Sora cũng có thể mô phỏng các quá trình nhân tạo như trong trò chơi điện tử
- Trong ví dụ Minecraft, nó có thể điều khiển người chơi bằng một chính sách cơ bản đồng thời kết xuất thế giới và động lực học với độ trung thực cao
- Chỉ với prompt chú thích có nhắc đến “Minecraft”, có thể khơi ra khả năng này theo kiểu zero-shot

Giới hạn hiện tại và kết luận

Sora có nhiều giới hạn khi hoạt động như một trình mô phỏng
Nó không mô hình hóa chính xác vật lý của nhiều tương tác cơ bản như kính vỡ
Với các tương tác như ăn thức ăn, nơi trạng thái của vật thể phải thay đổi đúng, kết quả cũng không phải lúc nào cũng chính xác
Các ví dụ lỗi như mất nhất quán trong mẫu dài hoặc vật thể đột ngột xuất hiện được nêu thêm trên trang giới thiệu Sora
Năng lực hiện tại cho thấy việc tiếp tục mở rộng mô hình video có thể là con đường để phát triển các trình mô phỏng đủ năng lực nhằm xử lý thế giới vật lý, thế giới số và các đối tượng, động vật, con người bên trong đó

1 bình luận

GN⁺ 2024-02-17

Các ý kiến trên Hacker News

Có vẻ mọi người đang bỏ lỡ việc công nghệ này có thể mở ra điều gì. Nó có thể tạo ra những chuỗi cảnh video hợp lý với các định luật vật lý thực tế, và nếu nó đủ nhanh để chạy theo thời gian thực thì sẽ tạo ra thay đổi lớn.
Kết nối nó với một robot có luồng camera thời gian thực, để nó liên tục tạo ra nhiều cảnh tương lai khả dĩ từ hình ảnh đầu vào, ta sẽ có một robot tự hành xây dựng mô hình thời gian thực của thế giới xung quanh và dự đoán tương lai. Nếu gắn thêm cơ chế hiệu chỉnh sai số dựa trên mức độ khớp giữa từng dự đoán và kết quả thực tế, tôi nghĩ nó có thể tiến rất gần đến AGI.
Đầu ra có thể được nối với sinh văn bản hoặc điều khiển chuyển động của chính nó, và cũng có thể hình dung cách nó dự đoán kết quả của những hành động mà bản thân có thể thực hiện rồi chọn hành động tốt nhất. Với mục đích như vậy, hình ảnh không cần phải hoàn toàn chân thực, không lỗi hay có độ phân giải cao. Cũng đáng nghĩ xem trí tưởng tượng của chính chúng ta về thế giới thực ra chân thực đến mức nào.
Ví dụ, một robot dọn nhà nhìn vào hình ảnh phòng khách, tạo ra hình ảnh phòng khách sau khi dọn xong, rồi nội suy và tưởng tượng video chính nó đang dọn phòng, hành động hết mức có thể theo video đó, sau đó lại tạo chuỗi cảnh tiếp theo và hành động tiếp. Nếu cần, có thể lặp lại nhiều lần mỗi giây.
- Điều này gần với một tác tử có mô hình thế giới dùng cho lập kế hoạch. Thực ra không nhất thiết phải tạo ra hình ảnh chân thực; mô hình thế giới vận hành trong biểu diễn trừu tượng nén của riêng nó.
  Một hệ thống đáng xem theo hướng này là V-Jepa: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- Về mặt lý thuyết thì đúng, nhưng vấn đề là chúng ta đã có AGI trên lý thuyết nhiều lần rồi. Ví dụ, Q-learning là kiểu đưa trạng thái của một trò chơi hay hệ thống nào đó vào mạng nơ-ron, cho nó dự đoán phần thưởng tương lai khả dĩ, rồi lặp đi lặp lại cải thiện độ chính xác của dự đoán đó, cuối cùng sẽ đạt đến hành động tối ưu trong bất kỳ hệ thống nào.
  Khi làm thử nghiệm học tăng cường, kỳ vọng “chỉ cần bật lên là nó sẽ chạy tốt và tìm ra hàng loạt lời giải tuyệt vời” luôn rất thú vị, nhưng trên thực tế, dù điều đó có thể xảy ra, phần lớn là không. Thường có dấu hiệu học được, nhưng không tạo ra kết quả ngoạn mục.
  Lý do tôi vẫn theo dõi xem liệu có xuất hiện AI mạnh trong các trò chơi điện tử như Civilization hay không là vì tôi muốn kiểm tra liệu nó có đủ thực tế để nhà phát triển game triển khai một cách thực dụng, trong khi vẫn giải được các vấn đề của một hệ thống phức tạp hay không. Một nhóm chuyên gia có thể giải Civilization như một dự án nghiên cứu, nhưng điều đó còn rất xa tính thực dụng. Trước khi AI trong game dự đoán nước đi tốt nhất, tôi còn nghi ngờ liệu chỉ bằng cách cho mô hình video xem các video người chơi Civilization, nó có thể dự đoán nước đi tốt nhất hay không.
- Điều thú vị là dữ liệu video nhiều đến mức giờ đây đã có các mô hình có thể chiếu dự phóng tương lai trong không gian pixel 2D.
  Mục tiêu cuối cùng của robotics thực ra là chiếu dự phóng tương lai trong không gian thế giới 3D, và tùy mức độ phức tạp của mô hình thế giới 3D, một mô hình dự phóng 3D có thể hoạt động được thậm chí có thể nhỏ hơn nhiều.
  Chỉ là dữ liệu tương ứng không sẵn có dễ dàng trên Internet đến mức đó.
- Như các câu trả lời khác đã nói, điều này chạm đến ý tưởng AI hướng mục tiêu mà Yann LeCun trình bày trong [1]. Bài báo không dùng tên đó, nhưng LeCun đã gọi như vậy trong các bài nói và slide, đồng thời cũng nói rằng thứ như vậy sẽ không đạt được bằng các mô hình sinh.
  Nếu ở trong lĩnh vực AI đủ lâu, bạn sẽ thấy nhiều đột phá từng được cho là dẫn tới AGI, từ DeepBlue, mạng nơ-ron tích chập, học tăng cường sâu, cho tới các mô hình ngôn ngữ lớn hiện nay. Mỗi lần như vậy, có thể đó không phải là đột phá mà mọi người nghĩ, hoặc AGI cần nhiều hơn rất nhiều so với một đột phá kỹ thuật đơn lẻ.
  Nếu bạn nghĩ ý tưởng này khả thi, hãy tự thử trong một môi trường đơn giản. Có thể tạo một thế giới lưới nhỏ hoặc một phiên bản đơn giản hóa của trò chơi dựa trên văn bản như Nethack [2], triển khai trong môi trường thử nghiệm và xem nó hoạt động tốt đến đâu. Có lẽ còn viết được cả bài báo.
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Không nên bắt đầu bằng chính Nethack. Nó quá khó đối với “AI”.
- Các hệ thống như Sora rõ ràng là cần thiết, nhưng chỉ riêng chúng thì chưa đủ. Nếu được kết hợp với một mô hình đa phương thức có khả năng suy luận đúng, nó có thể tiến gần tới AGI, hay chính xác hơn là ASI.
  Vì nó có các lợi thế như độ dài ngữ cảnh dài hơn con người, các phương thức cảm giác bổ sung như hồng ngoại hoặc cảm giác điện, chuyên môn rộng hơn nhiều và băng thông khổng lồ.
  Mô hình kế nhiệm trong tương lai của Sora + một mô hình kế nhiệm nhiều khả năng của GPT-4 = ASI, theo tôi là vậy.
  Một bình luận khác tôi đã viết liên quan: https://news.ycombinator.com/item?id=39391971
Tôi thích việc trang này không chỉ cho xem các kết quả tốt nhất, mà còn đưa ra một vài trường hợp thất bại
Ví dụ như ở cuối, người lướt sóng lại lướt trên không: https://cdn.openai.com/tmp/s/prompting_7.mp4
Cũng có cảnh tấm kính đáng ra phải vỡ thì lại không vỡ, chỉ có chất lỏng chảy ra theo cách kỳ lạ: https://cdn.openai.com/tmp/s/discussion_0.mp4
Cách người này đi cũng kỳ lạ: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
Cũng không rõ tấm bản đồ này từ đâu ra: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- Ngay cả trong một số video tiêu biểu cũng thấy lỗi phối cảnh và thị sai. Có khi nhân vật người quá lớn so với những người ở nền phía sau, hoặc đứng trên một mặt phẳng ngang không khớp. Thực tế là hơi chóng mặt một chút, nhưng vẫn cực kỳ ấn tượng
- Nhìn cảnh bản đồ thì khoảng giây thứ 6 có bàn tay thứ ba đang gạt bản đồ đi
- Trong cảnh “cách người này đi”, việc chiếc ô thò ra từ phía dưới thắt lưng cũng kỳ lạ
Đọc phần “những tương tác kiểu như ăn thức ăn không phải lúc nào cũng tạo ra thay đổi trạng thái đối tượng chính xác”, có lẽ vì thế mà họ không cho xem cảnh Will Smith ăn spaghetti
Câu “việc mở rộng các mô hình video là một con đường đầy hứa hẹn để phát triển các trình mô phỏng hiệu năng cao cho thế giới vật lý và thế giới số” thì thú vị với robotics, nhưng ứng dụng gần hơn có thể là lấp các khoảng trống trong cảnh Gaussian splatting
Để tạo một walkthrough 3D của một không gian, cần hàng trăm đến hàng nghìn bức ảnh phủ liền mạch mọi góc có thể, mà vẫn sẽ có chỗ bị thiếu. Với mô hình cỡ này, có vẻ có thể phục dựng một cách hợp lý các góc khuất, chi tiết cận cảnh, và những phần trong tái dựng tiêu chuẩn thường còn lại dưới dạng lỗ hổng hoặc vùng mờ
Chỉ với 5–10 bức ảnh của một địa điểm, có thể thu được một cảnh 3D mượt mà, chân thực và có thể khám phá từ mọi góc; cũng có thể loại bỏ người hoặc các vật thể không mong muốn khỏi cảnh. Bản tái dựng ngoại suy như vậy sẽ không khớp hoàn toàn với thực tế ở mọi chi tiết, nhưng vẫn sẽ mở ra rất nhiều ứng dụng
- Những thứ như vậy gọi là bản vẽ tưởng tượng của nghệ sĩ thì chính xác hơn là “tái dựng”. Nó tốt trong các tình huống mà chi tiết chính xác không quan trọng, nhưng nếu chi tiết không quan trọng thì mờ cũng có thể đã đủ
AlphaGo và AlphaZero đạt hiệu năng siêu nhân là vì chúng có trình mô phỏng hoàn hảo cho cờ vây. Thế giới thực mà chúng ta sống không có trình mô phỏng như vậy. Các mô hình ngôn ngữ lớn thuần túy có học được phần nào biểu diễn thô và trừu tượng về thế giới như con người nhận thức, nhưng Sora là một nỗ lực tạo ra một trình mô phỏng như vậy bằng deep learning
Câu then chốt là “kết quả của chúng tôi cho thấy việc mở rộng các mô hình sinh video là một con đường đầy hứa hẹn để xây dựng trình mô phỏng phổ quát cho thế giới vật lý”
Nếu trình mô phỏng kiểu này đủ tốt, về mặt phần mềm chúng ta có thể có được năng lực robot phổ quát và siêu nhân. Cách tiếp cận này có thật sự đạt được hay không thì vẫn chưa chắc chắn
Sở dĩ nói là siêu nhân vì độ dài ngữ cảnh dài hơn trí nhớ làm việc của chúng ta rõ ràng là một lợi thế, và khả năng mô phỏng dày đặc hơn các phương thức cảm giác thay thế hoặc những chi tiết mà đa số con người không quen thuộc cũng có thể là lợi thế
- Điều đi ngược lại trực giác của tôi thật sự rất thú vị. Tôi từng nghĩ sẽ dễ hơn nhiều nếu phân tích luồng camera từ thực tế, biến những gì nhìn thấy thành biểu diễn đa giác giống như trong video game, rồi để AI ra quyết định trên cấu trúc hình học đó
  Nhưng xu hướng của AI lại là bỏ qua các bước trung gian và hoạt động trực tiếp trên dữ liệu pixel. Đây là cách kỳ vọng rằng hiểu biết về hình học 3D, phối cảnh và vật lý sẽ tự nhiên nảy sinh từ dữ liệu huấn luyện
- Trình mô phỏng hoàn hảo của thế giới thực đã tồn tại rồi. Chỉ cần quay lại bằng camera là được. Nếu các nhà nghiên cứu có thêm chút thời gian để định hướng và tìm ra cách học nhanh hơn vài lần, họ sẽ chạm tới đó
Tôi nhớ Ylecun đã nhiều lần nói rằng video tốt hơn để huấn luyện các mô hình lớn. Vì video có mật độ thông tin cao hơn
Kết quả thật sự ấn tượng. Việc có thể tạo ra video chất lượng cao như vậy, và mở rộng quá khứ lẫn tương lai của video, cho thấy mô hình “hiểu” thế giới thực, tương tác giữa các đối tượng, cấu trúc 3D, v.v. đến mức nào
Sinh ảnh vốn đã phải biết rất nhiều về thế giới, nhưng tôi nghĩ sinh video có khoảng cách lớn hơn nhiều, vì mô hình phải biết 3D, chuyển động của vật thể và tương tác
Việc cảnh ai đó đang vẽ tranh lại hoàn toàn là video được sinh ra nghe thật điên rồ
Tôi muốn tự dùng thử, nhưng không thể tưởng tượng chi phí sẽ đắt đến mức nào. Có thể huấn luyện ở độ phân giải đầy đủ và tạo video dài tối đa 1 phút cơ mà
Vì sinh video trước giờ quá tệ nên tôi tưởng phải mất thêm vài năm nữa mới đạt đến mức này, nhưng đây có vẻ lại là một ví dụ nữa cho thấy chỉ cần thêm dữ liệu và lượng tính toán. Transformer dường như một lần nữa chứng minh rằng nó có thể học và làm tốt bất cứ thứ gì
Bài chính cũng có nhiều phản hồi, nhưng trang này thật sự áp đảo. Kết quả rất mạnh
Các ví dụ về robot khá đáng thất vọng, nhưng con người và nhân vật nền phần lớn được tạo rất tốt, ở mức tốt hơn nhiều so với đa số mô hình diffusion ảnh tĩnh. Việc nhân vật vẫn giữ nguyên là cùng một người trong lúc tương tác với vật thể cũng là điều tôi không ngờ loại mô hình này lại làm tốt nhanh đến vậy
Thật đáng kinh ngạc khi mô hình này tạo ra được video có tính nhất quán 3D như vậy mà không cần tri thức tiên nghiệm 3D rõ ràng. Đến mức có thể học một biểu diễn 3D kiểu NeRF trực tiếp từ video đó: https://twitter.com/BenMildenhall/status/1758224827788468722
- Một công trình biến đổi Stable Diffusion để tạo bản đồ môi trường cầu HDR từ ảnh hiện có cũng gây ngạc nhiên tương tự: https://diffusionlight.github.io/
  Điều còn đáng kinh ngạc hơn là họ cho mô hình inpaint một quả cầu chrome ở giữa ảnh, để nó tạo ra hình phản chiếu cho thấy phía sau camera có gì. Mô hình diễn giải ngữ cảnh và tưởng tượng ra những thứ có vẻ hợp lý trong toàn bộ môi trường
- Nhìn kỹ thì không phải vậy. Trong các ví dụ có rất nhiều điểm không nhất quán. Khi camera xoay, phối cảnh sai hoàn toàn, phối cảnh của cửa sổ thay đổi, patio đột nhiên sâu hơn hoặc nông hơn. Khi camera di chuyển, bóng đổ cũng xuất hiện rồi biến mất
  Ở các ví dụ khác, đường đi, vật thể và con người đột nhiên xuất hiện hoặc biến mất, đá biến thành người, còn con ngựa thì bất chợt có thêm cái đầu thứ hai rồi trở thành một con ngựa riêng chỉ có hai chân
  Thoạt nhìn thì ấn tượng, nhưng nếu tập trung quan sát thì nó gần với giấc mơ hơn là tính chân thực. Nó giống như gợi ra ảnh này từ ảnh kia mà không có tính nhất quán dài hạn về thời gian, không gian và nhân quả. Khó có thể nói là ấn tượng hơn nhiều so với Google DeepDream đã 10 năm tuổi
- Tôi tò mò liệu một biến thể nào đó của mô hình có thể xuất trực tiếp mesh 3D và animation camera thay vì hình ảnh hay không
- Với các mô hình khuếch tán 2D cũng tương tự[1]. Có vẻ chúng phải hiểu cách 3D vận hành vì những thứ như ánh sáng, bóng đổ và vật thể che khuất
  [1] https://dreamfusion3d.github.io/
- Tôi tò mò nếu huấn luyện bằng dữ liệu ảnh stereo thì sẽ cải thiện được đến mức nào
Đây là một ý tưởng thú vị. Cũng như các mô hình ngôn ngữ lớn chỉ là “bộ dự đoán văn bản”, nhưng để dự đoán đúng văn bản nhất quán thì phải học được mô hình về ngôn ngữ và thế giới, việc bộ dự đoán video cũng phải học một world model hợp lý là điều tự nhiên
Tôi tự hỏi chúng còn phải tiến bộ thêm vài bậc độ lớn nữa thì mới trở nên hữu ích tương tự
Nếu cho phép chức năng như thế này, có lẽ với các mô hình từ gói premium trở lên, nó có thể sớm làm sụp đổ toàn bộ ngành công nghiệp khiêu dâm. Không phải các website, mà là phía những lao động tình dục thường bị bóc lột
Bất kỳ ai chỉ cần mô tả sở thích của mình là có thể trực quan hóa ngay lập tức, mà không cần con người thật phải chịu đau khổ để tạo ra những video như vậy. Tôi biết đây là chủ đề nhạy cảm, nhất là ở Mỹ, nơi người ta ngại nói ra, nhưng thị trường rất lớn và nếu làm tốt thì cũng có thể giúp ích cho nhân loại
- Cứ mỗi diễn viên khiêu dâm thì có hàng nghìn người tiêu thụ khiêu dâm với mạch phần thưởng bị hủy hoại, còn trong số diễn viên chỉ một phần bị lạm dụng và nhiều người được trả thù lao khá tốt
  Việc tạo ra vô tận kích thích gây nghiện là điều xa nhất với việc giúp ích cho nhân loại
  Nếu muốn làm điều tốt trong lĩnh vực này, tốt hơn nên nghiên cứu cách hạn chế tiêu thụ

Mô hình tạo video như một trình mô phỏng thế giới

Vấn đề Sora giải quyết và phạm vi báo cáo

Cách hợp nhất dữ liệu thị giác bằng patch

Nén video và các patch tiềm ẩn không-thời gian

Mở rộng Diffusion Transformer cho tạo video

Lợi ích của việc huấn luyện ở kích thước gốc

Tính linh hoạt khi lấy mẫu

Cải thiện framing và bố cục

Hiểu ngôn ngữ và xử lý chú thích

Tạo và chỉnh sửa bằng hình ảnh, video làm đầu vào

Hoạt hình hóa ảnh DALL·E

Mở rộng video được tạo

Chỉnh sửa video-to-video và nối cảnh

Khả năng tạo hình ảnh

Năng lực mô phỏng xuất hiện khi mở rộng quy mô

Tính nhất quán 3D

Tính nhất quán dài hạn và sự bền vững của đối tượng

Tương tác với thế giới

Mô phỏng thế giới số

Giới hạn hiện tại và kết luận

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News