VideoPoet - LLM chuyên biệt cho tạo video zero-shot của Google

xguru · 2023-12-22T10:15:01+09:00

Gần đây, các mô hình tạo video đã xuất hiện và cho thấy chất lượng hình ảnh đáng kinh ngạc, nhưng giới hạn hiện tại là thiếu khả năng tạo ra các chuyển động quy mô lớn nhất quán VideoPoet là một LLM có thể thực hiện nhiều tác vụ tạo video khác nhau như văn bản sang video, hình ảnh sang video, tạo kiểu video, video inpainting và outpainting, cũng như tạo video-kèm-âm thanh Khác với các mô hình khác, thay vì phụ thuộc vào các thành phần riêng lẻ giỏi từng tác vụ, nó tích hợp từng chức năng trong một LLM duy nhất Biến hình ảnh thành chuyển động và chỉnh sửa video để thực hiện inpainting hoặc outpainting VideoPoet huấn luyện một mô hình ngôn ngữ tự hồi quy bằng cách sử dụng nhiều tokenizer để học các modality video, hình ảnh, âm thanh và văn bản Với văn bản-to-video, đầu ra video có độ dài biến thiên và có thể áp dụng nhiều chuyển động và phong cách khác nhau tùy theo nội dung văn bản Với hình ảnh-to-video, mô hình tạo hoạt ảnh chuyển động cho ảnh đầu vào cùng với prompt Trong tạo kiểu video, hệ thống dự đoán thông tin Optical Flow và Depth rồi đưa vào VideoPoet cùng với văn bản đầu vào bổ sung VideoPoet cũng có thể tạo âm thanh, nhờ đó một mô hình duy nhất có thể tạo cả video lẫn âm thanh Theo kết quả đánh giá tạo sinh, trung bình mọi người cho rằng VideoPoet bám sát prompt tốt hơn và tạo ra các chuyển động thú vị hơn VideoPoet chứng minh năng lực cạnh tranh của LLM trong việc tạo ra các chuyển động thú vị và chất lượng cao trong video

(blog.research.google)

5 điểm bởi xguru 2023-12-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Gần đây, các mô hình tạo video đã xuất hiện và cho thấy chất lượng hình ảnh đáng kinh ngạc, nhưng giới hạn hiện tại là thiếu khả năng tạo ra các chuyển động quy mô lớn nhất quán
VideoPoet là một LLM có thể thực hiện nhiều tác vụ tạo video khác nhau như văn bản sang video, hình ảnh sang video, tạo kiểu video, video inpainting và outpainting, cũng như tạo video-kèm-âm thanh
- Khác với các mô hình khác, thay vì phụ thuộc vào các thành phần riêng lẻ giỏi từng tác vụ, nó tích hợp từng chức năng trong một LLM duy nhất
- Biến hình ảnh thành chuyển động và chỉnh sửa video để thực hiện inpainting hoặc outpainting
VideoPoet huấn luyện một mô hình ngôn ngữ tự hồi quy bằng cách sử dụng nhiều tokenizer để học các modality video, hình ảnh, âm thanh và văn bản
Với văn bản-to-video, đầu ra video có độ dài biến thiên và có thể áp dụng nhiều chuyển động và phong cách khác nhau tùy theo nội dung văn bản
Với hình ảnh-to-video, mô hình tạo hoạt ảnh chuyển động cho ảnh đầu vào cùng với prompt
Trong tạo kiểu video, hệ thống dự đoán thông tin Optical Flow và Depth rồi đưa vào VideoPoet cùng với văn bản đầu vào bổ sung
VideoPoet cũng có thể tạo âm thanh, nhờ đó một mô hình duy nhất có thể tạo cả video lẫn âm thanh
Theo kết quả đánh giá tạo sinh, trung bình mọi người cho rằng VideoPoet bám sát prompt tốt hơn và tạo ra các chuyển động thú vị hơn
VideoPoet chứng minh năng lực cạnh tranh của LLM trong việc tạo ra các chuyển động thú vị và chất lượng cao trong video

VideoPoet - LLM chuyên biệt cho tạo video zero-shot của Google

Bài viết liên quan

Chưa có bình luận nào.