Lumiere: Mô hình khuếch tán không-thời gian để tạo video chân thực
(lumiere-video.github.io)Văn bản thành video
- Nhóm nghiên cứu Google đã giới thiệu một mô hình khuếch tán văn bản thành video có tên là Lumiere.
- Mô hình này tập trung vào việc tổng hợp video thể hiện chuyển động chân thực, đa dạng và nhất quán.
- Sử dụng kiến trúc U-Net không-thời gian để tạo toàn bộ chiều thời gian của video trong một lần.
Hình ảnh thành video
- Với Lumiere, có thể tạo video theo phong cách mục tiêu bằng cách sử dụng một hình ảnh tham chiếu duy nhất.
- Tận dụng trọng số của mô hình văn bản thành hình ảnh đã được tinh chỉnh.
Tạo kiểu cho video
- Thông qua Lumiere, có thể áp dụng các phương pháp chỉnh sửa hình ảnh dựa trên văn bản hiện có vào việc chỉnh sửa video nhất quán.
Cinemagraph
- Mô hình Lumiere có thể tạo hiệu ứng chuyển động cho nội dung của hình ảnh trong một vùng cụ thể do người dùng cung cấp.
Inpainting video
- Mô hình Lumiere có thể khôi phục nội dung của video đã được che mặt nạ để tạo ra video hoàn chỉnh.
Tác giả và lời cảm ơn
- Nhóm nghiên cứu gồm các đồng tác giả từ Google Research và nhiều trường đại học.
- Nhóm bày tỏ lời cảm ơn tới các tác giả đã đóng góp cho nghiên cứu trong thời gian thực tập, cùng nhiều cá nhân đã hỗ trợ và hợp tác.
GN⁺ nhận định:
- Mô hình Lumiere đại diện cho một bước tiến quan trọng trong lĩnh vực tổng hợp video. Khả năng tạo video với chuyển động chân thực và đa dạng sẽ là trợ giúp lớn cho nhà sáng tạo nội dung và biên tập viên video.
- Công nghệ này đặc biệt có thể góp phần tăng cường kể chuyện bằng hình ảnh trong ngành điện ảnh hoặc quảng cáo, đồng thời mở rộng khả năng biểu đạt sáng tạo.
- Sự phát triển của Lumiere là một ví dụ cho thấy các công cụ sáng tạo dựa trên trí tuệ nhân tạo đang thay đổi công việc sáng tạo như thế nào.
1 bình luận
Ý kiến trên Hacker News