Google DeepMind Veo - Mô hình video tạo sinh mạnh mẽ nhất

(deepmind.google)

11 điểm bởi GN⁺ 2024-05-15 | 2 bình luận | Chia sẻ qua WhatsApp

Veo hiện là mô hình tạo video mạnh mẽ nhất cho đến nay.
Có thể tạo video chất lượng cao với độ phân giải 1080p dài hơn 1 phút.
Hỗ trợ nhiều phong cách điện ảnh và phong cách hình ảnh khác nhau.
Nắm bắt chính xác sắc thái và tông của prompt, đồng thời cung cấp khả năng kiểm soát sáng tạo.
Hiểu các hiệu ứng điện ảnh như quay tua nhanh thời gian hoặc quay trên không phong cảnh.
Giúp việc sản xuất video trở nên dễ tiếp cận với mọi người.
Mở ra những khả năng mới cho các nhà làm phim giàu kinh nghiệm, nhà sáng tạo, nhà giáo dục và nhiều đối tượng khác.
Dự kiến sẽ cung cấp một số tính năng thông qua công cụ thử nghiệm mới có tên VideoFX.
Trong tương lai, Google cũng có kế hoạch áp dụng các khả năng của Veo cho YouTube Shorts và các sản phẩm khác.

Hiểu biết sâu hơn về ngôn ngữ và thị giác

Cần diễn giải chính xác prompt văn bản và kết hợp nó với các tham chiếu hình ảnh liên quan.
Tạo video bám sát prompt bằng cách hiểu ngôn ngữ tự nhiên và ý nghĩa thị giác ở mức độ cao.
Kết xuất tinh xảo các chi tiết trong những cảnh phức tạp.

Khả năng kiểm soát dành cho làm phim

Khi cung cấp video đầu vào và lệnh chỉnh sửa, Veo sẽ áp dụng chúng để tạo ra video đã được biên tập mới.
Hỗ trợ chỉnh sửa bằng mặt nạ để có thể thay đổi các vùng cụ thể trong video.
Khi cung cấp đồng thời hình ảnh và prompt văn bản, mô hình sẽ tạo video theo phong cách và chỉ dẫn đó.
Có thể tạo và mở rộng các clip video dài hơn 60 giây thông qua một prompt duy nhất hoặc một chuỗi prompt.

Duy trì tính nhất quán giữa các khung hình video

Việc duy trì tính nhất quán về mặt hình ảnh là một thách thức đối với các mô hình tạo video.
Bộ biến đổi khuếch tán tiềm ẩn mới nhất của Veo giúp giảm sự xuất hiện của các điểm không nhất quán này.
Duy trì nhân vật, đối tượng và phong cách một cách chân thực như ngoài đời.

Dựa trên nhiều năm nghiên cứu về tạo video

Veo được xây dựng trên nền tảng các nghiên cứu như Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere.
Tận dụng kiến trúc Transformer và Gemini.
Thêm nhiều chi tiết hơn vào chú thích của từng video để hiểu và bám sát prompt chính xác hơn.
Cải thiện hiệu năng bằng cách sử dụng biểu diễn video nén chất lượng cao.

Thiết kế có trách nhiệm

Điều quan trọng là Veo phải được đưa ra thế giới một cách có trách nhiệm.
Các video do Veo tạo ra sẽ được gắn watermark bằng SynthID.
Giảm thiểu rủi ro về quyền riêng tư, bản quyền và thiên lệch thông qua bộ lọc an toàn và quy trình kiểm tra ghi nhớ.
Định hình tương lai của Veo thông qua hợp tác với các nhà sáng tạo và nhà làm phim hàng đầu.
Cải thiện công nghệ video tạo sinh và mang lại lợi ích cho cộng đồng sáng tạo rộng lớn hơn thông qua phản hồi của họ.

Ý kiến của GN⁺

Tính đổi mới của Veo: Veo là một mô hình tạo video chất lượng cao, mở ra những khả năng mới cho các nhà sáng tạo.
Ứng dụng trong giáo dục: Có thể hỗ trợ rất nhiều cho các nhà giáo dục trong việc truyền tải kiến thức qua video.
Triển khai công nghệ có trách nhiệm: Veo có thể được sử dụng một cách có trách nhiệm thông qua watermark và bộ lọc an toàn.
Sản phẩm cạnh tranh: Cần có sự so sánh với các mô hình tạo video khác cung cấp tính năng tương tự.
Các điểm cần cân nhắc khi triển khai: Khi áp dụng Veo, cần xem xét đầy đủ các vấn đề về quyền riêng tư và bản quyền.

2 bình luận

xguru 2024-05-15

Đúng là nếu không có Sora thì đã rất xuất sắc rồi... nhưng đem ra so thì thấy rõ. Không hiểu sao Google lại thành ra thế này T_T

GN⁺ 2024-05-15

Ý kiến trên Hacker News

Tóm tắt các bình luận trên Hacker News

Hạn chế từ góc nhìn làm phim
- Ý kiến: Với công nghệ hiện tại, nó chưa tạo được ảnh hưởng lớn tới việc làm phim. Cần có khả năng để đạo diễn đưa ra chỉ thị cụ thể. Hiện tại chủ yếu vẫn ở mức nội dung B-roll.
Công nghệ SynthID của Google
- Ý kiến: Google sử dụng công nghệ SynthID để thêm watermark vào video do AI tạo ra. Công nghệ này không chỉ áp dụng cho video mà còn cho hình ảnh, văn bản và âm thanh.
So sánh với Sora
- Ý kiến: Sora ấn tượng hơn. Sora xử lý tốt các clip dài và chuyển động nhanh. Trong khi đó, bản demo hiện tại chỉ gồm các clip ngắn và chuyển động chậm. Thứ duy nhất có thể mang ra so sánh là video cyberpunk, nhưng tính nhất quán còn thiếu.
Video ví dụ 60 giây
- Ý kiến: Có cung cấp liên kết tới video ví dụ dài 60 giây. Liên kết YouTube
Sự vắng mặt của video có con người
- Ý kiến: Việc không có video nào có con người có thể cho thấy công nghệ này đang gặp khó khăn trong việc tạo ra con người.
Sự thay đổi về thời lượng cảnh quay trong điện ảnh
- Ý kiến: Theo một bài viết trên Wired năm 2014, thời lượng cảnh quay trung bình của phim nói tiếng Anh đã giảm từ 12 giây trong thập niên 1930 xuống còn 2,5 giây ngày nay. Công nghệ này có thể tạo ra tác động lớn hơn tới thế giới thực. Liên kết bài viết Wired
Ấn tượng về video demo
- Ý kiến: Video demo khá thú vị. Tuy nhiên, khi so với demo của Sora thì không quá ấn tượng. Với một công bố từ Google, nó vẫn chưa đạt kỳ vọng. Sora vẫn chưa được phát hành, và Veo có thể còn cho thấy nhiều hơn nữa.
Cách duy trì tính nhất quán
- Ý kiến: Có sự tò mò về cách công nghệ mới nhất của Veo duy trì được tính nhất quán. Không rõ liệu có bộ nhớ theo thời gian giữa các khung hình hay không.
Sự tương đồng với Westworld
- Ý kiến: Hình thumbnail của prompt ví dụ đầu tiên trông giống android Gunslinger trong Westworld bản 1973. Đây từng là một trong những trường hợp sử dụng đồ họa máy tính đầu tiên. Liên kết YouTube
Sự khó hiểu ở phân đoạn Donald Glover
- Ý kiến: Phân đoạn Donald Glover gây khó hiểu. Chỉ có vài clip ngắn được đưa ra nên đã kỳ vọng một phim ngắn, nhưng cuối cùng lại thấy thất vọng.