Google DeepMind công bố mô hình tạo video Veo 2

(deepmind.google)

7 điểm bởi GN⁺ 2024-12-17 | 1 bình luận | Chia sẻ qua WhatsApp

Veo 2 là mô hình tạo video tối tân, cung cấp chuyển động chân thực và đầu ra chất lượng cao lên tới 4K
Có thể khám phá nhiều phong cách khác nhau và tìm ra phong cách riêng của mình thông qua khả năng điều khiển camera phong phú
Định nghĩa lại chất lượng và khả năng điều khiển
- Veo 2 tuân theo trung thực cả chỉ dẫn đơn giản lẫn phức tạp, đồng thời mô phỏng thuyết phục vật lý của thế giới thực và nhiều phong cách hình ảnh đa dạng
- Tăng cường tính chân thực và độ trung thực: được cải thiện đáng kể so với các mô hình video AI khác về mức độ chi tiết, tính chân thực và giảm artifact
- Khả năng chuyển động nâng cao: nhờ hiểu biết về vật lý và khả năng làm theo chỉ dẫn chi tiết, mô hình thể hiện chuyển động với độ chính xác cao
- Nhiều tùy chọn điều khiển camera hơn: diễn giải và tạo ra chính xác nhiều kiểu cảnh quay, góc máy và chuyển động khác nhau
Benchmark
- Veo đạt kết quả tối tân trong các so sánh với những mô hình tạo video hàng đầu khác do người đánh giá trực tiếp thực hiện
- 1003 prompt và các video tương ứng đã được đánh giá trên MovieGenBench, và Veo 2 cho thấy hiệu năng tốt nhất về mức độ được ưa thích tổng thể và khả năng bám sát prompt một cách chính xác
Quảng cáo
Hạn chế
- Veo 2 đã cho thấy bước tiến đáng kinh ngạc trong việc tạo ra các video chân thực, sống động và phức tạp, nhưng việc duy trì tính nhất quán hoàn toàn trong các cảnh phức tạp hoặc có chuyển động phức tạp vẫn là một thách thức
- Có kế hoạch tiếp tục phát triển và cải thiện hiệu năng trong các lĩnh vực này

1 bình luận

GN⁺ 2024-12-17

Ý kiến trên Hacker News

Một người dùng đã chia sẻ phản hồi về video được tạo bằng prompt "A pelican riding a bicycle along a coastal path overlooking a harbor". Trong bốn phiên bản, hai phiên bản là bồ nông đang đi xe đạp, một phiên bản là bồ nông chạy trên đường, một phiên bản là bồ nông ngồi trên xe đạp, và phiên bản cuối là bồ nông đội một chiếc mũ bảo hiểm kỳ lạ. Kết quả tốt hơn Sora
Việc thắng Sora Turbo với tỷ lệ 2:1 trong mức độ ưa thích của người dùng là điều ấn tượng. Dù có các hạn chế tương tự Sora, nó có vẻ mô phỏng chuyển động tự nhiên và vật lý tốt hơn một chút. Bài đăng blog giải thích rằng có thể mở rộng lên độ phân giải 4K và thời lượng có thể kéo dài đến vài phút
Có ý kiến bày tỏ sự tò mò về mức độ tương đồng giữa các ví dụ được cung cấp trong phần công bố và dữ liệu huấn luyện. Họ đặt câu hỏi chi tiết trong prompt được phản ánh đến mức nào trong kết quả. Ví dụ, họ thắc mắc phần mô tả về sức hút của DJ và sức mạnh của âm nhạc ảnh hưởng thế nào đến video
Video trượt ván có vẻ phi thực tế, nhưng một số video khác lại trông rất thuyết phục
Có người nhắc rằng trang này bị crash trên Chrome của iPad
Sau thông báo lớn của Google, OpenAI đã công bố bản preview của Sora và lấn át Google, nhưng Veo 2 có vẻ đã tiến bộ hơn Sora
Một người bạn làm ở đài truyền hình đã dùng các công cụ như thế này cho chương trình quảng cáo dịch vụ công
Có ý kiến cho rằng Google có thể thống trị mảng chuyển đổi từ văn bản/hình ảnh sang video nhờ khả năng tiếp cận với YouTube
Có người bày tỏ sự bối rối về việc mẫu của Veo 2 dài 8 giây, mẫu của VideoGen dài 10 giây, còn mẫu của các mô hình khác dài 5 giây. Họ đặt câu hỏi liệu kết quả tích cực của Veo 2 có phải vì người đánh giá thiên về video dài hơn hay không
Bộ phận AI của Google được ví như một tàu ngầm hạt nhân khổng lồ so với du thuyền hào nhoáng của OpenAI. Có ý kiến cho rằng Google có thể đã tiến gần hơn tới AGI, đồng thời cũng nhắc đến tình hình của Microsoft và Amazon

Google DeepMind công bố mô hình tạo video Veo 2

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News