- Gemini và Whisk nay cung cấp khả năng chuyển prompt dạng văn bản thành video 8 giây độ phân giải cao
- Sử dụng mô hình Veo 2 để tạo video chân thực, dành cho người đăng ký Google One AI Premium
- Với Whisk Animate, có thể chuyển hình ảnh thành clip hoạt hình dài 8 giây
- Để đảm bảo an toàn, mọi video được tạo đều có gắn watermark số SynthID
Cách tạo video trong Gemini
- Veo 2 là mô hình có thể tạo ra video độ phân giải cao, nhiều chi tiết, hiểu được vật lý thực tế và chuyển động của con người để mang lại chuyển động nhân vật sống động và cảnh quay chân thực
- Người dùng có thể chọn Veo 2 trong Gemini để tạo clip video 8 giây ở độ phân giải 720p
- Chỉ cần mô tả cảnh, Gemini sẽ hiện thực hóa ý tưởng thành video; mô tả càng chi tiết thì càng kiểm soát tốt video đầu ra
- Video được tạo có thể dễ dàng chia sẻ lên các nền tảng như TikTok hoặc YouTube Shorts
Thổi sức sống vào hình ảnh với Whisk Animate
- Whisk là một thử nghiệm của Google Labs cho phép trực quan hóa ý tưởng mới bằng prompt văn bản và hình ảnh
- Thông qua Whisk Animate, có thể biến hình ảnh thành video 8 giây sống động, dành cho người đăng ký Google One AI Premium
Cách tiếp cận về an toàn
- Để đảm bảo an toàn cho việc tạo video, mọi video được tạo bằng Veo 2 đều được gắn watermark số SynthID
- Dự kiến sẽ tiếp tục cải thiện thông qua phản hồi của người dùng, đồng thời tiến hành đánh giá để ngăn việc tạo ra nội dung vi phạm chính sách
2 bình luận
Google DeepMind công bố mô hình tạo video Veo 2
Ý kiến Hacker News
Whisk đã âm thầm ra mắt vài tháng trước như một bản demo của Imagen 3. Đáng ngạc nhiên là nó khá thú vị và được triển khai chắc chắn
Tôi muốn mua cổ phần "có" trong sự kiện Polymarket rằng đến năm 2027 sẽ có một bộ phim do một người làm ra đạt doanh thu hơn 100 triệu USD
Tôi đã tốn 48 USD tín dụng GCP để tạo 12 video dài 8 giây bằng Veo2. Cần cẩn thận
Tôi không nghĩ việc tạo video dài 8 giây lại có thể thực hiện được ngoài API trả phí
Tôi không quá rành về mặt kỹ thuật trong lĩnh vực này, nhưng tôi thắc mắc vì sao mọi thứ đều là text-to-X
Làm quảng cáo theo phong cách Ghibli là một việc táo bạo. Tôi đã nghĩ giờ phong cách đó chắc đã bị khai thác cạn rồi
Google Vids cũng dùng Veo 2. Hệ sản phẩm khá rối rắm
Việc kiểm duyệt nội dung cực kỳ gây nản. Đây có thể là lý do chính khiến Veo2 và Gemini cuối cùng thất bại
Tất cả chuyện này đều ấn tượng về mặt kỹ thuật, nhưng với những ai đã nỗ lực rất nhiều trong lĩnh vực này thì đây là một lời cảnh báo lớn
Krita-ai-diffusion, kết nối với Krita và kết hợp img2img, masking và txt2img, là công cụ gần nhất với việc trao quyền cho nghệ sĩ
Đây là một đợt phát hành rất ấn tượng nếu so với một năm trước. Hiện tại trong ML, tất cả các ông lớn đều đang cạnh tranh với nhau và thúc đẩy công nghệ tiến lên, đây là một trạng thái tốt. Điều này hiếm thấy ở Mỹ (hoặc nói chung ở bất kỳ đâu)