1 điểm bởi GN⁺ 2025-04-17 | 2 bình luận | Chia sẻ qua WhatsApp
  • GeminiWhisk nay cung cấp khả năng chuyển prompt dạng văn bản thành video 8 giây độ phân giải cao
  • Sử dụng mô hình Veo 2 để tạo video chân thực, dành cho người đăng ký Google One AI Premium
  • Với Whisk Animate, có thể chuyển hình ảnh thành clip hoạt hình dài 8 giây
  • Để đảm bảo an toàn, mọi video được tạo đều có gắn watermark số SynthID

Cách tạo video trong Gemini

  • Veo 2 là mô hình có thể tạo ra video độ phân giải cao, nhiều chi tiết, hiểu được vật lý thực tế và chuyển động của con người để mang lại chuyển động nhân vật sống động và cảnh quay chân thực
  • Người dùng có thể chọn Veo 2 trong Gemini để tạo clip video 8 giây ở độ phân giải 720p
  • Chỉ cần mô tả cảnh, Gemini sẽ hiện thực hóa ý tưởng thành video; mô tả càng chi tiết thì càng kiểm soát tốt video đầu ra
  • Video được tạo có thể dễ dàng chia sẻ lên các nền tảng như TikTok hoặc YouTube Shorts

Thổi sức sống vào hình ảnh với Whisk Animate

  • Whisk là một thử nghiệm của Google Labs cho phép trực quan hóa ý tưởng mới bằng prompt văn bản và hình ảnh
  • Thông qua Whisk Animate, có thể biến hình ảnh thành video 8 giây sống động, dành cho người đăng ký Google One AI Premium

Cách tiếp cận về an toàn

  • Để đảm bảo an toàn cho việc tạo video, mọi video được tạo bằng Veo 2 đều được gắn watermark số SynthID
  • Dự kiến sẽ tiếp tục cải thiện thông qua phản hồi của người dùng, đồng thời tiến hành đánh giá để ngăn việc tạo ra nội dung vi phạm chính sách

2 bình luận

 
GN⁺ 2025-04-17
Ý kiến Hacker News
  • Whisk đã âm thầm ra mắt vài tháng trước như một bản demo của Imagen 3. Đáng ngạc nhiên là nó khá thú vị và được triển khai chắc chắn

    • Nó dùng một mẹo chuyển ảnh tải lên thành mô tả văn bản
    • Có thể tận dụng điểm mạnh của bộ mã hóa văn bản hiện đại của Imagen 3 để bám theo các mô tả chuyển đổi dài
  • Tôi muốn mua cổ phần "có" trong sự kiện Polymarket rằng đến năm 2027 sẽ có một bộ phim do một người làm ra đạt doanh thu hơn 100 triệu USD

  • Tôi đã tốn 48 USD tín dụng GCP để tạo 12 video dài 8 giây bằng Veo2. Cần cẩn thận

  • Tôi không nghĩ việc tạo video dài 8 giây lại có thể thực hiện được ngoài API trả phí

  • Tôi không quá rành về mặt kỹ thuật trong lĩnh vực này, nhưng tôi thắc mắc vì sao mọi thứ đều là text-to-X

    • Tôi nghĩ liệu có thể dùng một trình biên tập kiểu keyframe truyền thống, vừa phác thảo sơ bộ địa hình, chèn ảnh nhân vật, rồi vẽ spline 3D để có quyền kiểm soát sáng tạo chi tiết hơn hay không
  • Làm quảng cáo theo phong cách Ghibli là một việc táo bạo. Tôi đã nghĩ giờ phong cách đó chắc đã bị khai thác cạn rồi

  • Google Vids cũng dùng Veo 2. Hệ sản phẩm khá rối rắm

  • Việc kiểm duyệt nội dung cực kỳ gây nản. Đây có thể là lý do chính khiến Veo2 và Gemini cuối cùng thất bại

    • Tôi muốn làm một video vui về một đứa trẻ chơi làm siêu anh hùng nhưng cứ bị thất bại mãi
  • Tất cả chuyện này đều ấn tượng về mặt kỹ thuật, nhưng với những ai đã nỗ lực rất nhiều trong lĩnh vực này thì đây là một lời cảnh báo lớn

    • text-to-bất-cứ-thứ-gì thực sự rất mệt mỏi. Dù kết quả có ngầu đến đâu tôi cũng không có cảm xúc gì vì đó không phải do tôi làm ra
    • 97% trường hợp kết quả không phải thứ tôi muốn. Chỉ cần sửa prompt một chút là lại ra một kết quả sai khác
    • Toàn bộ quá trình này đang bào mòn ví tiền, sự kiên nhẫn và cả tâm hồn của tôi
    • Tôi không hiểu những "công cụ" này sẽ giúp ích cho nhà sáng tạo như thế nào. Cho đến nay, các sản phẩm sinh ra từ những công cụ này chỉ toàn là các công ty spam trên TikTok/internet đại trà
  • Krita-ai-diffusion, kết nối với Krita và kết hợp img2img, masking và txt2img, là công cụ gần nhất với việc trao quyền cho nghệ sĩ

  • Đây là một đợt phát hành rất ấn tượng nếu so với một năm trước. Hiện tại trong ML, tất cả các ông lớn đều đang cạnh tranh với nhau và thúc đẩy công nghệ tiến lên, đây là một trạng thái tốt. Điều này hiếm thấy ở Mỹ (hoặc nói chung ở bất kỳ đâu)