Google công bố Veo 3, Imagen 4 và Flow, công cụ mới cho sản xuất phim

(blog.google)

2 điểm bởi GN⁺ 2025-05-21 | 1 bình luận | Chia sẻ qua WhatsApp

Google DeepMind công bố Veo 3, Imagen 4 và Flow, mở rộng đột phá các công cụ tạo video, hình ảnh và làm phim
Veo 3 cung cấp các khả năng như tạo video kèm âm thanh, mô phỏng vật lý chân thực và đồng bộ khẩu hình
Imagen 4 có lợi thế cho việc tạo thành phẩm nhờ mô tả chi tiết tinh xảo và khả năng xử lý typography được cải thiện
Flow là công cụ sáng tạo mới tích hợp nhiều mô hình để hiện thực hóa sản xuất phim dựa trên ngôn ngữ tự nhiên
Mọi nội dung được tạo ra đều được gắn watermark SynthID, đồng thời công cụ phát hiện cũng được phát hành để tăng cường tính minh bạch

Khơi mở sức sáng tạo với các mô hình và công cụ truyền thông tạo sinh mới

Google đã công bố các mô hình truyền thông tạo sinh mới nhất là Veo 3, Imagen 4 và công cụ làm phim mới Flow
Các mô hình này có thể tạo hình ảnh, video và âm nhạc, giúp nhà sáng tạo hiện thực hóa thế giới mà họ tưởng tượng
Google DeepMind đã đồng thiết kế các công cụ này cùng nhà làm phim, nhạc sĩ và nghệ sĩ, đồng thời nhấn mạnh việc sử dụng AI có trách nhiệm

Veo 3: Tạo video nâng cao có kèm âm thanh

Veo 3 tạo video với chất lượng cao hơn Veo 2 và lần đầu tiên có thể tạo video bao gồm âm thanh như tiếng nền và lời thoại
Có thể tạo video dựa trên vật lý chân thực từ prompt bằng văn bản hoặc hình ảnh, đồng thời đồng bộ khẩu hình cũng rất chính xác
Hiện được cung cấp tại Mỹ cho người dùng gói Ultra thông qua ứng dụng Gemini, Flow và Vertex AI

Veo 2: Bổ sung tính năng dựa trên phản hồi của nhà sáng tạo

Veo 2 được bổ sung các tính năng sau dựa trên phản hồi từ nhà sáng tạo:
- Tạo video dựa trên tham chiếu: có thể nhập hình ảnh về nhân vật, phong cách, vật thể... để tạo video nhất quán
- Điều khiển camera: có thể thiết lập chuyển động camera như xoay, zoom, dolly
- Outpainting: có thể mở rộng khung hình để chuyển từ dọc sang ngang và mở rộng cảnh một cách tự nhiên
- Thêm và xóa vật thể: có thể chỉnh sửa tự nhiên với cả kích thước, bóng đổ và tương tác của đối tượng được phản ánh
Các tính năng này có thể dùng trong Flow và sẽ lần lượt được áp dụng vào Vertex AI API

Flow: Công cụ làm phim AI tối ưu cho Veo

Flow tích hợp Veo, Imagen và Gemini để cho phép thiết lập cảnh, nhân vật, phong cách... bằng ngôn ngữ tự nhiên và hiện thực hóa thành video
Được cung cấp cho người dùng gói AI Pro và Ultra tại Mỹ, và sẽ dần mở rộng sang các quốc gia khác

Imagen 4: Cải thiện độ phân giải, chi tiết và typography

Imagen 4 cung cấp mô tả texture tinh vi, hỗ trợ phong cách photorealistic và trừu tượng, cùng đầu ra độ phân giải 2K
Khả năng typography cũng được cải thiện, giúp thuận lợi hơn cho việc tạo thiệp, poster và truyện tranh
Có thể sử dụng trong ứng dụng Gemini, Vertex AI, Slides, Docs, Whisk..., và phiên bản nhanh hơn tới 10 lần cũng sẽ sớm ra mắt

Lyria 2: Tạo nhạc tương tác

Đây là mô hình nằm trong Music AI Sandbox dành cho nhạc sĩ, hỗ trợ thử nghiệm sáng tạo và khám phá âm nhạc mới
Có thể dùng trong YouTube Shorts, Vertex AI, MusicFX DJ..., đồng thời cũng hỗ trợ tương tác thời gian thực qua API và AI Studio

SynthID giúp nhận diện nội dung do AI tạo ra

SynthID, bắt đầu từ năm 2023, đã chèn watermark vào hơn 10 tỷ nội dung do AI tạo ra như hình ảnh, video, âm thanh và văn bản
Thông qua SynthID Detector mới ra mắt, người dùng cũng có thể xác định liệu nội dung có được tạo ra hay không
Google đang tiếp tục thiết kế công cụ có trách nhiệm và hợp tác công khai để AI tạo sinh được sử dụng theo hướng hỗ trợ sáng tạo

1 bình luận

GN⁺ 2025-05-21

Ý kiến trên Hacker News

Sau khi tự thử nghiệm, tôi thấy hiệu năng của Imagen 4 không cải thiện nhiều so với Imagen 3, và độ chính xác theo prompt chỉ khoảng 60%
- Tôi thắc mắc vì sao khi thành công thì chỉ thử một lần, còn với các mô hình thất bại lại lặp lại nhiều lần
  Tôi muốn biết bài test này đang đánh giá “mô hình có thể làm đúng hay không” hay “mô hình thường xuyên làm đúng đến mức nào”
  Tôi nghĩ sẽ hợp lý hơn nếu đặt ra tỷ lệ thành công hoặc ngưỡng tỷ lệ thành công, rồi cố định số lần thử để đo lường
- Trong "The Yarrctic Circle", OpenAI 4o đã thắng, nhưng lại không cầm cutlass; hình ảnh tuy đẹp nhưng góc nhìn vô lý, và về mặt giải phẫu thì đôi chân dài hơn thực tế tới 150%, tức là sai hoàn toàn ở những khía cạnh cơ bản
  Tôi nghĩ đây là một nguồn tài liệu thú vị để thấy được giới hạn hiện tại của các mô hình
- Tôi cho rằng tác phẩm thắng cuộc của "Not the Bees" có bàn tay khác hẳn với người lái xe, nên khó có thể xem là thực sự vượt qua bài kiểm tra
- Tôi thắc mắc làm sao xác minh được là đang dùng Imagen 4 hay Imagen 3
  Gemini không cho biết mô hình đang dùng là gì, nên tôi cũng tự hỏi có phải họ dùng Vertex AI không
- Đề xuất nâng độ khó của tiêu chí kiểm thử bằng các ví dụ khó hơn
  - Ly rượu vang đầy
  - Kim đồng hồ chỉ 10 giờ và 2 giờ (tức là không phải chiếc đồng hồ tạo thành chữ V)
  - Hướng dẫn lắp kệ IKEA 9 bước
  - Mọi loại thể dục dụng cụ hay nhào lộn
Giờ có cảm giác các công cụ dành cho giới chuyên nghiệp đã vượt xa các bản mã nguồn mở
Các model miễn phí như wan hay hunyuan vẫn rất tốt, nhưng kết quả mới nhất từ Google hay Runway có vẻ nhỉnh hơn một bậc
Đặc biệt, các công cụ chỉnh sửa—như chuyển động, hướng, cắt cảnh, chèn âm thanh—là điểm khác biệt lớn hơn cả năng lực tạo sinh thuần túy
Có cảm giác các tập đoàn lớn đang nhắm rất rõ vào mảng agency quảng cáo/Hollywood
Tôi kỳ vọng ngày những công cụ này trở thành tiêu chuẩn ngành sẽ đến sớm hơn tưởng tượng
Có lẽ vẫn cần thêm một hai thế hệ phát triển nữa, nhưng chất lượng đầu ra đã rất ấn tượng
- Dù mã nguồn mở kém tiện dụng hơn, tôi nghĩ trong môi trường chuyên nghiệp, lợi thế lớn là có thể thêm các yếu tố mong muốn vào giữa quá trình tạo sinh bằng custom lora, control net và các tính năng tương tự
  Việc tạo sinh cục bộ cũng giúp tránh được khâu kiểm duyệt nội dung của các nền tảng vốn có thể quá khắt khe
  Comfy UI tuy khó với người mới, nhưng thay vì dùng các công cụ đóng thiếu quyền kiểm soát, tôi nghĩ nhiều kênh YouTube nhỏ hoặc các đơn vị sản xuất quy mô nhỏ vẫn sẽ chọn công cụ mã nguồn mở
- Sự tồn tại thực sự của GAI chỉ được xác nhận khi khác biệt về chất lượng biến mất
  Khi đó sẽ có nghĩa là có thể lập trình bất cứ thứ gì ở bất kỳ mức chất lượng nào
- Có ý kiến cho rằng mục tiêu thực sự của việc nhắm vào agency/Hollywood là lĩnh vực quảng cáo
- Phân tích tiến độ phát triển của đội Tencent Hunyuan
  Hunyuan Image 2.0 đã được công bố, với chất lượng và tốc độ text-to-image/image-to-image rất ấn tượng
  Họ đã làm ra một ứng dụng canvas vẽ 2D thời gian thực, gần như tái hiện toàn bộ những gì Krea từng cung cấp
  Khá tiếc là lần này lại là closed source, không như trước
  Hunyuan 3D 2.0 cũng tốt, nhưng 3D 2.5 thì vẫn chưa được công bố
  Hunyuan Video không có nhiều tiến triển so với Wan, nhưng gần đây Wan đang thu hút chú ý nhờ VACE, một lớp multimodal/editing
  Cộng đồng Comfy cũng được cho là đang tạo ra nhiều kết quả ấn tượng với VACE và Wan
Lý do phim indie kinh phí thấp vẫn có thể khiến khán giả đắm chìm, cười và xúc động dù phần dàn dựng hay diễn xuất còn thiếu là vì chúng giữ được sự nhất quán về chất lượng trên toàn bộ tác phẩm
Ngược lại, nội dung video AI tuy từng clip riêng lẻ rất hoàn chỉnh, nhưng khi nối nhiều clip thành một tác phẩm thì vẫn còn hạn chế trong việc duy trì sự nhập tâm
Với những nội dung có thể giữ được "sợi chỉ đỏ" của câu chuyện bằng phần mở đầu hoặc âm thanh thì video AI có thể làm được, nhưng hiện tại vẫn chưa đến mức Hollywood phải lo lắng
Cũng có nhắc đến những yếu tố như hạt phim và lý do định dạng 24p vẫn là một lựa chọn nghệ thuật
- Giới thiệu kênh YouTube NeuralViz
  Kênh này đang xây dựng một cinematic universe bằng video AI với 180.000 người đăng ký, và là một chương trình cực kỳ thú vị
  Lập luận rằng “việc ghép nhiều clip AI để tạo cảm giác nhập tâm còn là chuyện rất xa” được cho là đã bị thực tế bác bỏ
- Tác động của nội dung video AI đối với Hollywood được ví như tác động của nhiếp ảnh đối với hội họa
  Video AI-native có thể rất khác với cấu trúc ba hồi truyền thống của Hollywood, nhưng nếu người xem dịch chuyển sang đó thì Hollywood cuối cùng cũng sẽ phải đi theo con đường ấy
- Đây đã là thời đại có quá nhiều nội dung hay để xem
  Vấn đề thực sự không phải chất lượng nội dung mà là sức mạnh phân phối và phát hành; vì thế có ý kiến chỉ trích rằng Google, một trong những nhà phân phối văn hóa lớn nhất thế giới, đang phớt lờ đúng chỗ mà giới nghệ thuật đang đau đớn và lại dồn lực vào hướng khác
Có vẻ như giờ đã đến lúc hầu như ai cũng từng xem video do AI tạo ra mà vẫn nghĩ đó là thật
Những ví dụ quá lộ thì dễ nhận ra, nhưng càng tiếp xúc nhiều thì video AI càng đi vào đời sống một cách tự nhiên hơn
Google đang hợp tác với Primordial Soup, studio AI của Darren Aronofsky
Trong cuộc đình công của SAG-AFTRA đã có bàn về việc cấm dùng AI ở Hollywood, nên tôi thắc mắc vì sao studio mới này lại không bị ảnh hưởng
- Vì Primordial Soup là công ty không liên quan đến công đoàn nên không bị ràng buộc bởi thỏa thuận đình công
  Do đó họ không thể thuê diễn viên thuộc công đoàn, nhưng với tính chất công ty này thì có vẻ không phải vấn đề lớn
Trình độ kỹ thuật của lần này thật sự đáng kinh ngạc; khả năng đồng bộ audio và video cực kỳ xuất sắc, và phần hội thoại cũng ấn tượng ngang với các voice model chuyên biệt
Tôi cảm thấy hơi uncanny valley ở video con cú và video người già, còn video gấp giấy thì cho cảm giác hơi đe dọa và hung hăng
- Có thể cảm nhận rõ mức tiến bộ khổng lồ trong 20 năm qua
  Trước đây, để tạo ra những video gây cảm giác kỳ lạ như vậy cần cả một đội ngũ phát triển lớn, nghệ sĩ, cụm siêu máy tính và thời gian render dài; còn bây giờ chỉ cần một cụm lớn và thời gian suy luận
- Ở phiên bản nhân vật đan len ở phía dưới trang thì cảm giác tốt hơn hẳn, và có một nhận định là càng rời xa hiện thực một chút thì càng dễ tránh uncanny valley
- Video con cú có kiểu “độ bóng” rất đặc trưng của ảnh AI, còn video người già thì được đánh giá là cực kỳ ấn tượng
- Với video gấp giấy origami, tôi có cảm giác âm thanh còn chân thực hơn cả hình ảnh, như thể mỗi người đang nhìn thấy chính mình được phản chiếu trong đó
Thật sự khâm phục đội ngũ phát triển vì công nghệ đáng kinh ngạc này
Đồng thời cũng có nhiều tiếc nuối
Mong rằng AI sẽ tự động hóa nhiều công việc không sáng tạo hơn, thay vì để các nhà sáng tạo bị chôn vùi trong lũ nội dung AI
- Có giải thích rằng việc tự động hóa công việc không sáng tạo rồi cũng sẽ đến, nhưng nó khó hơn và mất nhiều thời gian hơn vì cần độ chính xác cao hơn
  Hiện độ chính xác của AI mới ở mức 80%, nhưng việc lấp đầy 20% còn lại là một hành trình cực kỳ gian nan
  Dù đến nơi bằng máy bay nhanh đến đâu, bước cuối cùng để hoàn thiện vẫn có thể tắc nghẽn như giao thông
- Mỗi khi nói đến chuyện này thì thấy rất nhiều gatekeeping, nhưng cũng có ý kiến nhìn tích cực rằng AI sẽ giúp nhiều người tiếp cận sáng tạo hơn
  Có sự kỳ vọng vào những khả năng sáng tạo mới mà AI sẽ mở ra trong tương lai
- Có ý kiến cho rằng dữ liệu cho các công việc không sáng tạo khó thu thập hơn nếu không có sự đồng ý của người khác
- Trước đây, các tác phẩm nghệ thuật, đặc biệt là nghệ thuật số, không được phân phối dễ dàng như vậy
  Âm nhạc cũng thế; trước công nghệ ghi âm thì chỉ có biểu diễn trực tiếp mới là thật
  Có góc nhìn cho rằng kỷ nguyên số hiện nay có khi lại là một thời kỳ kỳ lạ trong lịch sử nghệ thuật
- Có người nói “AI đang chôn vùi các nhà sáng tạo trong đống tác phẩm do AI tạo ra”, nhưng việc tinh chỉnh prompt cho AI cũng là một dạng sáng tạo
  Trong khi đó, việc ngồi hàng chục giờ để thủ công dựng model và rigging mới là lao động kém sáng tạo hơn
Tôi thấy thú vị với lập luận rằng mô hình AI tạo ra tính sáng tạo để nghệ sĩ hiện thực hóa tầm nhìn sáng tạo của mình
Trong thời đại mới, vai trò đang chuyển từ “làm ra thứ gì đó” sang “gợi ra thứ gì đó”, kéo theo những suy nghĩ về bản chất của sáng tạo: sáng tác bằng text prompt có thật sự là “tầm nhìn” hay không, và liệu con đường của nghệ thuật có còn tồn tại khi không có “quá trình”
Khái niệm sáng tạo dường như đang được tái định nghĩa một cách tinh vi
- Có chỉ trích rằng trong quá trình tái định nghĩa đó, 2-3 nền tảng lớn sẽ độc chiếm tư liệu sản xuất
  Đây là một sự tái định nghĩa cực kỳ tiện lợi cho họ
- Nếu tin rằng một tầm nhìn sáng tạo có thể được cô đọng vào một prompt duy nhất, thì chẳng khác nào cho rằng bản thân trí tưởng tượng cũng có giới hạn
  Bản chất của nghệ thuật, đầu ra, quá trình và mối quan hệ giữa chúng là chủ đề có thể tranh luận mãi không hết
  Có một phép so sánh thú vị rằng điều này về bản chất giống như nhầm lẫn giữa con trỏ của cấu trúc dữ liệu với chính dữ liệu
- Text prompt rất ngắn, nhưng khi khả năng tuân theo prompt được cải thiện thì thay đổi là điều không thể tránh
  Cũng như kỹ sư phần mềm hiện thực hóa tầm nhìn qua source code, lĩnh vực sáng tạo rồi cũng sẽ thay đổi theo hướng đó
- Có ý kiến cho rằng các công ty LLM đang cố khiến mọi người phụ thuộc vào dịch vụ của họ để có thể lấy phần lợi nhuận trung gian trong mọi hoạt động kinh tế
- Opera/kịch/sản phẩm nghệ thuật thủ công cũng từng trải qua quá trình tương tự, và cuối cùng con người dần chuyển sang những thứ dễ tiếp cận và dễ tiêu thụ hơn
  (nhạc số/TV/nghệ thuật số)
  Phân tích cho rằng rồi sẽ chỉ còn một nhóm nhỏ xem cách làm trước đây là nghệ thuật cao cấp
Tôi tò mò không biết có ai đã thực sự dùng Veo3 chưa
Video demo thì rất ấn tượng, nhưng trải nghiệm thực tế của tôi với Sora lại khá thất vọng và kiểu hên xui, lúc được lúc không

Google công bố Veo 3, Imagen 4 và Flow, công cụ mới cho sản xuất phim

Khơi mở sức sáng tạo với các mô hình và công cụ truyền thông tạo sinh mới

Veo 3: Tạo video nâng cao có kèm âm thanh

Veo 2: Bổ sung tính năng dựa trên phản hồi của nhà sáng tạo

Flow: Công cụ làm phim AI tối ưu cho Veo

Imagen 4: Cải thiện độ phân giải, chi tiết và typography

Lyria 2: Tạo nhạc tương tác

SynthID giúp nhận diện nội dung do AI tạo ra

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News