- Google DeepMind công bố Veo 3, Imagen 4 và Flow, mở rộng đột phá các công cụ tạo video, hình ảnh và làm phim
- Veo 3 cung cấp các khả năng như tạo video kèm âm thanh, mô phỏng vật lý chân thực và đồng bộ khẩu hình
- Imagen 4 có lợi thế cho việc tạo thành phẩm nhờ mô tả chi tiết tinh xảo và khả năng xử lý typography được cải thiện
- Flow là công cụ sáng tạo mới tích hợp nhiều mô hình để hiện thực hóa sản xuất phim dựa trên ngôn ngữ tự nhiên
- Mọi nội dung được tạo ra đều được gắn watermark SynthID, đồng thời công cụ phát hiện cũng được phát hành để tăng cường tính minh bạch
Khơi mở sức sáng tạo với các mô hình và công cụ truyền thông tạo sinh mới
- Google đã công bố các mô hình truyền thông tạo sinh mới nhất là Veo 3, Imagen 4 và công cụ làm phim mới Flow
- Các mô hình này có thể tạo hình ảnh, video và âm nhạc, giúp nhà sáng tạo hiện thực hóa thế giới mà họ tưởng tượng
- Google DeepMind đã đồng thiết kế các công cụ này cùng nhà làm phim, nhạc sĩ và nghệ sĩ, đồng thời nhấn mạnh việc sử dụng AI có trách nhiệm
Veo 3: Tạo video nâng cao có kèm âm thanh
- Veo 3 tạo video với chất lượng cao hơn Veo 2 và lần đầu tiên có thể tạo video bao gồm âm thanh như tiếng nền và lời thoại
- Có thể tạo video dựa trên vật lý chân thực từ prompt bằng văn bản hoặc hình ảnh, đồng thời đồng bộ khẩu hình cũng rất chính xác
- Hiện được cung cấp tại Mỹ cho người dùng gói Ultra thông qua ứng dụng Gemini, Flow và Vertex AI
Veo 2: Bổ sung tính năng dựa trên phản hồi của nhà sáng tạo
-
Veo 2 được bổ sung các tính năng sau dựa trên phản hồi từ nhà sáng tạo:
- Tạo video dựa trên tham chiếu: có thể nhập hình ảnh về nhân vật, phong cách, vật thể... để tạo video nhất quán
- Điều khiển camera: có thể thiết lập chuyển động camera như xoay, zoom, dolly
- Outpainting: có thể mở rộng khung hình để chuyển từ dọc sang ngang và mở rộng cảnh một cách tự nhiên
- Thêm và xóa vật thể: có thể chỉnh sửa tự nhiên với cả kích thước, bóng đổ và tương tác của đối tượng được phản ánh
-
Các tính năng này có thể dùng trong Flow và sẽ lần lượt được áp dụng vào Vertex AI API
Flow: Công cụ làm phim AI tối ưu cho Veo
- Flow tích hợp Veo, Imagen và Gemini để cho phép thiết lập cảnh, nhân vật, phong cách... bằng ngôn ngữ tự nhiên và hiện thực hóa thành video
- Được cung cấp cho người dùng gói AI Pro và Ultra tại Mỹ, và sẽ dần mở rộng sang các quốc gia khác
Imagen 4: Cải thiện độ phân giải, chi tiết và typography
- Imagen 4 cung cấp mô tả texture tinh vi, hỗ trợ phong cách photorealistic và trừu tượng, cùng đầu ra độ phân giải 2K
- Khả năng typography cũng được cải thiện, giúp thuận lợi hơn cho việc tạo thiệp, poster và truyện tranh
- Có thể sử dụng trong ứng dụng Gemini, Vertex AI, Slides, Docs, Whisk..., và phiên bản nhanh hơn tới 10 lần cũng sẽ sớm ra mắt
Lyria 2: Tạo nhạc tương tác
- Đây là mô hình nằm trong Music AI Sandbox dành cho nhạc sĩ, hỗ trợ thử nghiệm sáng tạo và khám phá âm nhạc mới
- Có thể dùng trong YouTube Shorts, Vertex AI, MusicFX DJ..., đồng thời cũng hỗ trợ tương tác thời gian thực qua API và AI Studio
SynthID giúp nhận diện nội dung do AI tạo ra
- SynthID, bắt đầu từ năm 2023, đã chèn watermark vào hơn 10 tỷ nội dung do AI tạo ra như hình ảnh, video, âm thanh và văn bản
- Thông qua SynthID Detector mới ra mắt, người dùng cũng có thể xác định liệu nội dung có được tạo ra hay không
- Google đang tiếp tục thiết kế công cụ có trách nhiệm và hợp tác công khai để AI tạo sinh được sử dụng theo hướng hỗ trợ sáng tạo
1 bình luận
Ý kiến trên Hacker News
Sau khi tự thử nghiệm, tôi thấy hiệu năng của Imagen 4 không cải thiện nhiều so với Imagen 3, và độ chính xác theo prompt chỉ khoảng 60%
Tôi muốn biết bài test này đang đánh giá “mô hình có thể làm đúng hay không” hay “mô hình thường xuyên làm đúng đến mức nào”
Tôi nghĩ sẽ hợp lý hơn nếu đặt ra tỷ lệ thành công hoặc ngưỡng tỷ lệ thành công, rồi cố định số lần thử để đo lường
Tôi nghĩ đây là một nguồn tài liệu thú vị để thấy được giới hạn hiện tại của các mô hình
Gemini không cho biết mô hình đang dùng là gì, nên tôi cũng tự hỏi có phải họ dùng Vertex AI không
Giờ có cảm giác các công cụ dành cho giới chuyên nghiệp đã vượt xa các bản mã nguồn mở
Các model miễn phí như wan hay hunyuan vẫn rất tốt, nhưng kết quả mới nhất từ Google hay Runway có vẻ nhỉnh hơn một bậc
Đặc biệt, các công cụ chỉnh sửa—như chuyển động, hướng, cắt cảnh, chèn âm thanh—là điểm khác biệt lớn hơn cả năng lực tạo sinh thuần túy
Có cảm giác các tập đoàn lớn đang nhắm rất rõ vào mảng agency quảng cáo/Hollywood
Tôi kỳ vọng ngày những công cụ này trở thành tiêu chuẩn ngành sẽ đến sớm hơn tưởng tượng
Có lẽ vẫn cần thêm một hai thế hệ phát triển nữa, nhưng chất lượng đầu ra đã rất ấn tượng
Việc tạo sinh cục bộ cũng giúp tránh được khâu kiểm duyệt nội dung của các nền tảng vốn có thể quá khắt khe
Comfy UI tuy khó với người mới, nhưng thay vì dùng các công cụ đóng thiếu quyền kiểm soát, tôi nghĩ nhiều kênh YouTube nhỏ hoặc các đơn vị sản xuất quy mô nhỏ vẫn sẽ chọn công cụ mã nguồn mở
Khi đó sẽ có nghĩa là có thể lập trình bất cứ thứ gì ở bất kỳ mức chất lượng nào
Hunyuan Image 2.0 đã được công bố, với chất lượng và tốc độ text-to-image/image-to-image rất ấn tượng
Họ đã làm ra một ứng dụng canvas vẽ 2D thời gian thực, gần như tái hiện toàn bộ những gì Krea từng cung cấp
Khá tiếc là lần này lại là closed source, không như trước
Hunyuan 3D 2.0 cũng tốt, nhưng 3D 2.5 thì vẫn chưa được công bố
Hunyuan Video không có nhiều tiến triển so với Wan, nhưng gần đây Wan đang thu hút chú ý nhờ VACE, một lớp multimodal/editing
Cộng đồng Comfy cũng được cho là đang tạo ra nhiều kết quả ấn tượng với VACE và Wan
Lý do phim indie kinh phí thấp vẫn có thể khiến khán giả đắm chìm, cười và xúc động dù phần dàn dựng hay diễn xuất còn thiếu là vì chúng giữ được sự nhất quán về chất lượng trên toàn bộ tác phẩm
Ngược lại, nội dung video AI tuy từng clip riêng lẻ rất hoàn chỉnh, nhưng khi nối nhiều clip thành một tác phẩm thì vẫn còn hạn chế trong việc duy trì sự nhập tâm
Với những nội dung có thể giữ được "sợi chỉ đỏ" của câu chuyện bằng phần mở đầu hoặc âm thanh thì video AI có thể làm được, nhưng hiện tại vẫn chưa đến mức Hollywood phải lo lắng
Cũng có nhắc đến những yếu tố như hạt phim và lý do định dạng 24p vẫn là một lựa chọn nghệ thuật
Kênh này đang xây dựng một cinematic universe bằng video AI với 180.000 người đăng ký, và là một chương trình cực kỳ thú vị
Lập luận rằng “việc ghép nhiều clip AI để tạo cảm giác nhập tâm còn là chuyện rất xa” được cho là đã bị thực tế bác bỏ
Video AI-native có thể rất khác với cấu trúc ba hồi truyền thống của Hollywood, nhưng nếu người xem dịch chuyển sang đó thì Hollywood cuối cùng cũng sẽ phải đi theo con đường ấy
Vấn đề thực sự không phải chất lượng nội dung mà là sức mạnh phân phối và phát hành; vì thế có ý kiến chỉ trích rằng Google, một trong những nhà phân phối văn hóa lớn nhất thế giới, đang phớt lờ đúng chỗ mà giới nghệ thuật đang đau đớn và lại dồn lực vào hướng khác
Có vẻ như giờ đã đến lúc hầu như ai cũng từng xem video do AI tạo ra mà vẫn nghĩ đó là thật
Những ví dụ quá lộ thì dễ nhận ra, nhưng càng tiếp xúc nhiều thì video AI càng đi vào đời sống một cách tự nhiên hơn
Google đang hợp tác với Primordial Soup, studio AI của Darren Aronofsky
Trong cuộc đình công của SAG-AFTRA đã có bàn về việc cấm dùng AI ở Hollywood, nên tôi thắc mắc vì sao studio mới này lại không bị ảnh hưởng
Do đó họ không thể thuê diễn viên thuộc công đoàn, nhưng với tính chất công ty này thì có vẻ không phải vấn đề lớn
Trình độ kỹ thuật của lần này thật sự đáng kinh ngạc; khả năng đồng bộ audio và video cực kỳ xuất sắc, và phần hội thoại cũng ấn tượng ngang với các voice model chuyên biệt
Tôi cảm thấy hơi uncanny valley ở video con cú và video người già, còn video gấp giấy thì cho cảm giác hơi đe dọa và hung hăng
Trước đây, để tạo ra những video gây cảm giác kỳ lạ như vậy cần cả một đội ngũ phát triển lớn, nghệ sĩ, cụm siêu máy tính và thời gian render dài; còn bây giờ chỉ cần một cụm lớn và thời gian suy luận
Thật sự khâm phục đội ngũ phát triển vì công nghệ đáng kinh ngạc này
Đồng thời cũng có nhiều tiếc nuối
Mong rằng AI sẽ tự động hóa nhiều công việc không sáng tạo hơn, thay vì để các nhà sáng tạo bị chôn vùi trong lũ nội dung AI
Hiện độ chính xác của AI mới ở mức 80%, nhưng việc lấp đầy 20% còn lại là một hành trình cực kỳ gian nan
Dù đến nơi bằng máy bay nhanh đến đâu, bước cuối cùng để hoàn thiện vẫn có thể tắc nghẽn như giao thông
Có sự kỳ vọng vào những khả năng sáng tạo mới mà AI sẽ mở ra trong tương lai
Âm nhạc cũng thế; trước công nghệ ghi âm thì chỉ có biểu diễn trực tiếp mới là thật
Có góc nhìn cho rằng kỷ nguyên số hiện nay có khi lại là một thời kỳ kỳ lạ trong lịch sử nghệ thuật
Trong khi đó, việc ngồi hàng chục giờ để thủ công dựng model và rigging mới là lao động kém sáng tạo hơn
Tôi thấy thú vị với lập luận rằng mô hình AI tạo ra tính sáng tạo để nghệ sĩ hiện thực hóa tầm nhìn sáng tạo của mình
Trong thời đại mới, vai trò đang chuyển từ “làm ra thứ gì đó” sang “gợi ra thứ gì đó”, kéo theo những suy nghĩ về bản chất của sáng tạo: sáng tác bằng text prompt có thật sự là “tầm nhìn” hay không, và liệu con đường của nghệ thuật có còn tồn tại khi không có “quá trình”
Khái niệm sáng tạo dường như đang được tái định nghĩa một cách tinh vi
Đây là một sự tái định nghĩa cực kỳ tiện lợi cho họ
Bản chất của nghệ thuật, đầu ra, quá trình và mối quan hệ giữa chúng là chủ đề có thể tranh luận mãi không hết
Có một phép so sánh thú vị rằng điều này về bản chất giống như nhầm lẫn giữa con trỏ của cấu trúc dữ liệu với chính dữ liệu
Cũng như kỹ sư phần mềm hiện thực hóa tầm nhìn qua source code, lĩnh vực sáng tạo rồi cũng sẽ thay đổi theo hướng đó
(nhạc số/TV/nghệ thuật số)
Phân tích cho rằng rồi sẽ chỉ còn một nhóm nhỏ xem cách làm trước đây là nghệ thuật cao cấp
Tôi tò mò không biết có ai đã thực sự dùng Veo3 chưa
Video demo thì rất ấn tượng, nhưng trải nghiệm thực tế của tôi với Sora lại khá thất vọng và kiểu hên xui, lúc được lúc không