Meta Movie Gen - tiêu chuẩn mới cho nội dung AI nhập vai
(ai.meta.com)- Meta Movie Gen là một nghiên cứu mô hình media AI xử lý trong cùng một nơi việc tạo video·âm thanh bằng nhập văn bản đơn giản, chỉnh sửa video hiện có và chuyển ảnh cá nhân thành video
- Tạo video hỗ trợ kết quả chất lượng cao dài và nhiều tỷ lệ khung hình, Meta nhấn mạnh đây là tính năng đầu tiên trong ngành
- Với video hiện có, có thể áp dụng thay đổi phong cách, chuyển cảnh và chỉnh sửa chính xác bằng văn bản, cho phép các biến đổi như đổi đèn lồng thành những bong bóng xà phòng bay lơ lửng trên không
- Khi đưa ảnh và văn bản vào cùng nhau, hệ thống tạo video cá nhân hóa giữ nguyên danh tính và chuyển động của người đó, với các ví dụ như trong phòng thí nghiệm, selfie, miền Viễn Tây và cảnh DJ
- Có thể tạo hoặc mở rộng hiệu ứng âm thanh, nhạc nền và cả soundtrack hoàn chỉnh, giúp quy trình sản xuất video nối tiếp từ tạo hình ảnh sang dàn dựng âm thanh
Các tác vụ mà Movie Gen xử lý
- Meta Movie Gen là mô hình nền tảng media AI mới nhất được Meta công bố như một thành quả nghiên cứu
- Nhiều tác vụ sản xuất được xử lý trong một luồng nhập văn bản duy nhất
- Tạo video tùy biến
- Tạo âm thanh
- Chỉnh sửa video hiện có
- Chuyển ảnh cá nhân thành video độc đáo
- Meta giới thiệu Movie Gen như một tiêu chuẩn mới cho nội dung AI nhập vai
Tạo video dựa trên văn bản
- Movie Gen tạo video chất lượng cao dài với nhiều tỷ lệ khung hình từ đầu vào văn bản
- Meta cho biết đây là tính năng đầu tiên trong ngành
- Prompt có thể chỉ định cùng lúc cảnh, chủ thể, hành động, nền và điều kiện ánh sáng
- Một con lười đeo kính râm hồng nằm trên phao donut và cầm đồ uống nhiệt đới
- Một người đàn ông cầm dụng cụ phun lửa ở cả hai tay, tạo chuyển động hình tròn bên bờ biển
- Một con koala lướt sóng trong khi ôm tấm ván lướt màu vàng
- Một hồn ma bằng vải trắng nhảy múa trước gương trên gác mái phủ bụi
- Một con khỉ mặt đỏ chơi với chiếc thuyền buồm nhỏ trong suối nước nóng
Chỉnh sửa video hiện có bằng văn bản
- Movie Gen hỗ trợ chỉnh sửa chính xác cho video hiện có bằng đầu vào văn bản
- Phạm vi áp dụng bao gồm thay đổi phong cách, chuyển cảnh và chỉnh sửa chi tiết
- Trong ví dụ, đèn lồng được biến đổi thành những bong bóng xà phòng bay lên không trung
Tạo video tùy biến từ ảnh cá nhân
- Khi người dùng tải ảnh của mình lên và nhập một đoạn văn bản ngắn, Movie Gen sẽ tạo video cá nhân hóa
- Kết quả được tạo theo cách giữ nguyên danh tính và chuyển động của người đó
- Các cảnh ví dụ bao gồm nhiều môi trường và hành động khác nhau
- Một người đàn ông làm thí nghiệm trong phòng thí nghiệm có giấy dán tường cầu vồng
- Một phụ nữ vẽ lên tấm canvas trên giá vẽ trong căn phòng ốp gỗ
- Một người đàn ông và chó beagle chụp selfie ở sân patio phía sau nhà
- Một người đàn ông đội mũ vành rộng và mặc áo khoác nâu cầm trà trong sa mạc
- Một nữ cao bồi cưỡi ngựa trắng trong thị trấn Viễn Tây cổ
- Một nữ DJ cùng một con báo gêpa đang chơi đĩa nhạc trên rooftop ở LA
Tạo âm thanh phù hợp với video
- Movie Gen có thể tạo hoặc mở rộng hiệu ứng âm thanh, nhạc nền và toàn bộ soundtrack từ đầu vào văn bản
- Âm thanh được tạo ra được thiết kế để phản ánh tông, nhịp điệu và phong cách của video
- Các ví dụ đầu vào chỉ định đồng thời âm thanh cụ thể và bầu không khí âm nhạc
- Cảnh mưa đổ xuống vách đá và con người trong khi nhạc nền đang phát
- Tiếng lá xào xạc, tiếng cành cây gãy và nhạc giao hưởng
- Cảnh động cơ ATV gầm rú tăng tốc cùng tiếng guitar
- Tiếng bánh xe skateboard quay và âm va chạm khi tiếp đất trên bê tông
- Một bản nhạc giao hưởng gợi cảm giác kỳ diệu
- Một tiếng huýt sáo, tiếp theo là vụ nổ sắc gọn và tiếng crackling lớn
Hợp tác với nhà sáng tạo và ngành giải trí
- Meta hợp tác với hãng sản xuất từng đoạt giải Blumhouse thông qua Creative Industry Feedback Program
- Blumhouse đã chọn các nhà làm phim sẽ tạo video trước khi Movie Gen ra mắt công khai
- Các nhà sáng tạo được yêu cầu dùng bộ công cụ media AI để tạo ra các kết quả mà họ thấy thú vị hoặc hữu ích
- Video của đạo diễn Aneesh Chaganty có tiêu đề
"i h8 ai"
Ví dụ công khai và tài liệu tham khảo
- Meta cho biết các nhà sáng tạo đang thay đổi cách kể chuyện với Movie Gen
- Các ví dụ trên Instagram bao gồm những tài khoản và prompt sau
- @paigepiskin: bàn tay cầm một con tarantula mặt mèo lông xù nhỏ, chỉnh sửa biến chó thành rồng con màu xám
- @ka5sh: người ngoài hành tinh hoạt hình màu xanh lá đi giày hề hồng, chỉnh sửa biến người thành người ngoài hành tinh xanh đội mũ bucket đỏ
- @girls: cô gái đi bộ trên con đường cây mùa thu, hai phụ nữ uống cà phê trước bức tường treo đồ trang trí Halloween
- @memezar: trận quyền anh giữa hà mã con và gorilla cơ bắp
- @ravivora: thêm sương mù dày ở tiền cảnh, một phụ nữ nổi lên mặt nước giữa những con sứa
- Tài liệu bổ sung gồm bài nghiên cứu Movie Gen, trong đó Meta cho biết họ đã thiết lập benchmark ngành mới trong tạo media AI
- Các bài liên quan được liên kết gồm hợp tác với ngành giải trí và nhà sáng tạo và blog về kỷ nguyên sáng tạo nội dung dựa trên AI
1 bình luận
Ý kiến trên Hacker News
Tính năng chỉnh sửa video bằng văn bản là thú vị nhất. Có vẻ có thể dùng ngay cho phim indie không có ngân sách CGI.
Kiểu như trước tiên quay ở ghế lounge như một cảnh trong rạp chiếu phim, rồi sau đó biến nó trông giống rạp chiếu phim.
Nếu dùng đúng cách, nó sẽ nâng chất lượng phim indie hoặc phim ngắn, và giới hạn chỉ còn là sức sáng tạo.
Dù sao thì mô hình hẳn đã được huấn luyện trên những diễn viên giỏi hơn dàn cast indie.
Đây không phải phim mà là clip. Ngành ảnh/video stock chắc chắn đang lo lắng, và họ cũng sẽ kiện vì khả năng các mô hình này được huấn luyện bằng tác phẩm của họ là 100%.
Nếu một ngày nào đó công nghệ này làm ra phim, có lẽ kết quả sẽ cực kỳ tầm thường, trở thành giá trị trung bình của mọi thứ từng được tạo ra, giống như những gì các mô hình văn bản, hình ảnh, âm nhạc tạo ra.
Sau đó tiếp tục tinh chỉnh cảnh, lưu lại rồi chuyển sang cảnh tiếp theo. Nếu AI có thể nối tiếp hoạt ảnh, thì khi phát triển hơn, tôi không thấy lý do gì nó không thể tái hiện trung thành một mô hình đã cho.
Tôi không biết đã có phim dài nào ra mắt hoặc đang được sản xuất chưa.
Không muốn nói điều này, nhưng với tình trạng hiện nay, nếu AI tiếp tục tăng trưởng như bây giờ, khả năng cao các công ty công nghệ sẽ thấm vào mọi nơi và trở nên cực kỳ quyền lực.
Tôi không hiểu tại sao có quá nhiều website về cơ bản là HTML tĩnh mà vẫn làm điện thoại giật lag như vậy.
Video trông rất ấn tượng, nhưng nếu điện thoại cứ 2 giây lại khựng thì không thể đọc bài liên quan một cách thoải mái được.
Khi cuộn trang, một số phần văn bản biến mất rồi bật ra lại; không phải hoạt ảnh theo cuộn mà gần như ngẫu nhiên. Cảm giác như có thứ gì đó chặn vòng lặp render của trình duyệt, khiến nó không theo kịp việc vẽ văn bản thật. Với một trang đơn giản thế này thì đó là bug vô lý, nhưng nếu họ dùng React ở đây thì giờ tôi nghĩ chuyện gì cũng có thể xảy ra.
Con người phụ thuộc quá mức vào đầu vào thị giác và giải trí thị giác. Nhưng những hình ảnh đó ngày càng có cảm giác vô nghĩa, tất cả trông như nội dung rác kiểu đồ ăn nhanh.
Việc ngay cả trẻ mẫu giáo cũng có thể tạo ra bất cứ thứ gì chúng tưởng tượng trong vài giây dường như không làm mọi thứ tốt hơn hay tạo ra giá trị thực sự. Có lẽ chính đó lại là giá trị của công nghệ này. Có thể sẽ đến thời đại mà ta hoàn toàn quên đi những thứ như phim ảnh, nơi tưởng tượng câu chuyện bằng hình ảnh, vì chẳng ai còn quan tâm nữa.
Vậy mà người ta trả tiền cho nó, thật khó hiểu.
Từ nhiều năm trước tôi đã nói rằng cơn sóng thần nội dung tạo sinh sẽ nuốt chửng tiếng nói con người thật trên mạng. Kết quả là Internet có thể trên thực tế trở nên không dùng được cho bất cứ mục đích nào ngoài giải trí.
Ngay cả trong chat nhóm, tôi cũng thấy một người bạn dùng câu trả lời AI, còn thành viên khác không nhận ra và trả lời nghiêm túc. Những thứ như vậy khiến tôi thấy ghê tởm, và theo bản năng muốn tránh nội dung rác AI. Giờ tôi không biết tiếp theo là gì, nên đi đâu. Không rõ các diễn đàn “con người” sẽ bị đẩy vào những góc sâu hơn của Internet, hay mọi người sẽ thích gặp gỡ ngoài đời hơn.
Nếu Internet chết đi và mọi người quay về các cộng đồng nhỏ hơn, tôi không nghĩ đó là điều tệ nhất. Ngay từ đầu chúng ta cũng đâu tiến hóa để giao tiếp ở quy mô toàn cầu.
Bạn đã thấy đa số con người nói gì chưa? Nếu AI nói những điều thông minh hơn thì tôi ủng hộ.
Dạo này tôi thà dành thời gian ngoài đời hơn. Liệu còn nơi ẩn náu nào dựa trên Internet mà không có quảng cáo, câu kéo chú ý và nội dung rác AI không?
Khó tìm được cách diễn đạt hay hơn, nhưng mọi video đều có một độ bóng bẩy đặc trưng của AI tạo sinh mà nhìn là nhận ra ngay. Phần lộ rõ nhất nữa là những thay đổi rất nhỏ ở rìa, tạo ra các artifact mờ nhòe
Người ta cũng đã chứng minh rằng khi mọi người không kỳ vọng nội dung là AI, họ ít nhận ra đó là AI hơn nhiều. Nếu ở trạng thái mất cảnh giác, có lẽ tôi đã tin hầu hết các video này là thật 100%
Có rất nhiều Reel theo kiểu thêm đủ nhiễu vào nội dung bị ăn cắp để né các bộ lọc phát hiện nội dung. Trong phần bình luận thì gắn link đến các trang lừa đảo, ghi là “trang IMDB của nội dung này”
Dù vậy vấn đề ở rìa vẫn còn rất lớn
Người tiêu dùng trung bình có vẻ thích các đặc điểm đó hơn khi so sánh ảnh hoặc video, và dùng chúng như một heuristic để đánh giá chất lượng. Cũng từng có những so sánh giữa các mô hình tạo văn bản-thành-hình ảnh cũ và các thế hệ mới, trong đó lập luận rằng các mô hình cũ ít bị can thiệp hơn không thiên về đầu ra kitsch và phóng đại như các mô hình mới
Có thể tôi đang nhìn nhận quá khép kín, nhưng rốt cuộc ai muốn thứ này, và có ai đã nghĩ đến hậu quả của việc tạo rác AI dễ tiếp cận chưa?
Ngay hiện tại, nếu không biết phải nhìn ở đâu trên Internet thì gần như không thể tìm được nội dung chất lượng
Hai con tôi đều có thiên hướng sáng tạo rất mạnh, và chúng sợ rằng vì AI mà sẽ không thể kiếm sống bằng sáng tác. Nhưng gần đây tôi cũng có suy nghĩ khác
Suốt nhiều thập kỷ, chúng ta đã chi hàng tỷ, có lẽ hàng nghìn tỷ USD để cải thiện công nghệ giải trí. Khi AI có thể tạo ra bất kỳ hình thức giải trí nào có thể tưởng tượng được, có thể chúng ta sẽ bắt đầu thấy loại giải trí đó nhàm chán. Khi ấy, có lẽ ta sẽ thấy khám phá vũ trụ, mở rộng tri thức vật lý và hóa học, và cuộc chiến chống bệnh tật thú vị hơn nhiều. Vì chúng là thật. Theo cùng góc nhìn đó, nghệ thuật do con người tạo ra cũng có thể trở nên thú vị hơn vì nó là thật
Những người cuồng AI chủ yếu chỉ thấy trên mạng; thiếu cách diễn đạt hay hơn, họ trông như những người thật sự chìm rất sâu trong thế giới online, và không có kỹ năng, kiến thức hay năng lực để tự tạo nghệ thuật. Ngay khoảnh khắc ai đó nói “do AI tạo”, về mặt nghệ thuật nó lập tức mất sức hút. Điều này khác với việc dùng Photoshop hay công cụ nghệ thuật số. Việc lấy mức can thiệp tối thiểu của con người làm điểm mạnh, ngay khi được trình bày như nghệ thuật, với tôi đã không đứng vững từ xuất phát điểm. Tôi sẽ chờ xem viễn cảnh không tưởng về công nghệ này có thành hiện thực không, nhưng tôi đã thấy quá nhiều lần sự lạc quan nghẹt thở về công nghệ mới cuối cùng đông cứng lại thành thứ rác MBA nhạt nhẽo xoay quanh quảng cáo, nên tôi không mấy lạc quan
Tôi theo dõi nhiều cộng đồng AI tạo sinh mới trên Twitter, và trong các cộng đồng này có rất nhiều người thuộc ngành sáng tạo. Một người từng làm trong ngành quảng cáo gần đây chia sẻ câu chuyện về một buổi quay cho thương hiệu nổi tiếng. Soundstage, diễn viên, âm thanh, hóa trang, ánh sáng, v.v. được dựng trong 3 ngày, và khoảng 25 người làm việc suốt 3 ngày. Nhưng nếu tính cả tiền kỳ và hậu kỳ, phía sau là khoảng 3 tháng nỗ lực. Có thể nghĩ đến dựng phim, chỉnh màu, biên tập âm thanh, âm nhạc, v.v. Những đứa trẻ sáng tạo có thể sẽ sống trong một thế giới nơi chúng tự mình đạt được kết quả tương tự. Với một nhóm nhỏ, một người phụ trách nhân vật, một người phụ trách âm thanh, một người phụ trách kịch bản chẳng hạn. Không cần thiết bị thuê trị giá hàng chục nghìn USD và 25 chuyên gia, chỉ cần sự bền bỉ và các công cụ AI tạo sinh là có thể hiện thực hóa ý tưởng trong đầu. Tôi thật lòng tin rằng những công cụ mới này sẽ mở ra tiềm năng vượt xa những gì ta đang tưởng tượng hiện nay
Tác phẩm do AI tạo sẽ tìm được vị trí bên cạnh tác phẩm do con người tạo. Thậm chí nó có thể làm nổi bật khác biệt mà một chút tài năng con người tạo ra, qua đó cải thiện thị trường phim nghệ thuật và diễn xuất xuất sắc. Thứ gặp nguy không phải nghệ thuật mà là việc lặt vặt. Điều thay đổi là quy mô các tác phẩm dở do con người sản xuất, từng thuê hàng triệu người, sẽ dịch chuyển sang các tác phẩm dở do AI sản xuất, chỉ thuê vài chục người
Cái này thật sự ấn tượng. Tính nhất quán không gian và thời gian khó tin đến mức đáng kinh ngạc
Kết quả có thể dự đoán là như sau. Mọi kịch bản của Hollywood từ nay sẽ được nộp kèm phim tiền hình dung, sẽ có công cụ chuyển truyện tranh thành hoạt hình, và sẽ có thêm rất nhiều quảng cáo online cho sản phẩm
Sau đó thì phải chờ xem công nghệ này sẽ chững lại hay tiếp tục đi lên
Việc chuyển truyện tranh thành hoạt hình thì đã có rồi. Quảng cáo, đặc biệt là quảng cáo xã hội/online, cũng đã đang diễn ra