1 điểm bởi GN⁺ 2024-10-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Meta Movie Gen là một nghiên cứu mô hình media AI xử lý trong cùng một nơi việc tạo video·âm thanh bằng nhập văn bản đơn giản, chỉnh sửa video hiện có và chuyển ảnh cá nhân thành video
  • Tạo video hỗ trợ kết quả chất lượng cao dài và nhiều tỷ lệ khung hình, Meta nhấn mạnh đây là tính năng đầu tiên trong ngành
  • Với video hiện có, có thể áp dụng thay đổi phong cách, chuyển cảnh và chỉnh sửa chính xác bằng văn bản, cho phép các biến đổi như đổi đèn lồng thành những bong bóng xà phòng bay lơ lửng trên không
  • Khi đưa ảnh và văn bản vào cùng nhau, hệ thống tạo video cá nhân hóa giữ nguyên danh tính và chuyển động của người đó, với các ví dụ như trong phòng thí nghiệm, selfie, miền Viễn Tây và cảnh DJ
  • Có thể tạo hoặc mở rộng hiệu ứng âm thanh, nhạc nền và cả soundtrack hoàn chỉnh, giúp quy trình sản xuất video nối tiếp từ tạo hình ảnh sang dàn dựng âm thanh

Các tác vụ mà Movie Gen xử lý

  • Meta Movie Gen là mô hình nền tảng media AI mới nhất được Meta công bố như một thành quả nghiên cứu
  • Nhiều tác vụ sản xuất được xử lý trong một luồng nhập văn bản duy nhất
    • Tạo video tùy biến
    • Tạo âm thanh
    • Chỉnh sửa video hiện có
    • Chuyển ảnh cá nhân thành video độc đáo
  • Meta giới thiệu Movie Gen như một tiêu chuẩn mới cho nội dung AI nhập vai

Tạo video dựa trên văn bản

  • Movie Gen tạo video chất lượng cao dài với nhiều tỷ lệ khung hình từ đầu vào văn bản
  • Meta cho biết đây là tính năng đầu tiên trong ngành
  • Prompt có thể chỉ định cùng lúc cảnh, chủ thể, hành động, nền và điều kiện ánh sáng
    • Một con lười đeo kính râm hồng nằm trên phao donut và cầm đồ uống nhiệt đới
    • Một người đàn ông cầm dụng cụ phun lửa ở cả hai tay, tạo chuyển động hình tròn bên bờ biển
    • Một con koala lướt sóng trong khi ôm tấm ván lướt màu vàng
    • Một hồn ma bằng vải trắng nhảy múa trước gương trên gác mái phủ bụi
    • Một con khỉ mặt đỏ chơi với chiếc thuyền buồm nhỏ trong suối nước nóng

Chỉnh sửa video hiện có bằng văn bản

  • Movie Gen hỗ trợ chỉnh sửa chính xác cho video hiện có bằng đầu vào văn bản
  • Phạm vi áp dụng bao gồm thay đổi phong cách, chuyển cảnh và chỉnh sửa chi tiết
  • Trong ví dụ, đèn lồng được biến đổi thành những bong bóng xà phòng bay lên không trung

Tạo video tùy biến từ ảnh cá nhân

  • Khi người dùng tải ảnh của mình lên và nhập một đoạn văn bản ngắn, Movie Gen sẽ tạo video cá nhân hóa
  • Kết quả được tạo theo cách giữ nguyên danh tính và chuyển động của người đó
  • Các cảnh ví dụ bao gồm nhiều môi trường và hành động khác nhau
    • Một người đàn ông làm thí nghiệm trong phòng thí nghiệm có giấy dán tường cầu vồng
    • Một phụ nữ vẽ lên tấm canvas trên giá vẽ trong căn phòng ốp gỗ
    • Một người đàn ông và chó beagle chụp selfie ở sân patio phía sau nhà
    • Một người đàn ông đội mũ vành rộng và mặc áo khoác nâu cầm trà trong sa mạc
    • Một nữ cao bồi cưỡi ngựa trắng trong thị trấn Viễn Tây cổ
    • Một nữ DJ cùng một con báo gêpa đang chơi đĩa nhạc trên rooftop ở LA

Tạo âm thanh phù hợp với video

  • Movie Gen có thể tạo hoặc mở rộng hiệu ứng âm thanh, nhạc nền và toàn bộ soundtrack từ đầu vào văn bản
  • Âm thanh được tạo ra được thiết kế để phản ánh tông, nhịp điệu và phong cách của video
  • Các ví dụ đầu vào chỉ định đồng thời âm thanh cụ thể và bầu không khí âm nhạc
    • Cảnh mưa đổ xuống vách đá và con người trong khi nhạc nền đang phát
    • Tiếng lá xào xạc, tiếng cành cây gãy và nhạc giao hưởng
    • Cảnh động cơ ATV gầm rú tăng tốc cùng tiếng guitar
    • Tiếng bánh xe skateboard quay và âm va chạm khi tiếp đất trên bê tông
    • Một bản nhạc giao hưởng gợi cảm giác kỳ diệu
    • Một tiếng huýt sáo, tiếp theo là vụ nổ sắc gọn và tiếng crackling lớn

Hợp tác với nhà sáng tạo và ngành giải trí

  • Meta hợp tác với hãng sản xuất từng đoạt giải Blumhouse thông qua Creative Industry Feedback Program
  • Blumhouse đã chọn các nhà làm phim sẽ tạo video trước khi Movie Gen ra mắt công khai
  • Các nhà sáng tạo được yêu cầu dùng bộ công cụ media AI để tạo ra các kết quả mà họ thấy thú vị hoặc hữu ích
  • Video của đạo diễn Aneesh Chaganty có tiêu đề "i h8 ai"

Ví dụ công khai và tài liệu tham khảo

  • Meta cho biết các nhà sáng tạo đang thay đổi cách kể chuyện với Movie Gen
  • Các ví dụ trên Instagram bao gồm những tài khoản và prompt sau
    • @paigepiskin: bàn tay cầm một con tarantula mặt mèo lông xù nhỏ, chỉnh sửa biến chó thành rồng con màu xám
    • @ka5sh: người ngoài hành tinh hoạt hình màu xanh lá đi giày hề hồng, chỉnh sửa biến người thành người ngoài hành tinh xanh đội mũ bucket đỏ
    • @girls: cô gái đi bộ trên con đường cây mùa thu, hai phụ nữ uống cà phê trước bức tường treo đồ trang trí Halloween
    • @memezar: trận quyền anh giữa hà mã con và gorilla cơ bắp
    • @ravivora: thêm sương mù dày ở tiền cảnh, một phụ nữ nổi lên mặt nước giữa những con sứa
  • Tài liệu bổ sung gồm bài nghiên cứu Movie Gen, trong đó Meta cho biết họ đã thiết lập benchmark ngành mới trong tạo media AI
  • Các bài liên quan được liên kết gồm hợp tác với ngành giải trí và nhà sáng tạo và blog về kỷ nguyên sáng tạo nội dung dựa trên AI

1 bình luận

 
GN⁺ 2024-10-05
Ý kiến trên Hacker News
  • Tính năng chỉnh sửa video bằng văn bản là thú vị nhất. Có vẻ có thể dùng ngay cho phim indie không có ngân sách CGI.
    Kiểu như trước tiên quay ở ghế lounge như một cảnh trong rạp chiếu phim, rồi sau đó biến nó trông giống rạp chiếu phim.

    • Hoàn toàn đồng ý. Việc thay nền để đưa người đàn ông vào bối cảnh sân vận động đã đủ mức có thể dùng nguyên như một cảnh cắt trong phim hoặc chương trình TV, và phông nền cũng đủ thuyết phục để không ai thấy kỳ lạ.
      Nếu dùng đúng cách, nó sẽ nâng chất lượng phim indie hoặc phim ngắn, và giới hạn chỉ còn là sức sáng tạo.
    • Tôi tự hỏi tại sao còn cần dùng diễn viên. Diễn viên tốn tiền và khó điều phối lịch. Cứ làm tất cả bằng AI là được.
      Dù sao thì mô hình hẳn đã được huấn luyện trên những diễn viên giỏi hơn dàn cast indie.
  • Đây không phải phim mà là clip. Ngành ảnh/video stock chắc chắn đang lo lắng, và họ cũng sẽ kiện vì khả năng các mô hình này được huấn luyện bằng tác phẩm của họ là 100%.
    Nếu một ngày nào đó công nghệ này làm ra phim, có lẽ kết quả sẽ cực kỳ tầm thường, trở thành giá trị trung bình của mọi thứ từng được tạo ra, giống như những gì các mô hình văn bản, hình ảnh, âm nhạc tạo ra.

    • Tôi hình dung trong công cụ làm phim, người ta có thể ra lệnh kiểu: “Đưa mô hình A vào cảnh 32f, thêm đám đông rồi phóng to A. Phải có biểu cảm rất lo lắng.”
      Sau đó tiếp tục tinh chỉnh cảnh, lưu lại rồi chuyển sang cảnh tiếp theo. Nếu AI có thể nối tiếp hoạt ảnh, thì khi phát triển hơn, tôi không thấy lý do gì nó không thể tái hiện trung thành một mô hình đã cho.
    • Cả hai ngành cuối cùng cũng sẽ giống như mọi nơi khác: áp dụng hoặc chết. Bên thắng lớn có lẽ sẽ là những người dùng công cụ mới này một cách sáng tạo, thay vì giao phó mọi thứ cho AI.
    • Đã có nhiều liên hoan phim ngắn AI và MV AI được tạo ra. Tuy vậy chất lượng rất thất thường, và những tác phẩm tốt nhất rốt cuộc vẫn là các trường hợp có năng lực sản xuất cơ bản như dựng phim tốt, ý đồ đạo diễn mạnh.
      Tôi không biết đã có phim dài nào ra mắt hoặc đang được sản xuất chưa.
    • Vấn đề là các công ty video stock này phải đối đầu với những doanh nghiệp giàu nhất lịch sử. Hành động pháp lý sẽ tốn lượng tiền và thời gian khổng lồ.
      Không muốn nói điều này, nhưng với tình trạng hiện nay, nếu AI tiếp tục tăng trưởng như bây giờ, khả năng cao các công ty công nghệ sẽ thấm vào mọi nơi và trở nên cực kỳ quyền lực.
  • Tôi không hiểu tại sao có quá nhiều website về cơ bản là HTML tĩnh mà vẫn làm điện thoại giật lag như vậy.
    Video trông rất ấn tượng, nhưng nếu điện thoại cứ 2 giây lại khựng thì không thể đọc bài liên quan một cách thoải mái được.

    • Trên Pixel 6a và trình duyệt Chromium cũng thấy hiện tượng giật lạ. Vì đang dùng di động nên không kiểm tra source được, nhưng đây chắc chắn không thể chỉ là HTML tĩnh.
      Khi cuộn trang, một số phần văn bản biến mất rồi bật ra lại; không phải hoạt ảnh theo cuộn mà gần như ngẫu nhiên. Cảm giác như có thứ gì đó chặn vòng lặp render của trình duyệt, khiến nó không theo kịp việc vẽ văn bản thật. Với một trang đơn giản thế này thì đó là bug vô lý, nhưng nếu họ dùng React ở đây thì giờ tôi nghĩ chuyện gì cũng có thể xảy ra.
    • Ở đây thì không giật quá nặng, nhưng chắc chắn có dịch chuyển bố cục khi các phần tử hình ảnh hoặc video được tải.
    • Tắt JavaScript thì thực ra dùng khá ổn và nhanh.
    • Cũng có thể các công ty làm những thứ này thiếu năng lực phát triển web.
    • Tôi tò mò là trình duyệt nào.
  • Con người phụ thuộc quá mức vào đầu vào thị giác và giải trí thị giác. Nhưng những hình ảnh đó ngày càng có cảm giác vô nghĩa, tất cả trông như nội dung rác kiểu đồ ăn nhanh.
    Việc ngay cả trẻ mẫu giáo cũng có thể tạo ra bất cứ thứ gì chúng tưởng tượng trong vài giây dường như không làm mọi thứ tốt hơn hay tạo ra giá trị thực sự. Có lẽ chính đó lại là giá trị của công nghệ này. Có thể sẽ đến thời đại mà ta hoàn toàn quên đi những thứ như phim ảnh, nơi tưởng tượng câu chuyện bằng hình ảnh, vì chẳng ai còn quan tâm nữa.

    • Chúng cũng là hình ảnh kiểu đồ ăn rác. Khó mô tả ngoài việc nói rằng chúng trông như pha trộn giữa Fisher-Price và nấm gây ảo giác liều nhẹ.
    • Đúng vậy. Tôi cũng chưa bao giờ hiểu sức hút của nhiếp ảnh. Quá dễ, không cần ngồi hàng giờ vẽ để tạo ra thứ gì đó độc đáo; chỉ cần mua máy ảnh rồi bấm nút.
      Vậy mà người ta trả tiền cho nó, thật khó hiểu.
  • Từ nhiều năm trước tôi đã nói rằng cơn sóng thần nội dung tạo sinh sẽ nuốt chửng tiếng nói con người thật trên mạng. Kết quả là Internet có thể trên thực tế trở nên không dùng được cho bất cứ mục đích nào ngoài giải trí.

    • Thú vị đấy, và một phần đã trông như vậy rồi. Ở đây hay các diễn đàn khác, tôi từng nghĩ phần lớn là con người, nhưng giờ có cảm giác không phải thế.
      Ngay cả trong chat nhóm, tôi cũng thấy một người bạn dùng câu trả lời AI, còn thành viên khác không nhận ra và trả lời nghiêm túc. Những thứ như vậy khiến tôi thấy ghê tởm, và theo bản năng muốn tránh nội dung rác AI. Giờ tôi không biết tiếp theo là gì, nên đi đâu. Không rõ các diễn đàn “con người” sẽ bị đẩy vào những góc sâu hơn của Internet, hay mọi người sẽ thích gặp gỡ ngoài đời hơn.
    • Có lẽ đó cũng có thể là điều tốt. Internet chưa từng đạt tới tiềm năng là một mô liên kết nhân loại. Phần lớn chỉ là marketing và spam.
      Nếu Internet chết đi và mọi người quay về các cộng đồng nhỏ hơn, tôi không nghĩ đó là điều tệ nhất. Ngay từ đầu chúng ta cũng đâu tiến hóa để giao tiếp ở quy mô toàn cầu.
    • Tôi không hiểu tại sao phải bận tâm.
      Bạn đã thấy đa số con người nói gì chưa? Nếu AI nói những điều thông minh hơn thì tôi ủng hộ.
    • Giá mà có thể chuyển sang các cộng đồng gồm người dùng là con người đã được xác thực. Quy mô nhỏ hơn mạng xã hội.
    • Internet ngày xưa giống như một nơi ẩn náu để dân geek trốn vào chơi và tận hưởng. Sau khi smartphone được phát minh, có lẽ thậm chí từ trước đó, nó đã hỏng như “Eternal September”.
      Dạo này tôi thà dành thời gian ngoài đời hơn. Liệu còn nơi ẩn náu nào dựa trên Internet mà không có quảng cáo, câu kéo chú ý và nội dung rác AI không?
  • Khó tìm được cách diễn đạt hay hơn, nhưng mọi video đều có một độ bóng bẩy đặc trưng của AI tạo sinh mà nhìn là nhận ra ngay. Phần lộ rõ nhất nữa là những thay đổi rất nhỏ ở rìa, tạo ra các artifact mờ nhòe

    • Tôi không nghĩ mức đó là đủ. Những video này có chất lượng cao. Nếu được đăng lên mạng xã hội, phần lớn khiếm khuyết sẽ biến mất do nén
      Người ta cũng đã chứng minh rằng khi mọi người không kỳ vọng nội dung là AI, họ ít nhận ra đó là AI hơn nhiều. Nếu ở trạng thái mất cảnh giác, có lẽ tôi đã tin hầu hết các video này là thật 100%
    • Cái độ bóng đó trông giống filter mà những người sao chép video từ TV hoặc phim rồi đăng lên Facebook Reels hay dùng
      Có rất nhiều Reel theo kiểu thêm đủ nhiễu vào nội dung bị ăn cắp để né các bộ lọc phát hiện nội dung. Trong phần bình luận thì gắn link đến các trang lừa đảo, ghi là “trang IMDB của nội dung này”
    • Chuyển động trông kỳ lạ. Cô bé trên bãi biển di chuyển như người lớn, họa sĩ thì trông như con rối, và mọi thứ có cảm giác như quay chậm
    • Ít nhất thì con người trong các video này đều có vẻ đúng số ngón tay, nên cũng là một bước tiến. Moo Deng thì không hiểu sao vốn đã có vẻ bóng bẩy tự nhiên rồi nên không thể trách được
      Dù vậy vấn đề ở rìa vẫn còn rất lớn
    • Tôi tò mò RLHF hoặc các kiểu tinh chỉnh mô hình dựa trên con người khác đã góp phần đến mức nào vào sự quá bão hòa và tương phản quá mức này
      Người tiêu dùng trung bình có vẻ thích các đặc điểm đó hơn khi so sánh ảnh hoặc video, và dùng chúng như một heuristic để đánh giá chất lượng. Cũng từng có những so sánh giữa các mô hình tạo văn bản-thành-hình ảnh cũ và các thế hệ mới, trong đó lập luận rằng các mô hình cũ ít bị can thiệp hơn không thiên về đầu ra kitsch và phóng đại như các mô hình mới
  • Có thể tôi đang nhìn nhận quá khép kín, nhưng rốt cuộc ai muốn thứ này, và có ai đã nghĩ đến hậu quả của việc tạo rác AI dễ tiếp cận chưa?
    Ngay hiện tại, nếu không biết phải nhìn ở đâu trên Internet thì gần như không thể tìm được nội dung chất lượng

    • Mọi chuyện sẽ còn tệ hơn, và giá trị của các bên tổng hợp kiêm người gác cổng sẽ tăng lên khổng lồ
    • Câu trả lời cho “ai muốn thứ này” là: đã nghe câu đùa “vì làm được nên làm” bao giờ chưa
    • Tôi muốn, và tôi khá vui vì chuyện này đang xảy ra. Nếu ngả lưng nhắm mắt, một kỷ nguyên điện toán mới đang mở ra, nơi tầm nhìn trong đầu có thể thành hiện thực mà không cần ê-kíp Hollywood
  • Hai con tôi đều có thiên hướng sáng tạo rất mạnh, và chúng sợ rằng vì AI mà sẽ không thể kiếm sống bằng sáng tác. Nhưng gần đây tôi cũng có suy nghĩ khác
    Suốt nhiều thập kỷ, chúng ta đã chi hàng tỷ, có lẽ hàng nghìn tỷ USD để cải thiện công nghệ giải trí. Khi AI có thể tạo ra bất kỳ hình thức giải trí nào có thể tưởng tượng được, có thể chúng ta sẽ bắt đầu thấy loại giải trí đó nhàm chán. Khi ấy, có lẽ ta sẽ thấy khám phá vũ trụ, mở rộng tri thức vật lý và hóa học, và cuộc chiến chống bệnh tật thú vị hơn nhiều. Vì chúng là thật. Theo cùng góc nhìn đó, nghệ thuật do con người tạo ra cũng có thể trở nên thú vị hơn vì nó là thật

    • Khi nói chuyện với mọi người ngoài đời, gần như lúc nào cũng quay về điểm đó. Hầu hết mọi người thấy kết quả AI mới lạ, nhưng không thấy chúng đặc biệt thú vị ở cấp độ nghệ thuật
      Những người cuồng AI chủ yếu chỉ thấy trên mạng; thiếu cách diễn đạt hay hơn, họ trông như những người thật sự chìm rất sâu trong thế giới online, và không có kỹ năng, kiến thức hay năng lực để tự tạo nghệ thuật. Ngay khoảnh khắc ai đó nói “do AI tạo”, về mặt nghệ thuật nó lập tức mất sức hút. Điều này khác với việc dùng Photoshop hay công cụ nghệ thuật số. Việc lấy mức can thiệp tối thiểu của con người làm điểm mạnh, ngay khi được trình bày như nghệ thuật, với tôi đã không đứng vững từ xuất phát điểm. Tôi sẽ chờ xem viễn cảnh không tưởng về công nghệ này có thành hiện thực không, nhưng tôi đã thấy quá nhiều lần sự lạc quan nghẹt thở về công nghệ mới cuối cùng đông cứng lại thành thứ rác MBA nhạt nhẽo xoay quanh quảng cáo, nên tôi không mấy lạc quan
    • Cũng có một góc nhìn khác
      Tôi theo dõi nhiều cộng đồng AI tạo sinh mới trên Twitter, và trong các cộng đồng này có rất nhiều người thuộc ngành sáng tạo. Một người từng làm trong ngành quảng cáo gần đây chia sẻ câu chuyện về một buổi quay cho thương hiệu nổi tiếng. Soundstage, diễn viên, âm thanh, hóa trang, ánh sáng, v.v. được dựng trong 3 ngày, và khoảng 25 người làm việc suốt 3 ngày. Nhưng nếu tính cả tiền kỳ và hậu kỳ, phía sau là khoảng 3 tháng nỗ lực. Có thể nghĩ đến dựng phim, chỉnh màu, biên tập âm thanh, âm nhạc, v.v. Những đứa trẻ sáng tạo có thể sẽ sống trong một thế giới nơi chúng tự mình đạt được kết quả tương tự. Với một nhóm nhỏ, một người phụ trách nhân vật, một người phụ trách âm thanh, một người phụ trách kịch bản chẳng hạn. Không cần thiết bị thuê trị giá hàng chục nghìn USD và 25 chuyên gia, chỉ cần sự bền bỉ và các công cụ AI tạo sinh là có thể hiện thực hóa ý tưởng trong đầu. Tôi thật lòng tin rằng những công cụ mới này sẽ mở ra tiềm năng vượt xa những gì ta đang tưởng tượng hiện nay
    • Có lẽ yếu tố giới hạn khả năng tạo nghệ thuật sẽ không còn là kỹ năng cần cho làm phim, vẽ tranh hay chơi nhạc cụ, mà là sự sáng tạo
    • Sơn màu không thay thế than vẽ, nhiếp ảnh không thay thế hội họa, nghệ thuật số không thay thế chất liệu vật lý, và việc tạo màn chơi ngẫu nhiên không thay thế kiến trúc
      Tác phẩm do AI tạo sẽ tìm được vị trí bên cạnh tác phẩm do con người tạo. Thậm chí nó có thể làm nổi bật khác biệt mà một chút tài năng con người tạo ra, qua đó cải thiện thị trường phim nghệ thuật và diễn xuất xuất sắc. Thứ gặp nguy không phải nghệ thuật mà là việc lặt vặt. Điều thay đổi là quy mô các tác phẩm dở do con người sản xuất, từng thuê hàng triệu người, sẽ dịch chuyển sang các tác phẩm dở do AI sản xuất, chỉ thuê vài chục người
    • Ngay cả không có AI, việc kiếm sống bằng sáng tạo vốn đã không hiệu quả với đa số mọi người. Biểu đạt sáng tạo tồn tại vì chính nó, còn những người sống được nhờ nó là các ngoại lệ may mắn
  • Cái này thật sự ấn tượng. Tính nhất quán không gian và thời gian khó tin đến mức đáng kinh ngạc

  • Kết quả có thể dự đoán là như sau. Mọi kịch bản của Hollywood từ nay sẽ được nộp kèm phim tiền hình dung, sẽ có công cụ chuyển truyện tranh thành hoạt hình, và sẽ có thêm rất nhiều quảng cáo online cho sản phẩm

    • Tiền hình dung và storyboard sẽ hưởng lợi rất lớn từ công nghệ này. Cuối cùng có lẽ nó cũng sẽ dùng được cho B-roll hoặc các cảnh quay của đơn vị thứ hai
      Sau đó thì phải chờ xem công nghệ này sẽ chững lại hay tiếp tục đi lên
    • “Phim” chất lượng thấp do AI làm và kịch bản có kèm blocking là một khái niệm thú vị
      Việc chuyển truyện tranh thành hoạt hình thì đã có rồi. Quảng cáo, đặc biệt là quảng cáo xã hội/online, cũng đã đang diễn ra