Lumiere: Mô hình khuếch tán không-thời gian để tạo video chân thực

(lumiere-video.github.io)

1 điểm bởi GN⁺ 2024-01-26 | 1 bình luận | Chia sẻ qua WhatsApp

Để cải thiện tính nhất quán của chuyển động, một thách thức trong tạo video, Lumiere của Google Research là mô hình khuếch tán text-to-video nhằm tổng hợp video chân thực và đa dạng
Trọng tâm là Space-Time U-Net: thay vì tạo trước các keyframe cách xa nhau rồi nội suy, mô hình tạo toàn bộ khoảng thời gian chỉ trong một lượt chạy
Sử dụng đồng thời downsampling và upsampling theo cả hướng không gian lẫn thời gian, đồng thời tận dụng mô hình khuếch tán text-to-image đã được huấn luyện trước để trực tiếp tạo video độ phân giải thấp ở full frame rate
Các demo bao quát rộng các tác vụ tạo và chỉnh sửa, gồm text-to-video, image-to-video, tạo theo phong cách, phong cách hóa video, cinemagraph, và video inpainting
Người mới bắt đầu cũng có thể linh hoạt tạo nội dung thị giác, nhưng do nguy cơ bị lạm dụng để tạo nội dung giả mạo hoặc độc hại, cần đồng thời có phát hiện thiên lệch và hành vi sử dụng ác ý

Mục tiêu và tài liệu công khai của Lumiere

Lumiere là mô hình khuếch tán text-to-video tập trung vào việc nâng cao độ chân thực, tính đa dạng và tính nhất quán theo thời gian của chuyển động trong tổng hợp video
Có thể xem bài báo và nhiều video demo trên trang dự án
Không chỉ các tác vụ tạo nội dung, dự án còn trình diễn cả các ứng dụng chỉnh sửa video

Kiến trúc tạo toàn bộ khoảng thời gian trong một lần

Lumiere giới thiệu kiến trúc Space-Time U-Net để tạo toàn bộ độ dài thời gian của video trong một lượt chạy mô hình
Các mô hình video hiện có thường tổng hợp trước các keyframe cách xa nhau rồi áp dụng siêu phân giải theo thời gian, nên khó đảm bảo tính nhất quán thời gian ở mức toàn cục
Mô hình này áp dụng downsampling và upsampling không chỉ theo không gian mà cả theo hướng thời gian
Tận dụng mô hình khuếch tán text-to-image đã được huấn luyện trước, mô hình trực tiếp tạo video độ phân giải thấp ở full frame rate trên nhiều thang không-thời gian

Tạo video từ văn bản và hình ảnh

Demo Text-to-Video tạo video chỉ bằng prompt văn bản
- Ví dụ gồm người đi bộ đường dài trên đỉnh núi, phi hành gia quanh căn cứ trên Sao Hỏa, cảnh một chú chó đeo kính râm đang lái xe, cảnh siro sô-cô-la được rưới lên kem vani, pháo hoa, time-lapse hoàng hôn trên bãi biển, v.v.
Demo Image-to-Video tạo video dựa trên ảnh đầu vào và prompt
- Ví dụ gồm chú mèo buồn mặc áo sọc, gấu bông nhảy múa trong tuyết, rùa bơi dưới biển, khỉ vừa dùng laptop vừa uống cà phê, mèo chơi piano, v.v.

Tạo theo phong cách và chỉnh sửa video

Stylized Generation sử dụng một ảnh tham chiếu duy nhất để tạo video theo phong cách mục tiêu
Quy trình này sử dụng trọng số của mô hình text-to-image đã được tinh chỉnh
Ví dụ tham chiếu phong cách gồm Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing, Watercolor painting, v.v.
Trong Video Stylization, có thể thực hiện chỉnh sửa video nhất quán bằng phương pháp chỉnh sửa ảnh dựa trên văn bản
- Ví dụ prompt phong cách gồm “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers”, v.v.

Hoạt ảnh theo vùng và inpainting

Tính năng Cinemagraphs có thể chỉ tạo hoạt ảnh cho một vùng cụ thể trong nội dung ảnh do người dùng chỉ định
Demo Video Inpainting nhận video gốc đã áp dụng mask làm đầu vào và tạo video đầu ra
Ví dụ inpainting gồm các prompt thay đổi trang phục hoặc phụ kiện
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Tác động xã hội và an toàn

Mục tiêu chính của Lumiere là giúp người dùng mới bắt đầu có thể tạo nội dung thị giác một cách sáng tạo và linh hoạt
Công nghệ tương tự cũng có nguy cơ bị lạm dụng để tạo nội dung giả mạo hoặc độc hại
Để sử dụng an toàn và công bằng, cần phát triển và áp dụng các công cụ phát hiện thiên lệch cũng như các trường hợp sử dụng ác ý

1 bình luận

GN⁺ 2024-01-26

Ý kiến trên Hacker News

Tôi thấy rất khó chịu khi công trình này được công bố dưới vỏ bọc nghiên cứu khoa học
Cái này khó có thể xem là gì ngoài khoe khoang, quảng cáo, marketing, và không mô tả quy trình nào có thể tái lập
Sơ đồ kiến trúc có thể truyền cảm hứng cho người khác, nhưng không cung cấp khả năng phản chứng, điều quan trọng nhất trong khoa học
Vì không có cách nào kiểm chứng liệu Google có nói dối hay không, nên phải giả định rằng mọi ví dụ đều đã được chọn lọc và hậu xử lý
Cũng phải xem dữ liệu huấn luyện mô hình là được thu thập bất hợp pháp, và vì Google giờ đây liên tục đưa ra những tuyên bố không thể kiểm chứng, ta nên bắt đầu từ thái độ hoài nghi cực độ
Nếu so hiệu năng Gemini của Bard với GPT-4 thì thua xa, và video được họ tuyên bố là tương tác với mô hình thực ra cũng không phải như vậy
Không tổ chức nào nên vận hành kiểu này, nhưng Google đặc biệt đã trở thành kẻ tái phạm nghiêm trọng
- Thái độ như vậy có vẻ không có ích cho khoa học
  Nếu không tin kết quả, cứ bỏ qua đầu ra được tuyên bố và chỉ lấy ý tưởng cốt lõi là được
  Không cần giả định ác ý để vô hiệu hóa cái gọi là quảng cáo của họ
  Thái độ này có thể khiến bạn thấy dễ chịu hơn một chút, nhưng nó biến các tuyên bố thành vấn đề chính trị, và nếu chúng thật sự đúng thì ngược lại sẽ làm chậm tiến độ
  Có lịch sử cho thấy khá nhiều bài báo của Google hầu như không kèm đầu ra có thể tái lập, nhưng cuối cùng vẫn trở thành nền tảng cho các công nghệ hữu ích
- Nói thêm, bản thân việc dùng dữ liệu để huấn luyện mô hình không phải là bất hợp pháp
  Điều bất hợp pháp là khiến mô hình xuất ra chính cùng dữ liệu đó vì lợi ích thương mại
  Sự khác biệt này bị cố tình làm mờ, nhưng cần phải hiểu
- Tôi tò mò họ đã truy cập Gemini Ultra bằng cách nào
  Hay ý họ là Gemini Pro, thứ được so sánh với GPT-3.5?
- Video này gần như chắc chắn trông như dành cho nhà đầu tư của Google: “Chúng tôi chưa chết, tìm kiếm cũng chưa chết! Một con gấu biết nhảy đây!”
  Dù vậy, nếu công nghệ đúng như quảng cáo thì rất ấn tượng
- Vì Google từng bị bắt quả tang dàn dựng demo AI, có thể xem là khả năng cao họ đang nói dối hoặc chọn lọc ví dụ cho đẹp
  Trong giới nghiên cứu thực sự, nếu bị phát hiện làm chuyện như thế, không chỉ công trình sau này mà cả công trình trước đó cũng sẽ bị đưa vào diện kiểm chứng gắt gao
Các ví dụ nhất quán và kéo dài hơn nhiều so với những kỹ thuật khác tôi từng thấy trước đây
So với các mô hình khác, chân ít bị trượt trên sàn hơn
Ngược lại, khuôn mặt người trông không ổn, chẳng hạn cảnh nụ cười Mona Lisa
Cá nhân tôi thấy đây có vẻ là mô hình tạo video ổn đầu tiên
Sửa: Vừa thấy đây là sản phẩm của Google. Vậy chắc sẽ không bao giờ được phát hành công khai
- Nếu được công khai, tôi nghĩ trong vòng một tuần sẽ có mô hình NSFW dựa trên nó xuất hiện trên Civitai
- Không, như mọi khi các nhà nghiên cứu sẽ tiếp tục xây dựng thêm trên nghiên cứu này, và cuối cùng sẽ có một công ty tạo ra sản phẩm thành công dựa trên nhiều kết quả nghiên cứu, trong đó có nghiên cứu này
  Khi đó chúng ta sẽ phàn nàn rằng Google bị bỏ lại phía sau
  Việc Google tài trợ rất nhiều nghiên cứu tiên tiến và chia sẻ công khai là điều khá tuyệt
  Không biết chuyện này sẽ kéo dài bao lâu
- Tôi tò mò trong các mẫu của video demo này có bao nhiêu cái là thật
  https://arstechnica.com/information-technology/2023/12/googl...
- Bạn nói “nụ cười Mona Lisa”, nhưng đó không phải là "Mona Lisa"[1] của Leonardo da Vinci, mà là "Girl with a Pearl Earring"[2] của Johannes Vermeer
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
Hiện trên GitHub của họ không có gì ngoài trang được liên kết
https://github.com/lumiere-video
Ngay từ đầu họ cũng không tuyên bố là sẽ có gì đó, nhưng tôi vẫn kiểm tra, và cũng không thấy liên kết nào dẫn tới hồ sơ GitHub
Tôi để lại liên kết cho những ai không muốn nhìn URL website được host rồi tự gõ địa chỉ hồ sơ
- Đây là cách thường thấy trong mảng AI/machine learning: đưa thông tin về thứ chưa được công khai lên GitHub rồi nói là “có trên GitHub”
- Các mô hình ngôn ngữ lớn thật đáng tiếc đã tạo ra một trào lưu mới
Inpainting video khá thú vị
Gần đây bọn trẻ nhà tôi xem các tập SpongeBob cũ, và tỷ lệ khung hình 4:3 khá khó chịu
Tôi nghĩ việc inpaint hai mép bên để đưa về 16:9 có thể là một ca sử dụng thú vị, nhưng để xử lý các vật thể đi vào khung hình từ bên cạnh thì có lẽ cần một kiểu tinh chỉnh chi tiết dựa trên xem trước
- Nghe thật sự giống một sản phẩm mà ai đó trong ngành TV/phim có thể mua
  Tức là kéo giãn video có tỷ lệ khung hình cố định hoặc điều chỉnh động sang kích thước không phải gốc mà không tạo méo hình dễ thấy
  Chỉ cần ước lượng phần mép được thêm vào đủ chính xác để khán giả không nhận ra
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablet/desktop)
  Cũng có thể làm một bộ phim mới trông như phim câm đen trắng cổ điển rồi đặt khung hình phù hợp
  Có thể chỉnh bất kỳ bộ phim nào để hoạt động tự nhiên trên màn hình IMAX
- Không thể cứ xử lý video ngược lại sao?
Nhìn tính chất kỳ lạ, rờn rợn như mơ của các mẫu tạo video AI nhỏ thế này, tôi luôn thấy tiếc là các bài báo chưa bao giờ chèn prompt "dreaming of electric sheep" như một easter egg
Chết tiệt, nếu công bố này xuất hiện chỉ 2–3 năm trước thì đã là cú sốc rồi
Mọi người đã quen với việc các bản phát hành mới kiểu này xuất hiện cực nhanh, nhưng vẫn đáng kinh ngạc
Tôi rất muốn sớm được dùng phần mềm có năng lực như thế này
Sửa: À không, của Google. Tôi sẽ chờ đến khi có bản mã nguồn mở
Có vẻ như thường trộn lẫn ảnh cũ với các bộ dữ liệu hiện đại
Nếu đưa vào chân dung George Washington và dùng prompt “người đàn ông đang cười”, liệu ta sẽ thấy [răng giả][1], hay thấy hàm răng trắng tinh?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Những dữ liệu ngoài phân phối như vậy có lẽ đương nhiên phải được cung cấp trong prompt
  Không rõ các mô hình kiểu này đã xây dựng được một mô hình thế giới khổng lồ về sự thật như các mô hình ngôn ngữ lớn cỡ lớn hơn hay chưa; chủ yếu chúng vẫn đang nắm bắt cách các vật thể chuyển động
  Trong bộ dữ liệu, phần lớn mọi người đều khoe hàm răng trắng tinh, và không có video nào về miệng của Washington, nên tôi nghĩ đó sẽ là mặc định trừ khi bạn mô tả chi tiết kiểu răng giả mình muốn
Một vài suy nghĩ: Vì là Google nên có lẽ chúng ta sẽ chẳng có dịp tự dùng thử
Dù vậy ý tưởng rất thú vị. Mô hình trước tiên được huấn luyện để tạo ra một biểu diễn thời gian tổng thể nhỏ của video, rồi upscale cả theo thời gian lẫn pixel
Về bản chất, nếu từng thấy các mô hình trước thêm bản đồ độ sâu, thì cái này giống như thêm bản đồ thời gian ở một chiều khác
Nhìn bằng mắt thì tính nhất quán khá tốt
Những chỗ gượng gạo có vẻ không phải là lỗi thường gặp ở việc duy trì nhất quán từng khung hình, mà gần với phần mô hình quyết định một đối tượng “nên làm gì” theo thời gian hơn
Insight lớn của các nhà nghiên cứu Google là có thể điều kiện hóa, học và sinh ra chính tính nhất quán, rồi sau đó lấp đầy các khung hình
Tôi nghĩ nhiều nhà cung cấp mô hình như Stability hoàn toàn có thể sao chép được; không thấy phần nào trông có vẻ không thể triển khai
Bài đăng theo chủ đề pixel cho một paper theo chủ đề pixel
Khá ấn tượng, và có vẻ chẳng mấy chốc sẽ dẫn đến một làn sóng chương trình “làm phim từ một đoạn văn” ồ ạt xuất hiện
Vì là tác phẩm của Google, khả năng cao nó sẽ bị nhốt trong hộp và trở thành một công cụ Rick and Morty mà chúng ta sẽ không bao giờ được thấy
Tôi thích cách ghi tên tác giả
Các ký hiệu như 1,2,3,4,*,+ giúp phân biệt tác giả chính, đơn vị trực thuộc và người đóng góp cốt lõi
Đọc nhiều paper thiên văn học và vật lý, thường có hơn 10 tác giả nhưng hoàn toàn không biết ai đã làm gì
Ví dụ, trong liên kết arXiv không thấy định dạng tương tự
Và thứ này rất có khả năng sẽ được dùng ngay cho porn lạm dụng
Biến thể thứ 5 của ví dụ Walking Woman: “Wearing no clothing”
- Tôi đã không nghĩ tới, nhưng đúng vậy. Với công nghệ này, porn lạm dụng sẽ sớm tràn lan
  Mọi người trên thế giới có thể sớm sẽ có những video khiêu dâm lộ liễu, chân thực gắn khuôn mặt của chính mình
Năm nay chúng ta sẽ được thấy phim dài do AI tạo ra đầu tiên
Nếu nghe có vẻ điên rồ, hãy nhớ rằng ở thời kỳ đầu của điện ảnh, độ dài trung bình của một cú máy là 12 giây, còn ngày nay chỉ 2,5 giây
Một vài kỹ thuật quan trọng như duy trì tính nhất quán của chủ thể giữa các lần sinh vẫn cần được trau chuốt thêm
Nhưng tôi nghĩ có thể lấp nhiều điểm bất nhất bằng các phương pháp hiện có: tách lớp theo độ sâu để dùng các hình ảnh tĩnh hơn, hoặc tạo những mô hình 3D đơn giản có texture ở những chỗ cần nhiều chiều sâu hơn
Với đủ công sức và kỹ năng, tôi nghĩ công nghệ hiện tại đã có thể làm được
- Dễ hình dung các nhà làm phim sẽ tạo nhiều phiên bản nháp của bộ phim để tinh chỉnh kịch bản và quay phim, giống như hiện nay họ dùng storyboard
- Tại sao phải làm “phim”? Chẳng phải chỉ cần tạo một cốt truyện trong đó người xem có thể tùy ý thay đổi trang phục sao?
- Giống như tất cả những loại media khác mà người ta trút ra bằng các thứ này, có lẽ nó sẽ hoàn toàn dở tệ

Lumiere: Mô hình khuếch tán không-thời gian để tạo video chân thực

Mục tiêu và tài liệu công khai của Lumiere

Kiến trúc tạo toàn bộ khoảng thời gian trong một lần

Tạo video từ văn bản và hình ảnh

Tạo theo phong cách và chỉnh sửa video

Hoạt ảnh theo vùng và inpainting

Tác động xã hội và an toàn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News