1 điểm bởi GN⁺ 2024-01-26 | 1 bình luận | Chia sẻ qua WhatsApp

Văn bản thành video

  • Nhóm nghiên cứu Google đã giới thiệu một mô hình khuếch tán văn bản thành video có tên là Lumiere.
  • Mô hình này tập trung vào việc tổng hợp video thể hiện chuyển động chân thực, đa dạng và nhất quán.
  • Sử dụng kiến trúc U-Net không-thời gian để tạo toàn bộ chiều thời gian của video trong một lần.

Hình ảnh thành video

  • Với Lumiere, có thể tạo video theo phong cách mục tiêu bằng cách sử dụng một hình ảnh tham chiếu duy nhất.
  • Tận dụng trọng số của mô hình văn bản thành hình ảnh đã được tinh chỉnh.

Tạo kiểu cho video

  • Thông qua Lumiere, có thể áp dụng các phương pháp chỉnh sửa hình ảnh dựa trên văn bản hiện có vào việc chỉnh sửa video nhất quán.

Cinemagraph

  • Mô hình Lumiere có thể tạo hiệu ứng chuyển động cho nội dung của hình ảnh trong một vùng cụ thể do người dùng cung cấp.

Inpainting video

  • Mô hình Lumiere có thể khôi phục nội dung của video đã được che mặt nạ để tạo ra video hoàn chỉnh.

Tác giả và lời cảm ơn

  • Nhóm nghiên cứu gồm các đồng tác giả từ Google Research và nhiều trường đại học.
  • Nhóm bày tỏ lời cảm ơn tới các tác giả đã đóng góp cho nghiên cứu trong thời gian thực tập, cùng nhiều cá nhân đã hỗ trợ và hợp tác.

GN⁺ nhận định:

  • Mô hình Lumiere đại diện cho một bước tiến quan trọng trong lĩnh vực tổng hợp video. Khả năng tạo video với chuyển động chân thực và đa dạng sẽ là trợ giúp lớn cho nhà sáng tạo nội dung và biên tập viên video.
  • Công nghệ này đặc biệt có thể góp phần tăng cường kể chuyện bằng hình ảnh trong ngành điện ảnh hoặc quảng cáo, đồng thời mở rộng khả năng biểu đạt sáng tạo.
  • Sự phát triển của Lumiere là một ví dụ cho thấy các công cụ sáng tạo dựa trên trí tuệ nhân tạo đang thay đổi công việc sáng tạo như thế nào.

1 bình luận

 
GN⁺ 2024-01-26
Ý kiến trên Hacker News
    • Tôi thấy cực kỳ khó chịu với công trình này khi nó được đưa ra dưới danh nghĩa nghiên cứu khoa học. Chỉ có thể mô tả đây là khoe khoang, quảng bá và marketing. Không có quy trình tái lập nào được mô tả, và sơ đồ kiến trúc dù có thể truyền cảm hứng nhưng lại không cho phép phản chứng, vốn là khía cạnh quan trọng nhất của một nỗ lực khoa học. Không có cách nào để kiểm chứng liệu Google có đang nói dối hay không, nên phải giả định rằng mọi ví dụ đều đã được tuyển chọn và hậu kỳ. Cũng phải giả định rằng dữ liệu dùng để huấn luyện mô hình được thu thập một cách bất hợp pháp. Vì Google giờ đây thường xuyên đưa ra những tuyên bố không thể kiểm chứng, nên cần bắt đầu từ sự hoài nghi ở mức cực đoan. Ví dụ, hiệu năng của Gemini trong Bard kém GPT-4 rất xa khi so sánh. Khi họ công bố video tuyên bố là tương tác với mô hình thì thực tế lại không phải vậy.
    • Các ví dụ trông nhất quán hơn nhiều và dài hơn so với những công nghệ tôi từng thấy trước đây. So với các mô hình khác, hiện tượng chân bị trượt trên sàn ít hơn hẳn. Mặt khác, khuôn mặt người trông không ổn lắm. Ví dụ như Mona Lisa đang mỉm cười. Đây có vẻ là mô hình tạo video đầu tiên thực sự tốt. Chỉnh sửa: tôi vừa nhận ra đây là do Google làm, nên chắc sẽ chẳng bao giờ được phát hành.
    • GitHub của họ hiện không có gì ngoài trang đang được liên kết tới. Họ cũng chưa từng tuyên bố sẽ phát hành gì cả. Dù vậy tôi vẫn phải kiểm tra, và tôi không thấy liên kết nào dẫn tới hồ sơ GitHub. Tôi chia sẻ liên kết ở đây cho những ai không muốn tự gõ URL của website được host.
    • Video inpainting khá thú vị. Gần đây bọn trẻ nhà tôi xem lại các tập SpongeBob cũ, và tỷ lệ khung hình 4:3 thật đáng chú ý. Inpaint phần viền hai bên để đưa nó về tỷ lệ 16:9 có vẻ là một trường hợp sử dụng thú vị. Nhưng có vẻ sẽ cần một kiểu "biết trước" nào đó về các vật thể đi vào từ hai bên.
    • Vì tính chất kỳ quái, như mơ của những mẫu tạo video AI nhỏ này, tôi luôn thấy thất vọng khi các bài báo kiểu này không cài một easter egg với prompt "dreaming of electric sheep".
    • Nếu lùi màn ra mắt này chỉ 2-3 năm trước thôi thì nó đã thực sự gây chấn động. Tất cả chúng ta đều đã quen với việc các sản phẩm mới kiểu này ra mắt rất nhanh và rất thường xuyên, nhưng tôi vẫn thấy nó đáng kinh ngạc. Không thể chờ đến ngày được dùng phần mềm có năng lực như thế này. Chỉnh sửa: vì đây là do Google làm, tôi sẽ đợi đến khi có bản mã nguồn mở.
    • Có vẻ họ thường trộn các hình ảnh cũ với những bộ dữ liệu hiện đại. Nếu bạn lấy chân dung George Washington và yêu cầu "một người đàn ông đang cười", liệu ông ấy sẽ lộ ra hàm răng giả hay là những chiếc răng trắng?
    • Vài bình luận: vì là Google nên chúng ta sẽ không thể tự mình dùng nó. Dù vậy, ý tưởng thì rất thú vị -- huấn luyện mô hình để nó tạo ra một biểu diễn thời gian tổng thể nhỏ của video, rồi upscale theo cả thời gian lẫn pixel. Tôi đã thấy các mô hình thêm depth map, còn mô hình này thêm "time map" như một chiều nữa. Độ nhất quán trông khá tốt. Cái cảm giác gượng gạo nằm nhiều hơn ở chỗ mô hình phải quyết định nó nên "làm gì" theo thời gian. Insight lớn của các kỹ sư Google là độ nhất quán có thể được dùng làm điều kiện, được huấn luyện và được sinh ra như một thực thể riêng. Điều này có vẻ hoàn toàn có thể được các nhà cung cấp mô hình khác như Stability sao chép; không có gì trông là bất khả thi để triển khai.
    • Một bài đăng chủ đề pixel về một bài báo chủ đề pixel. Khá ấn tượng, và có lẽ sắp dẫn đến cả một làn sóng khổng lồ các chương trình "làm phim từ một đoạn văn". Nhưng vì là Google nên có lẽ nó sẽ bị nhốt trong hộp và trở thành kiểu thiết bị Rick and Morty mà chúng ta chẳng bao giờ được thấy. Cách định dạng danh sách tác giả thật hay. Ký hiệu 1,2,3,4,*,+ cho tác giả chính, xác nhận tổ chức và những người đóng góp cốt lõi rất ổn. Tôi đã đọc nhiều bài báo thiên văn và vật lý có hơn 10 tác giả nhưng hoàn toàn không biết ai đã làm gì. Ví dụ, liên kết arXiv không cho thấy định dạng tương tự. Có lẽ nó sẽ ngay lập tức bị dùng cho nội dung khiêu dâm lạm dụng. Ví dụ người phụ nữ đang đi bộ: (biến thể thứ 5) "không mặc quần áo"
    • Chúng ta sẽ xem bộ phim dài đầu tiên do AI tạo ra ngay trong năm nay. Nếu bạn nghĩ tôi điên, hãy nhớ rằng ngay cả vào buổi đầu của điện ảnh, độ dài trung bình của một cảnh quay là 12 giây, còn ngày nay chỉ là 2,5 giây. Một số kỹ thuật quan trọng như giữ chủ đề nhất quán giữa các thế hệ vẫn cần được tinh chỉnh, nhưng có thể bù cho nhiều điểm thiếu nhất quán bằng cách áp dụng các phương pháp hiện có như tách layer theo độ sâu để dùng hình ảnh tĩnh hơn, hoặc tạo các mô hình 3D đơn giản có texture ở những nơi cần nhiều chiều sâu hơn. Với đủ nỗ lực và kỹ năng, một người nào đó có lẽ đã có thể làm được điều này ngay cả với công nghệ hiện có.