Ra mắt Stable Video Diffusion

(stability.ai)

14 điểm bởi GN⁺ 2023-11-22 | 2 bình luận | Chia sẻ qua WhatsApp

Stable Video Diffusion là mô hình video tạo sinh đầu tiên dựa trên mô hình hình ảnh Stable Diffusion
Được cung cấp dưới dạng bản preview cho mục đích nghiên cứu, mô hình video AI tạo sinh mới nhất này là một bước quan trọng trong hành trình xây dựng nhiều loại mô hình khác nhau
Có thể xem mã nguồn trong kho GitHub, và các trọng số cần thiết để chạy mô hình cục bộ có trên trang Hugging Face

Có thể áp dụng cho nhiều ứng dụng video khác nhau

Mô hình video có thể dễ dàng được áp dụng cho nhiều tác vụ downstream khác nhau, bao gồm tổng hợp đa góc nhìn từ một hình ảnh duy nhất
Tương tự hệ sinh thái được xây dựng quanh Stable Diffusion, đang có kế hoạch phát triển nhiều mô hình khác nhau dựa trên nền tảng này và mở rộng nó
Có thể đăng ký vào danh sách chờ từ hôm nay cho trải nghiệm web mới có giao diện text-to-video

Có tính cạnh tranh về hiệu năng

Stable Video Diffusion được phát hành với hai mô hình image-to-video có thể tạo 14 và 25 khung hình, với tốc độ khung hình có thể tùy chỉnh từ 3 đến 30 khung hình mỗi giây
Tại thời điểm được phát hành ở dạng cơ bản, các đánh giá bên ngoài cho thấy những mô hình này vượt qua các mô hình đóng hàng đầu trong nghiên cứu về mức độ ưa thích của người dùng

Chỉ dành cho nghiên cứu

Dù rất hào hứng với việc cập nhật mô hình bằng các tiến bộ mới nhất và tích hợp phản hồi, nhưng nhấn mạnh rằng ở giai đoạn hiện tại, đây chưa phải là sản phẩm dành cho ứng dụng thực tế hoặc thương mại
Những hiểu biết và phản hồi về độ an toàn và chất lượng là rất quan trọng để tinh chỉnh mô hình cho lần phát hành cuối cùng

Mở rộng liên tục các mô hình AI

Stable Video Diffusion là sự bổ sung đáng tự hào vào dải mô hình mã nguồn mở đa dạng, bao trùm nhiều modality như hình ảnh, ngôn ngữ, âm thanh, 3D và mã nguồn
Đây là danh mục thể hiện cam kết của Stability AI trong việc khuếch đại trí tuệ con người.

Ý kiến của GN⁺

Điều quan trọng nhất trong bài viết này là việc ra mắt mô hình Stable Video Diffusion, cho thấy sự phát triển của công nghệ AI và mở ra khả năng ứng dụng trong nhiều lĩnh vực khác nhau.
Công nghệ này mang đến công cụ mới cho các nhà nghiên cứu và nhà phát triển, cho phép tạo video sáng tạo, đồng thời gợi mở những ứng dụng thú vị trong quảng cáo, giáo dục, giải trí và nhiều lĩnh vực khác.

2 bình luận

xguru 2023-11-22

Khoảnh khắc Stable Diffusion đang đến với LLM

Liệu khoảnh khắc Stable Diffusion này giờ cũng sẽ đến với video? Quả thật, dạo gần đây trong số các startup AI ở nước ngoài, nơi đang thu hút dòng tiền có vẻ đúng là mảng video.

GN⁺ 2023-11-22

Ý kiến Hacker News

Ở cuối trang video có hai con chim xuất hiện, và ở hậu cảnh là hai tòa nhà giống hệt nhau trông như tháp CN. Tháp CN là một địa danh nổi tiếng của Toronto, và đội bóng chày của Toronto có tên là Blue Jays. Tòa tháp này nằm gần sân vận động thể thao chính ở trung tâm thành phố. Tôi phần nào hiểu cách hoạt động của chuyển đổi văn bản thành hình ảnh, và có vẻ hợp lý khi "chim xanh" sẽ ở trong không gian vector gần với "Toronto" hoặc "tháp CN". Việc cải thiện quy mô và tốc độ từ hình ảnh sang video rất ấn tượng, nhưng khi nhìn vào mức độ mạnh mẽ của các mô hình tạo ảnh, tôi vẫn cảm thấy nó còn hạn chế do thiếu khả năng chỉnh sửa hoặc lặp lại. Ví dụ, tôi tự hỏi liệu đã có giải pháp nào để mô hình có thể thực hiện tác vụ lặp bằng các prompt như "di chuyển chiếc xe đạp trong ảnh sang bên trái" hay chưa. Tôi cảm thấy lĩnh vực này đang phát triển cực kỳ nhanh.
Tốc độ tiến bộ của lĩnh vực máy học trong năm qua thật đáng kinh ngạc. Nếu ControlNet được áp dụng phù hợp cho video, tôi rất mong chờ xem mọi người sẽ sử dụng công nghệ này như thế nào. Việc tạo video từ đầu rất tuyệt, nhưng tính hữu ích thực sự của công nghệ này nằm ở tính nhất quán theo thời gian. Để có được video ổn định, thông thường vẫn cần rất nhiều hậu kỳ thủ công.
Tôi vẫn thắc mắc giấy phép mô hình "phi thương mại" sẽ được thực thi như thế nào. Giấy phép phần mềm điều chỉnh việc tái phân phối phần mềm, nhưng không điều chỉnh sản phẩm được tạo ra từ nó. Ví dụ, hình ảnh được tạo bằng GIMP không vì thế mà chịu giấy phép GPL.
Lĩnh vực này chuyển động rất nhanh. Chớp mắt một cái là đã có bài báo mới xuất hiện. Tốc độ học hỏi của con người thật đáng kinh ngạc. Việc dùng nó cho các downstream tasks rất thú vị. Tôi tự hỏi việc tích hợp mô hình này với animatediff dễ đến mức nào. Ngoài ra, tôi cũng muốn biết liệu có thể benchmark trên thiết bị M3 hay không, và liệu việc dùng M3 Pro để chạy suy luận khuếch tán và phát triển loại này có đáng giá không.
Một bước nhảy vọt hấp dẫn về mặt kỹ thuật. Nó khiến tôi nghĩ đến sự khác biệt giữa ancestral samplers và non-ancestral samplers. Ví dụ, phương pháp Euler có phần mang tính quyết định hơn và đầu ra không thay đổi khi số bước lấy mẫu tăng lên, trong khi Euler Ancestral thêm nhiễu ở mỗi bước để tạo ra nhiều đa dạng hơn nhưng cũng ngẫu nhiên/xác suất hơn. Để tạo video, tôi nghĩ sampler sẽ phải phụ thuộc nhiều vào khung hình trước đó đồng thời chèn vào một dạng sub-prompt nào đó. Ví dụ như "xoay một vật thể cụ thể sang trái 5 độ". Tôi thích cách một người bình luận khác dùng cụm từ "tính nhất quán theo thời gian".
Có vẻ hợp lý khi việc loại bỏ tất cả các cảnh cắt và fade khỏi dữ liệu huấn luyện có thể cải thiện kết quả. Trong phần nền tảng của bài báo nghiên cứu có nhắc đến "các lớp tích chập theo thời gian", có ai có thể giải thích đó là gì không? Tôi đang tự hỏi liệu có loại dữ liệu huấn luyện nào được đưa vào để biểu diễn trạng thái theo thời gian giữa các hình ảnh cấu thành video hay không, hay là nó có nghĩa khác.
Đây là một tiến bộ rất tuyệt. Vài tháng trước tôi đã thử một số mô hình tạo "video" trên Replicate, và tuy có được kết quả rất ấn tượng, nhưng rõ ràng các video tạo ra thực chất được dựng bằng cách dùng khung hình trước làm prompt. Công nghệ này có vẻ thực sự có thể tạo ra thứ gì đó mang ngữ cảnh ở cấp độ cao hơn. Thật đáng kinh ngạc khi chứng kiến mức độ tiến bộ này chỉ trong hơn nửa năm một chút.
Tôi đề nghị Stability.ai hãy đảm bảo rằng hội đồng quản trị của họ là hợp lý.
Tôi rất mong được thử công nghệ này. Xin giới thiệu một vài thử nghiệm tôi đã thực hiện gần đây.
Cũng như với ảnh tĩnh, việc quan sát những lỗi tinh vi ngoài ý muốn là điều rất thú vị. Ví dụ, người đàn ông đội mũ cao bồi trông như gần bị nghẹt thở, và trong video đoàn tàu, đường ray trông quá rộng trong khi đoàn tàu di chuyển như đang trượt băng trên mặt băng.