Emu Video: tạo video chất lượng cao từ văn bản dựa trên một mô hình Diffusion duy nhất
- Tách quy trình thành hai bước
- Trước tiên tạo ảnh được điều kiện hóa theo prompt văn bản
- Tạo video được điều kiện hóa bởi cả văn bản và ảnh đã tạo
- Cách tiếp cận 'Factorized' hay phân tách này giúp huấn luyện mô hình tạo video hiệu quả
- Không giống các nghiên cứu trước đây cần chồng nhiều mô hình lên nhau (ví dụ: Make-A-Video cần 5 mô hình), cách triển khai đơn giản hơn và chỉ với hai mô hình khuếch tán có thể tạo video 512x512 dài 4 giây ở tốc độ 16 khung hình/giây
- Trên thực tế, 96% người tham gia đánh giá ưu tiên mô hình này hơn Make-A-Video về chất lượng, và 85% ưu tiên hơn về độ trung thành với prompt văn bản
- Ngoài ra, mô hình này còn áp dụng 'animation' cho ảnh do người dùng cung cấp dựa trên prompt văn bản, một lần nữa vượt xa các nghiên cứu trước đó với khoảng cách lớn
Emu Edit: chỉnh sửa ảnh chính xác thông qua các tác vụ nhận thức và tạo sinh
- Để tạo ra hình ảnh mong muốn, người dùng phải liên tục điều chỉnh prompt, và đó là lý do prompt engineering xuất hiện
- Nhưng vẫn còn giới hạn khi cần kiểm soát chính xác
- Emu Edit đơn giản hóa nhiều tác vụ thao tác ảnh khác nhau và mang lại khả năng cùng độ chính xác cao hơn cho chỉnh sửa ảnh
- Cho phép chỉnh sửa tự do thông qua các lệnh bao quát các tác vụ như chỉnh sửa cục bộ và toàn cục, xóa và thêm nền, biến đổi màu sắc và hình học, phát hiện và phân đoạn
- Các phương pháp hiện tại thường chỉnh sửa quá mức hoặc cho hiệu năng kém trong nhiều tác vụ chỉnh sửa khác nhau
- Không giống nhiều mô hình generative AI hiện nay, Emu Edit tuân thủ chỉ dẫn một cách chính xác nên các pixel của ảnh đầu vào không liên quan đến chỉ dẫn sẽ được giữ nguyên
- Ví dụ, khi thêm văn bản "Aloha!" vào mũ bóng chày thì bản thân chiếc mũ không được thay đổi
- Để huấn luyện mô hình, Meta đã phát triển một bộ dữ liệu gồm 10 triệu mẫu tổng hợp, trong đó mỗi mẫu bao gồm ảnh đầu vào, mô tả tác vụ cần thực hiện và ảnh đầu ra mục tiêu
- Đây là bộ dữ liệu lớn nhất cho đến nay
- Nhờ đó, mô hình Emu Edit cho thấy kết quả chỉnh sửa chưa từng có tiền lệ về độ trung thành với chỉ dẫn và chất lượng hình ảnh
- Đạt kết quả state-of-the-art mới trong cả đánh giá định tính lẫn định lượng cho nhiều tác vụ chỉnh sửa ảnh khác nhau, chứng minh hiệu năng vượt trội so với các phương pháp hiện có
1 bình luận
Tôi khá quan tâm đến Emu Edit. DALL·E có vẻ là cứ hễ đưa ra lệnh chỉnh sửa thì dù có cố định seed đi nữa nó vẫn tạo lại hẳn một ảnh mới, nên rất khó chỉnh sửa nhỏ; nếu có thể chỉnh sửa theo cách như vậy thì có lẽ sẽ tiện hơn khi sử dụng.