- Đây là nghiên cứu về cách đóng gói ngữ cảnh khung hình đầu vào trong mô hình dự đoán khung hình tiếp theo cho tạo sinh video
- FramePack là phương pháp tối ưu hóa bố cục bộ nhớ GPU để thực hiện dự đoán khung hình một cách hiệu quả
- Phân bổ tài nguyên GPU theo mức độ quan trọng của khung hình để giảm độ phức tạp tính toán xuống O(1)
- Đề xuất lấy mẫu hai chiều để giải quyết vấn đề trôi dạt
- Nhấn mạnh phương pháp lấy mẫu chống trôi dạt đảo ngược vốn xem khung hình đầu tiên là quan trọng trong chuyển đổi ảnh sang video
Đóng gói khung hình đầu vào trong tạo sinh video
- Mô hình dự đoán khung hình tiếp theo tạo ra khung hình mới bằng cách sử dụng nhiều khung hình đầu vào
- FramePack mã hóa các khung hình đầu vào theo bố cục bộ nhớ GPU để cho phép tạo khung hình hiệu quả
- Mỗi khung hình được mã hóa bằng kernel chia patch, và độ dài ngữ cảnh được điều chỉnh theo mức độ quan trọng
- Ví dụ, trong HunyuanVideo, khung hình 480p sẽ thành 1536 token nếu dùng kernel chia patch (1, 2, 2), và thành 192 token nếu dùng kernel chia patch (2, 4, 4)
Mức độ quan trọng của khung hình và lập lịch
- Khung hình quan trọng được cấp nhiều tài nguyên GPU hơn
- Có thể làm cho các khung hình đầu trở nên quan trọng như nhau thông qua nhiều mẫu nén khác nhau
- Mọi cơ chế lập lịch đều có độ phức tạp O(1)
- Bài báo cung cấp đánh giá chi tiết cho nhiều cách lập lịch
Vấn đề trôi dạt và cách giải quyết
- Trôi dạt là vấn đề suy giảm chất lượng khi video trở nên dài hơn
- Còn được gọi là tích lũy lỗi hoặc thiên lệch phơi bày
- Để giải quyết, phương pháp này phá vỡ tính nhân quả và đưa vào lấy mẫu hai chiều
- Lấy mẫu chống trôi dạt đảo ngược xem khung hình đầu tiên là mục tiêu xấp xỉ trong mọi lần suy luận
Hiệu năng chuyển đổi ảnh sang video
- Trên laptop RTX 3060 6GB, hệ thống tạo video ảnh-5 giây và ảnh-60 giây bằng biến thể HY 13B
- Kết quả được nén bằng h264crf18 để phù hợp với kho lưu trữ GitHub
1 bình luận
Ý kiến trên Hacker News