2 điểm bởi GN⁺ 2025-04-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đây là nghiên cứu về cách đóng gói ngữ cảnh khung hình đầu vào trong mô hình dự đoán khung hình tiếp theo cho tạo sinh video
  • FramePack là phương pháp tối ưu hóa bố cục bộ nhớ GPU để thực hiện dự đoán khung hình một cách hiệu quả
  • Phân bổ tài nguyên GPU theo mức độ quan trọng của khung hình để giảm độ phức tạp tính toán xuống O(1)
  • Đề xuất lấy mẫu hai chiều để giải quyết vấn đề trôi dạt
  • Nhấn mạnh phương pháp lấy mẫu chống trôi dạt đảo ngược vốn xem khung hình đầu tiên là quan trọng trong chuyển đổi ảnh sang video

Đóng gói khung hình đầu vào trong tạo sinh video

  • Mô hình dự đoán khung hình tiếp theo tạo ra khung hình mới bằng cách sử dụng nhiều khung hình đầu vào
  • FramePack mã hóa các khung hình đầu vào theo bố cục bộ nhớ GPU để cho phép tạo khung hình hiệu quả
  • Mỗi khung hình được mã hóa bằng kernel chia patch, và độ dài ngữ cảnh được điều chỉnh theo mức độ quan trọng
  • Ví dụ, trong HunyuanVideo, khung hình 480p sẽ thành 1536 token nếu dùng kernel chia patch (1, 2, 2), và thành 192 token nếu dùng kernel chia patch (2, 4, 4)

Mức độ quan trọng của khung hình và lập lịch

  • Khung hình quan trọng được cấp nhiều tài nguyên GPU hơn
  • Có thể làm cho các khung hình đầu trở nên quan trọng như nhau thông qua nhiều mẫu nén khác nhau
  • Mọi cơ chế lập lịch đều có độ phức tạp O(1)
  • Bài báo cung cấp đánh giá chi tiết cho nhiều cách lập lịch

Vấn đề trôi dạt và cách giải quyết

  • Trôi dạt là vấn đề suy giảm chất lượng khi video trở nên dài hơn
  • Còn được gọi là tích lũy lỗi hoặc thiên lệch phơi bày
  • Để giải quyết, phương pháp này phá vỡ tính nhân quả và đưa vào lấy mẫu hai chiều
  • Lấy mẫu chống trôi dạt đảo ngược xem khung hình đầu tiên là mục tiêu xấp xỉ trong mọi lần suy luận

Hiệu năng chuyển đổi ảnh sang video

  • Trên laptop RTX 3060 6GB, hệ thống tạo video ảnh-5 giâyảnh-60 giây bằng biến thể HY 13B
  • Kết quả được nén bằng h264crf18 để phù hợp với kho lưu trữ GitHub

1 bình luận

 
GN⁺ 2025-04-21
Ý kiến trên Hacker News
  • Người này đúng là thiên tài. Nói cho những ai chưa biết anh ấy cũng đã tạo ra ControlNet, đây là mô hình tạo video tử tế đầu tiên chạy được trên phần cứng tiêu dùng. Cũng rất mong sớm có hỗ trợ pose của ControlNet
    • Thú vị là mô hình này thực sự rất muốn để mọi người nhảy múa. Ngay cả một người đang ngồi để phỏng vấn cũng bắt đầu vừa ngồi vừa nhảy
    • Các ví dụ khá ấn tượng, và tài nguyên dùng để tạo ra chúng gần như không đáng kể. Có vẻ còn có thể suy luận trên cả phần cứng tiêu dùng thế hệ trước. Tôi cũng muốn xem thống kê thông lượng suy luận trên 5090
    • Liệu có thể làm việc này theo không gian không? Ví dụ, thay vì tạo ảnh cùng một lúc, có thể tạo từ trên xuống dưới không
    • Liệu mô hình này có thể được dùng cho nội suy thay vì ngoại suy video không
    • Thật đáng kinh ngạc. Nếu có nhiều RAM hơn hoặc thứ gì khác thì nó có thể nhanh hơn không? Có thể đạt tốc độ cao hơn trên H100 hay H200 không
    • Có vẻ chuyển động duy nhất mà mô hình này làm được là nhảy múa