5 điểm bởi davespark 2025-10-26 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

📝 TL;DR

  • LTX-2 = tiêu chuẩn mới cho mô hình tạo video đa phương thức mã nguồn mở
  • Tạo 4K+kèm âm thanh theo thời gian thực trên phần cứng tiêu dùng
  • Cuối tháng 11 sẽ công khai toàn bộ trọng số mô hình+mã nguồn+benchmark
  • Do Lightricks phát triển, bài báo arXiv đã được công bố

🔑 Key Highlights

  • Mô hình tạo sinh đồng bộ âm thanh-video đầu tiên trong thế giới mã nguồn mở

    • Sora 2, Movie Gen là thương mại/đóng, còn LTX-2 sẽ được phát hành hoàn toàn mã nguồn mở vào cuối tháng 11
    • Tạo video 4K 50fps, dài tối đa 10 giây + âm thanh được đồng bộ
  • Tốc độ tạo nhanh hơn thời gian thực

    • H100: tạo video 5 giây 24fps ở độ phân giải 768x512 chỉ trong 2 giây
    • Giảm 50% chi phí tính toán so với các mô hình hiện có
    • Có thể chạy cả trên GPU tiêu dùng (như RTX 4090)
  • Đột phá trong kiến trúc DiT lai

    • Video-VAE: tỷ lệ nén 1:192 (downscale 32x32x8)
    • Bộ giải mã VAE đảm nhiệm cả bước khử nhiễu cuối cùng → giữ được chi tiết tinh vi mà không cần upsampling riêng
    • Triển khai hiệu năng thời gian thực bằng stack suy luận đa GPU
  • Khả năng kiểm soát sáng tạo chi tiết

    • Multi-keyframe conditioning, logic camera 3D
    • LoRA fine-tuning để duy trì tính nhất quán về phong cách thương hiệu/IP
    • 3 chế độ Fast/Pro/Ultra để điều chỉnh tốc độ-chất lượng
  • Hệ sinh thái sẵn sàng dùng ngay

    • Đã tích hợp với Fal.ai, Replicate, ComfyUI
    • Có thể thử nghiệm trong API Playground
    • Hỗ trợ tích hợp trực tiếp với công cụ chỉnh sửa, stack VFX, game engine

Chưa có bình luận nào.

Chưa có bình luận nào.