📝 TL;DR
- LTX-2 = tiêu chuẩn mới cho mô hình tạo video đa phương thức mã nguồn mở
- Tạo 4K+kèm âm thanh theo thời gian thực trên phần cứng tiêu dùng
- Cuối tháng 11 sẽ công khai toàn bộ trọng số mô hình+mã nguồn+benchmark
- Do Lightricks phát triển, bài báo arXiv đã được công bố
🔑 Key Highlights
-
Mô hình tạo sinh đồng bộ âm thanh-video đầu tiên trong thế giới mã nguồn mở
- Sora 2, Movie Gen là thương mại/đóng, còn LTX-2 sẽ được phát hành hoàn toàn mã nguồn mở vào cuối tháng 11
- Tạo video 4K 50fps, dài tối đa 10 giây + âm thanh được đồng bộ
-
Tốc độ tạo nhanh hơn thời gian thực
- H100: tạo video 5 giây 24fps ở độ phân giải 768x512 chỉ trong 2 giây
- Giảm 50% chi phí tính toán so với các mô hình hiện có
- Có thể chạy cả trên GPU tiêu dùng (như RTX 4090)
-
Đột phá trong kiến trúc DiT lai
- Video-VAE: tỷ lệ nén 1:192 (downscale 32x32x8)
- Bộ giải mã VAE đảm nhiệm cả bước khử nhiễu cuối cùng → giữ được chi tiết tinh vi mà không cần upsampling riêng
- Triển khai hiệu năng thời gian thực bằng stack suy luận đa GPU
-
Khả năng kiểm soát sáng tạo chi tiết
- Multi-keyframe conditioning, logic camera 3D
- LoRA fine-tuning để duy trì tính nhất quán về phong cách thương hiệu/IP
- 3 chế độ Fast/Pro/Ultra để điều chỉnh tốc độ-chất lượng
-
Hệ sinh thái sẵn sàng dùng ngay
- Đã tích hợp với Fal.ai, Replicate, ComfyUI
- Có thể thử nghiệm trong API Playground
- Hỗ trợ tích hợp trực tiếp với công cụ chỉnh sửa, stack VFX, game engine
Chưa có bình luận nào.