STARFlow-V: Mô hình tạo video đầu-cuối dựa trên normalizing flow

(starflow-v.github.io)

2 điểm bởi GN⁺ 2025-12-03 | 1 bình luận | Chia sẻ qua WhatsApp

normalizing flow là trình tạo video nhân quả đầu tiên có thể trực tiếp tạo video từ đầu vào văn bản, hình ảnh và video
Xử lý huấn luyện end-to-end, ước lượng likelihood chính xác, và nhiệm vụ tạo sinh đa dạng (T2V/I2V/V2V) trong một mô hình duy nhất
Cải thiện tính nhất quán không-thời gian và hiệu quả bằng kiến trúc Global-Local, Flow-Score Matching và lặp Jacobi nhận biết video
Mô hình 7B tham số tạo video 480p·16fps, được huấn luyện trên 70M dữ liệu văn bản-video và 400M dữ liệu văn bản-hình ảnh
Chứng minh normalizing flow có thể đạt chất lượng tương đương mô hình diffusion, đồng thời cho thấy tiềm năng của tạo video tự hồi quy chất lượng cao

Tổng quan về STARFlow-V

STARFlow-V là mô hình tạo video nhân quả dựa trên normalizing flow, đạt chất lượng hình ảnh ở mức các mô hình diffusion
- Đồng thời cung cấp huấn luyện end-to-end, ước lượng likelihood chính xác, và hỗ trợ nhiều tác vụ tạo sinh
Chứng minh tính thực tiễn của normalizing flow trong lĩnh vực tạo video vốn do các mô hình diffusion dẫn dắt
Có thể xử lý cả tạo văn bản-thành-video (T2V), hình ảnh-thành-video (I2V) và video-thành-video (V2V) bằng một kiến trúc duy nhất

Thiết kế cốt lõi và cấu trúc huấn luyện

Mô hình gồm Deep Autoregressive Block (suy luận chuỗi thời gian toàn cục) và Shallow Flow Block (mô tả chi tiết trong từng khung hình)
- Khối đầu tiên nắm bắt phụ thuộc dài hạn trong không gian tiềm ẩn không-thời gian
- Khối sau mô hình hóa cấu trúc chi tiết cục bộ của từng khung hình
bộ khử nhiễu nhân quả hạng nhẹ được huấn luyện bằng Flow-Score Matching giúp cải thiện tính nhất quán của đầu ra
Mục tiêu huấn luyện có cấu trúc hai thành phần gồm ước lượng cực đại likelihood và Flow-Score Matching

Các đóng góp kỹ thuật chính

Kiến trúc Global-Local
- Khối Transformer nhân quả toàn cục xử lý phụ thuộc không-thời gian dài hạn
- Khối flow nông ở mức khung hình đảm nhiệm mô tả chi tiết cục bộ
- Giảm nhẹ vấn đề tích lũy sai số của mô hình tự hồi quy ở mức pixel
Khử nhiễu dựa trên Flow-Score Matching
- Đồng thời huấn luyện bộ khử nhiễu thần kinh nhân quả để dự đoán gradient phân phối xác suất (score) của mô hình
- Có thể tinh chỉnh trong một bước mà không cần bộ denoiser bên ngoài phi nhân quả hoặc không hoàn chỉnh
Lặp Jacobi nhận biết video
- Tái cấu trúc quá trình tạo sinh thành bài toán giải hệ phi tuyến để thực hiện cập nhật tiềm ẩn song song
- Tăng tốc bằng khởi tạo tận dụng thông tin chuỗi thời gian của các khung hình lân cận và thực thi pipeline

Thông số mô hình

Dữ liệu huấn luyện: 70M cặp văn bản-video, 400M cặp văn bản-hình ảnh
Kích thước mô hình: 7B tham số, độ phân giải đầu ra 480p, tốc độ khung hình 16fps
Nhờ tính khả nghịch của normalizing flow, có thể thực hiện nhiều tác vụ tạo sinh khác nhau mà không cần thay đổi kiến trúc hay huấn luyện lại

Kết quả tạo sinh và so sánh

Văn bản-thành-video: tạo chất lượng cao cho nhiều cảnh như ánh sáng tự nhiên, phong cách ảnh thật, macro
Hình ảnh-thành-video: mở rộng thành video từ ảnh đầu vào trong khi vẫn giữ được tính nhất quán theo thời gian
Video-thành-video: thực hiện nhiều biến đổi như thêm đối tượng, đổi màu, đổi phong cách, inpainting
Tạo video dài: cũng có thể tạo video dài 10–30 giây theo cách tự hồi quy theo từng đoạn
Thử nghiệm so sánh: cho kết quả vượt trội hơn NOVA và WAN-Causal về độ trung thực hình ảnh và tính nhất quán theo thời gian

Hạn chế và các trường hợp thất bại

Chất lượng suy giảm trong các tương tác vật lý phức tạp hoặc chuyển động nhanh
Nguyên nhân được nêu gồm hạn chế tài nguyên huấn luyện, dữ liệu chất lượng thấp, và thiếu tinh chỉnh hậu kỳ (SFT·RL)
Ví dụ: quan sát thấy chuyển động thiếu tự nhiên trong các cảnh chó rũ nước hoặc dê nhảy

Ý nghĩa nghiên cứu

STARFlow-V lần đầu tiên chứng minh normalizing flow phù hợp với tạo video tự hồi quy chất lượng cao
Đề xuất một hướng tiếp cận thay thế mới cho nghiên cứu tạo video vốn tập trung vào mô hình diffusion
Được đánh giá là một hướng nghiên cứu đầy hứa hẹn để xây dựng world model

1 bình luận

GN⁺ 2025-12-03

Ý kiến trên Hacker News

Apple cũng có mô hình hiểu video
Là một người khiếm thị, AI đã hoàn toàn thay đổi cuộc sống của tôi. Tôi thực sự mong chờ xem các tính năng trợ năng sẽ tiến bộ thế nào với mô hình này
- Khó mà thấy những câu chuyện như thế này trên tiêu đề tin tức, nên đây thật sự là một bình luận rất đáng mừng
- Vài năm trước họ cũng đã thêm tính năng phát hiện tiếng em bé khóc và gửi thông báo cho cha mẹ khiếm thính
- Có thể đây là một bình luận chất lượng không cao, nhưng tôi chân thành chúc mừng và cảm thấy vui lây
- Tôi tò mò liệu bạn có thể chia sẻ cụ thể hơn AI đã thay đổi cuộc sống của bạn như thế nào không
- Thật vui khi hiếm hoi mới có một tin tốt về việc AI thực sự giúp ích cho con người
Giấy phép của Apple chỉ giới hạn cho nghiên cứu phi thương mại, nên không phù hợp với định nghĩa mã nguồn mở
Vì vậy, tôi nghĩ gọi nó là “weights available” sẽ chính xác hơn là “open source”
- Thực ra thì ngay cả weights cũng chưa được công bố
  Theo luật Mỹ, trọng số mô hình không phải là tác phẩm sáng tạo mà là đầu ra của máy, nên được xem là không có bản quyền
  Vì vậy tôi có lẽ sẽ bỏ qua những giấy phép vô nghĩa như thế này và cứ tự do sử dụng
Khái niệm “mô hình open-weight” khiến tôi hơi khó chịu vì nó giống như ‘phiên bản mã máy Windows mã nguồn mở’ vậy
Giấy phép của Apple theo kiểu Clickwrap MIT, nên ít ra vẫn cho phép sửa đổi và phân phối lại
- So sánh hay đấy. Nếu mở rộng ra thì “mã máy đóng” cũng giống với một mô hình SaaS điển hình
  Dù vậy, tôi vẫn nghĩ việc có thể trực tiếp dùng nhị phân còn tốt hơn là chỉ được cung cấp SaaS
- Điều quan trọng là có thể chạy cục bộ
  Open weight khác với một file thực thi đơn thuần ở chỗ nó cho phép huấn luyện lại hoặc distillation
- Có lẽ bạn đang nhầm giữa giấy phép mã nguồn và giấy phép mô hình
Tôi đã xem ví dụ text-to-video, và thành thật mà nói thì không thấy ấn tượng
Nó khiến tôi nhớ tới video Will Smith ăn mì ngày xưa. Có phải tôi đang bỏ sót điều gì không?
- Trông có vẻ chậm hơn trình độ hiện tại khoảng 2 năm
  Dù vậy, việc công khai để các nhà nghiên cứu có thể thử nghiệm vẫn có ý nghĩa
- Nếu xem lại video Will Smith ăn spaghetti thì sẽ thấy, ví dụ lần này vẫn tốt hơn khá nhiều
  Chưa hoàn hảo, nhưng trong số các mô hình được công khai thì đây có thể là mức độ tiên tiến nhất
  Tuy nhiên, liệu giấy phép có đủ “mở” hay không thì vẫn đáng nghi ngờ
- Tôi cũng nghĩ vậy. Có những chỗ khá gượng, như chất lỏng trong cốc đã dừng lại mà vẫn tiếp tục đầy lên
Với tư cách nghiên cứu, dự án này cho thấy những thử nghiệm mới và tiềm năng
Nhưng ở góc độ sản phẩm thì có thể thấy rất rõ hạn chế về tài nguyên tính toán
Điều này cũng phù hợp với các báo cáo nói rằng CFO đã ngăn quyết định đầu tư vào hạ tầng ML của CEO
Từ việc JG rời đi, AI bị tái cơ cấu quy mô lớn, và tin đồn Tim sẽ nghỉ hưu vào năm 2026,
có vẻ phe không theo ML đã thắng trong chính trị nội bộ công ty
Dù vậy, cách tiếp cận này vẫn thú vị, nên tôi hy vọng những người khác sẽ dựa trên đó để tạo ra thứ gì đó hữu ích
Theo bài báo, đây là một mô hình nghiên cứu nhằm giải quyết vấn đề lỗi tích lũy của các mô hình video diffusion
Người ta nói rằng họ đã thiết kế không gian tiềm ẩn với cấu trúc nhân quả (causal) để tăng tính nhất quán
Với một mô hình quy mô 7B, kết quả là khá ổn
Nếu Apple tung ra một mô hình ở cấp độ wan hay veo, có lẽ nó sẽ được huấn luyện bằng dữ liệu cực kỳ tinh lọc
STARFlow-V được cho là đã được huấn luyện trên khoảng 20 triệu video bằng 96 GPU H100
Tuy nhiên, thời gian huấn luyện không được nêu rõ
- Điều thú vị là Apple Intelligence được huấn luyện bằng Nvidia GPU và Linux
  Tôi tò mò liệu các ví dụ trong repo có thể suy luận trên Mac hay không
Tiêu đề bị sai. Mô hình vẫn chưa được công bố, và trong liên kết cũng không có nội dung đó
Không rõ vì sao lại dùng một tiêu đề đã bị biên tập như vậy
Mô hình có vẻ tốt, nhưng tôi tò mò Apple đang nhắm tới trường hợp sử dụng nào
Có thể đây chỉ là mối quan tâm của các nhà nghiên cứu, và tôi cũng không rõ định hướng nghiên cứu ở các tập đoàn lớn có phải từ trên đưa xuống không
- Apple có thế mạnh trong lĩnh vực video và hoạt hình nhờ mối liên hệ với Pixar và Disney
  Có nhiều duyên nợ từ thời Jobs đến nay
- Có lẽ là để thêm hiệu ứng tạo sinh vào video quay bằng iPhone
  TikTok hay Instagram sớm muộn cũng sẽ đưa các tính năng như vậy vào, nhưng có vẻ Apple muốn tự cung cấp chúng
  Cá nhân tôi thấy mua lại Snapchat có thể là một chiến lược hay
Trong repo có ghi “Pretrained checkpoints will be released soon”
Tức là hiện tại vẫn chưa phải open-weight
Chỉ khi trọng số thực sự được công bố thì nó mới trở thành một mô hình mở đúng nghĩa
Từ “Soon” là khi nào thì vẫn chưa ai biết

STARFlow-V: Mô hình tạo video đầu-cuối dựa trên normalizing flow

Tổng quan về STARFlow-V

Thiết kế cốt lõi và cấu trúc huấn luyện

Các đóng góp kỹ thuật chính

Thông số mô hình

Kết quả tạo sinh và so sánh

Hạn chế và các trường hợp thất bại

Ý nghĩa nghiên cứu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News