2 điểm bởi GN⁺ 2025-12-03 | 1 bình luận | Chia sẻ qua WhatsApp
  • normalizing flowtrình tạo video nhân quả đầu tiên có thể trực tiếp tạo video từ đầu vào văn bản, hình ảnh và video
  • Xử lý huấn luyện end-to-end, ước lượng likelihood chính xác, và nhiệm vụ tạo sinh đa dạng (T2V/I2V/V2V) trong một mô hình duy nhất
  • Cải thiện tính nhất quán không-thời gian và hiệu quả bằng kiến trúc Global-Local, Flow-Score Matchinglặp Jacobi nhận biết video
  • Mô hình 7B tham số tạo video 480p·16fps, được huấn luyện trên 70M dữ liệu văn bản-video400M dữ liệu văn bản-hình ảnh
  • Chứng minh normalizing flow có thể đạt chất lượng tương đương mô hình diffusion, đồng thời cho thấy tiềm năng của tạo video tự hồi quy chất lượng cao

Tổng quan về STARFlow-V

  • STARFlow-V là mô hình tạo video nhân quả dựa trên normalizing flow, đạt chất lượng hình ảnh ở mức các mô hình diffusion
    • Đồng thời cung cấp huấn luyện end-to-end, ước lượng likelihood chính xác, và hỗ trợ nhiều tác vụ tạo sinh
  • Chứng minh tính thực tiễn của normalizing flow trong lĩnh vực tạo video vốn do các mô hình diffusion dẫn dắt
  • Có thể xử lý cả tạo văn bản-thành-video (T2V), hình ảnh-thành-video (I2V) và video-thành-video (V2V) bằng một kiến trúc duy nhất

Thiết kế cốt lõi và cấu trúc huấn luyện

  • Mô hình gồm Deep Autoregressive Block (suy luận chuỗi thời gian toàn cục) và Shallow Flow Block (mô tả chi tiết trong từng khung hình)
    • Khối đầu tiên nắm bắt phụ thuộc dài hạn trong không gian tiềm ẩn không-thời gian
    • Khối sau mô hình hóa cấu trúc chi tiết cục bộ của từng khung hình
  • bộ khử nhiễu nhân quả hạng nhẹ được huấn luyện bằng Flow-Score Matching giúp cải thiện tính nhất quán của đầu ra
  • Mục tiêu huấn luyện có cấu trúc hai thành phần gồm ước lượng cực đại likelihoodFlow-Score Matching

Các đóng góp kỹ thuật chính

  • Kiến trúc Global-Local
    • Khối Transformer nhân quả toàn cục xử lý phụ thuộc không-thời gian dài hạn
    • Khối flow nông ở mức khung hình đảm nhiệm mô tả chi tiết cục bộ
    • Giảm nhẹ vấn đề tích lũy sai số của mô hình tự hồi quy ở mức pixel
  • Khử nhiễu dựa trên Flow-Score Matching
    • Đồng thời huấn luyện bộ khử nhiễu thần kinh nhân quả để dự đoán gradient phân phối xác suất (score) của mô hình
    • Có thể tinh chỉnh trong một bước mà không cần bộ denoiser bên ngoài phi nhân quả hoặc không hoàn chỉnh
  • Lặp Jacobi nhận biết video
    • Tái cấu trúc quá trình tạo sinh thành bài toán giải hệ phi tuyến để thực hiện cập nhật tiềm ẩn song song
    • Tăng tốc bằng khởi tạo tận dụng thông tin chuỗi thời gian của các khung hình lân cận và thực thi pipeline

Thông số mô hình

  • Dữ liệu huấn luyện: 70M cặp văn bản-video, 400M cặp văn bản-hình ảnh
  • Kích thước mô hình: 7B tham số, độ phân giải đầu ra 480p, tốc độ khung hình 16fps
  • Nhờ tính khả nghịch của normalizing flow, có thể thực hiện nhiều tác vụ tạo sinh khác nhau mà không cần thay đổi kiến trúc hay huấn luyện lại

Kết quả tạo sinh và so sánh

  • Văn bản-thành-video: tạo chất lượng cao cho nhiều cảnh như ánh sáng tự nhiên, phong cách ảnh thật, macro
  • Hình ảnh-thành-video: mở rộng thành video từ ảnh đầu vào trong khi vẫn giữ được tính nhất quán theo thời gian
  • Video-thành-video: thực hiện nhiều biến đổi như thêm đối tượng, đổi màu, đổi phong cách, inpainting
  • Tạo video dài: cũng có thể tạo video dài 10–30 giây theo cách tự hồi quy theo từng đoạn
  • Thử nghiệm so sánh: cho kết quả vượt trội hơn NOVA và WAN-Causal về độ trung thực hình ảnh và tính nhất quán theo thời gian

Hạn chế và các trường hợp thất bại

  • Chất lượng suy giảm trong các tương tác vật lý phức tạp hoặc chuyển động nhanh
  • Nguyên nhân được nêu gồm hạn chế tài nguyên huấn luyện, dữ liệu chất lượng thấp, và thiếu tinh chỉnh hậu kỳ (SFT·RL)
  • Ví dụ: quan sát thấy chuyển động thiếu tự nhiên trong các cảnh chó rũ nước hoặc dê nhảy

Ý nghĩa nghiên cứu

  • STARFlow-V lần đầu tiên chứng minh normalizing flow phù hợp với tạo video tự hồi quy chất lượng cao
  • Đề xuất một hướng tiếp cận thay thế mới cho nghiên cứu tạo video vốn tập trung vào mô hình diffusion
  • Được đánh giá là một hướng nghiên cứu đầy hứa hẹn để xây dựng world model

1 bình luận

 
GN⁺ 2025-12-03
Ý kiến trên Hacker News
  • Apple cũng có mô hình hiểu video
    Là một người khiếm thị, AI đã hoàn toàn thay đổi cuộc sống của tôi. Tôi thực sự mong chờ xem các tính năng trợ năng sẽ tiến bộ thế nào với mô hình này

    • Khó mà thấy những câu chuyện như thế này trên tiêu đề tin tức, nên đây thật sự là một bình luận rất đáng mừng
    • Vài năm trước họ cũng đã thêm tính năng phát hiện tiếng em bé khóc và gửi thông báo cho cha mẹ khiếm thính
    • Có thể đây là một bình luận chất lượng không cao, nhưng tôi chân thành chúc mừng và cảm thấy vui lây
    • Tôi tò mò liệu bạn có thể chia sẻ cụ thể hơn AI đã thay đổi cuộc sống của bạn như thế nào không
    • Thật vui khi hiếm hoi mới có một tin tốt về việc AI thực sự giúp ích cho con người
  • Giấy phép của Apple chỉ giới hạn cho nghiên cứu phi thương mại, nên không phù hợp với định nghĩa mã nguồn mở
    Vì vậy, tôi nghĩ gọi nó là “weights available” sẽ chính xác hơn là “open source”

    • Thực ra thì ngay cả weights cũng chưa được công bố
      Theo luật Mỹ, trọng số mô hình không phải là tác phẩm sáng tạo mà là đầu ra của máy, nên được xem là không có bản quyền
      Vì vậy tôi có lẽ sẽ bỏ qua những giấy phép vô nghĩa như thế này và cứ tự do sử dụng
  • Khái niệm “mô hình open-weight” khiến tôi hơi khó chịu vì nó giống như ‘phiên bản mã máy Windows mã nguồn mở’ vậy
    Giấy phép của Apple theo kiểu Clickwrap MIT, nên ít ra vẫn cho phép sửa đổi và phân phối lại

    • So sánh hay đấy. Nếu mở rộng ra thì “mã máy đóng” cũng giống với một mô hình SaaS điển hình
      Dù vậy, tôi vẫn nghĩ việc có thể trực tiếp dùng nhị phân còn tốt hơn là chỉ được cung cấp SaaS
    • Điều quan trọng là có thể chạy cục bộ
      Open weight khác với một file thực thi đơn thuần ở chỗ nó cho phép huấn luyện lại hoặc distillation
    • Có lẽ bạn đang nhầm giữa giấy phép mã nguồn và giấy phép mô hình
  • Tôi đã xem ví dụ text-to-video, và thành thật mà nói thì không thấy ấn tượng
    Nó khiến tôi nhớ tới video Will Smith ăn mì ngày xưa. Có phải tôi đang bỏ sót điều gì không?

    • Trông có vẻ chậm hơn trình độ hiện tại khoảng 2 năm
      Dù vậy, việc công khai để các nhà nghiên cứu có thể thử nghiệm vẫn có ý nghĩa
    • Nếu xem lại video Will Smith ăn spaghetti thì sẽ thấy, ví dụ lần này vẫn tốt hơn khá nhiều
      Chưa hoàn hảo, nhưng trong số các mô hình được công khai thì đây có thể là mức độ tiên tiến nhất
      Tuy nhiên, liệu giấy phép có đủ “mở” hay không thì vẫn đáng nghi ngờ
    • Tôi cũng nghĩ vậy. Có những chỗ khá gượng, như chất lỏng trong cốc đã dừng lại mà vẫn tiếp tục đầy lên
  • Với tư cách nghiên cứu, dự án này cho thấy những thử nghiệm mới và tiềm năng
    Nhưng ở góc độ sản phẩm thì có thể thấy rất rõ hạn chế về tài nguyên tính toán
    Điều này cũng phù hợp với các báo cáo nói rằng CFO đã ngăn quyết định đầu tư vào hạ tầng ML của CEO
    Từ việc JG rời đi, AI bị tái cơ cấu quy mô lớn, và tin đồn Tim sẽ nghỉ hưu vào năm 2026,
    có vẻ phe không theo ML đã thắng trong chính trị nội bộ công ty
    Dù vậy, cách tiếp cận này vẫn thú vị, nên tôi hy vọng những người khác sẽ dựa trên đó để tạo ra thứ gì đó hữu ích

  • Theo bài báo, đây là một mô hình nghiên cứu nhằm giải quyết vấn đề lỗi tích lũy của các mô hình video diffusion
    Người ta nói rằng họ đã thiết kế không gian tiềm ẩn với cấu trúc nhân quả (causal) để tăng tính nhất quán
    Với một mô hình quy mô 7B, kết quả là khá ổn
    Nếu Apple tung ra một mô hình ở cấp độ wan hay veo, có lẽ nó sẽ được huấn luyện bằng dữ liệu cực kỳ tinh lọc

  • STARFlow-V được cho là đã được huấn luyện trên khoảng 20 triệu video bằng 96 GPU H100
    Tuy nhiên, thời gian huấn luyện không được nêu rõ

    • Điều thú vị là Apple Intelligence được huấn luyện bằng Nvidia GPU và Linux
      Tôi tò mò liệu các ví dụ trong repo có thể suy luận trên Mac hay không
  • Tiêu đề bị sai. Mô hình vẫn chưa được công bố, và trong liên kết cũng không có nội dung đó
    Không rõ vì sao lại dùng một tiêu đề đã bị biên tập như vậy

  • Mô hình có vẻ tốt, nhưng tôi tò mò Apple đang nhắm tới trường hợp sử dụng nào
    Có thể đây chỉ là mối quan tâm của các nhà nghiên cứu, và tôi cũng không rõ định hướng nghiên cứu ở các tập đoàn lớn có phải từ trên đưa xuống không

    • Apple có thế mạnh trong lĩnh vực video và hoạt hình nhờ mối liên hệ với Pixar và Disney
      Có nhiều duyên nợ từ thời Jobs đến nay
    • Có lẽ là để thêm hiệu ứng tạo sinh vào video quay bằng iPhone
      TikTok hay Instagram sớm muộn cũng sẽ đưa các tính năng như vậy vào, nhưng có vẻ Apple muốn tự cung cấp chúng
      Cá nhân tôi thấy mua lại Snapchat có thể là một chiến lược hay
  • Trong repo có ghi “Pretrained checkpoints will be released soon
    Tức là hiện tại vẫn chưa phải open-weight
    Chỉ khi trọng số thực sự được công bố thì nó mới trở thành một mô hình mở đúng nghĩa
    Từ “Soon” là khi nào thì vẫn chưa ai biết