Goku - Mô hình tạo video dựa trên Flow của ByteDance

xguru · 2025-02-14T10:02:01+09:00

Goku là một họ mô hình tạo ảnh và video mới dựa trên "Rectified Flow Transformer", hướng tới hiệu năng hàng đầu ngành Áp dụng nhiều tối ưu hóa như "chọn lọc dữ liệu, thiết kế mô hình, công thức hóa flow" để tạo sinh hình ảnh chất lượng cao Các đặc điểm chính Tạo ảnh và video chính xác nhờ chọn lọc dữ liệu chất lượng cao Tăng cường tương tác giữa các token ảnh và video bằng kỹ thuật Rectified Flow Mang lại hiệu năng vượt trội trong tạo ảnh và video Các tác vụ tạo sinh được hỗ trợ Văn bản → tạo video Ảnh → tạo video Văn bản → tạo ảnh Benchmark hiệu năng: ghi nhận kết quả cao trên các benchmark chính 0.76 (GenEval - văn bản → tạo ảnh) 83.65 (DPG-Bench - văn bản → tạo ảnh) 84.85 (VBench - văn bản → tạo video) Goku-T2V đạt 84.85 điểm trong so sánh hiệu năng VBench, xếp hạng 2 tính đến ngày 7 tháng 10 năm 2024 Vượt qua nhiều mô hình text-to-video thương mại (AnimateDiff-V2, OpenSora, Gen-3, Kling, v.v.)

(github.com/Saiyan-World)

6 điểm bởi xguru 2025-02-14 | 2 bình luận | Chia sẻ qua WhatsApp

Goku là một họ mô hình tạo ảnh và video mới dựa trên "Rectified Flow Transformer", hướng tới hiệu năng hàng đầu ngành
Áp dụng nhiều tối ưu hóa như "chọn lọc dữ liệu, thiết kế mô hình, công thức hóa flow" để tạo sinh hình ảnh chất lượng cao
Các đặc điểm chính
- Tạo ảnh và video chính xác nhờ chọn lọc dữ liệu chất lượng cao
- Tăng cường tương tác giữa các token ảnh và video bằng kỹ thuật Rectified Flow
- Mang lại hiệu năng vượt trội trong tạo ảnh và video
Các tác vụ tạo sinh được hỗ trợ
- Văn bản → tạo video
- Ảnh → tạo video
- Văn bản → tạo ảnh
Benchmark hiệu năng: ghi nhận kết quả cao trên các benchmark chính
- 0.76 (GenEval - văn bản → tạo ảnh)
- 83.65 (DPG-Bench - văn bản → tạo ảnh)
- 84.85 (VBench - văn bản → tạo video)
Goku-T2V đạt 84.85 điểm trong so sánh hiệu năng VBench, xếp hạng 2 tính đến ngày 7 tháng 10 năm 2024
- Vượt qua nhiều mô hình text-to-video thương mại (AnimateDiff-V2, OpenSora, Gen-3, Kling, v.v.)

2 bình luận

kimhj 2025-02-14

Gần đây ByteDance công bố rất nhiều bài báo kỹ thuật liên quan... tôi nghĩ chẳng bao lâu nữa nó cũng sẽ được áp dụng lên TikTok.

xguru 2025-02-14

Goku+: Video Ads Foundation Models

Các ví dụ ứng dụng thực tế ở phần dưới đây còn thú vị hơn.

Nó có thể tạo ra avatar cho mục đích marketing, hoặc tạo các đoạn video clip từ hình ảnh sản phẩm.
Sau đó còn dùng chính thứ đó để ghép con người và sản phẩm thành một, rồi tạo hẳn video giới thiệu sản phẩm.
Vì vậy các video như ăn đồ ăn, mặc quần áo đi lại, trang điểm hay gội đầu đều được làm rất trơn tru.
Có lẽ đây là những ví dụ được tối ưu cho social commerce ở Trung Quốc.

Goku - Mô hình tạo video dựa trên Flow của ByteDance

Bài viết liên quan

2 bình luận