Seedance 1.0 - Mô hình tạo video đa cảnh của ByteDance

(seed.bytedance.com)

4 điểm bởi GN⁺ 2025-06-14 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình tạo video đa cảnh dựa trên văn bản và hình ảnh, cho thấy hiệu năng chính xác và linh hoạt hơn các mô hình hiện có trong khả năng hiểu ngữ nghĩa và diễn giải prompt
Cung cấp đầu ra có độ phân giải cao 1080p cùng với chuyển cảnh mượt mà, chi tiết phong phú và cảm giác điện ảnh
Cải thiện hiệu năng tổng thể nhờ fine-tuning tinh chỉnh chi tiết và cơ chế phần thưởng RLHF chuyên biệt cho video
Có thể tạo ra nội dung hình ảnh động và giàu tính nhập vai, đáp ứng các yêu cầu dựa trên mô tả văn bản hoặc hình ảnh
Hỗ trợ cả tạo đa cảnh lẫn các tác vụ văn bản→video / hình ảnh→video nhờ kiến trúc hiệu quả và mô hình huấn luyện mới

Giới thiệu Seedance 1.0

Gần đây, nhờ những bước tiến lớn của mô hình diffusion, công nghệ tạo video đang phát triển rất nhanh
Tuy nhiên, phần lớn các mô hình hiện có vẫn gặp khó khăn trong việc cân bằng giữa thực hiện chỉ dẫn (prompt), độ tự nhiên của chuyển động và chất lượng hình ảnh
Seedance 1.0 là một mô hình nền tảng tạo video áp dụng các cải tiến kỹ thuật chính sau đây
- (i) Thu thập dữ liệu từ nhiều nguồn kèm theo caption video chính xác, cho phép học toàn diện trên nhiều kịch bản
- (ii) Với kiến trúc hiệu quả và mô hình huấn luyện, hỗ trợ đồng thời tạo đa cảnh, văn bản→video và hình ảnh→video
- (iii) Hậu xử lý được tối ưu tinh vi: supervised fine-tuning tinh xảo, RLHF chuyên biệt cho video và cơ chế phần thưởng đa chiều giúp cải thiện mạnh hiệu năng tổng thể
- (iv) Tăng tốc mô hình: cải thiện tốc độ suy luận gấp 10 lần thông qua chưng cất nhiều giai đoạn và tối ưu ở cấp độ hệ thống
Có thể tạo video 1080p dài 5 giây chỉ trong 41,4 giây trên GPU NVIDIA-L20
So với các mô hình tạo video mới nhất, mô hình này nổi trội về độ linh hoạt không-thời gian, độ ổn định cấu trúc, khả năng thực hiện chỉ dẫn trong các tình huống đa tầng phức tạp, cũng như tính nhất quán của đa cảnh và kể chuyện

1 bình luận

GN⁺ 2025-06-14

Ý kiến trên Hacker News

Có người mong chờ một tương lai mà những khả năng như thế này sẽ trở nên quá đỗi bình thường và tẻ nhạt
- Họ hình dung ra mức độ mà chỉ với điện thoại, có thể ngẫu hứng tạo ngay một bộ anime 24 tập lồng tiếng đầy đủ để vui đùa cùng bạn bè trong nhóm chat
- Ngay bây giờ đã có thể làm được nhiều điều khó tin, và việc chẳng bao lâu nữa sẽ không còn ai bận tâm đến điều đó cũng thật kỳ lạ
- Họ chỉ ra rằng dù có tạo ra một series 24 tập chỉ bằng vài prompt đơn giản đi nữa, rốt cuộc cũng sẽ chẳng ai quan tâm
  - Theo họ, AI không làm tăng giá trị của nội dung mà đang xóa bỏ tính khan hiếm, từ đó làm nội dung mất đi ý nghĩa
  - Họ cũng để lại một phép so sánh về cảm giác mọi thứ chỉ được máy móc tạo ra, kiểu như Tea. Earl Grey. Hot.
- Khi việc làm nội dung trở nên dễ như vậy, họ đặt câu hỏi liệu còn ai bỏ thời gian dài để xem video hay không
  - Phỏng đoán là cuối cùng ai cũng sẽ bận tận hưởng nội dung tạo sinh dành riêng cho chính mình
- Bản thân họ cũng rất mong chờ công nghệ này
  - Ví dụ như họ rất hào hứng với ý tưởng tự làm một bộ phim kiểu Shadowrun
- Lượng nội dung được tạo ra mỗi tháng được dự đoán sẽ vượt tổng toàn bộ nội dung mà nhân loại từng tạo ra trong lịch sử
  - Thay vì chỉ toàn truyền thông đại chúng như Disney, Marvel, Star Wars, mọi người sẽ được thưởng thức long-tail media đúng với sở thích riêng của mình
  - Nếu quan tâm đến Ai Cập và Atlantis, ta cũng có thể tưởng tượng ra một thế giới nơi có thể xem ngay một series steampunk về cuộc chiến giữa hai nền văn minh đó, với tông màu nghiêm túc như The Wire
  - Những ý tưởng vốn trước đây chắc chắn không bao giờ được sản xuất cũng sẽ trở nên khả thi
  - Sẽ xuất hiện những nhà sáng tạo giỏi, và giờ đây nhiều creator đa dạng có thể nổi bật như cách indie music, indie comic, indie game từng làm được
  - Vấn đề thực sự sẽ là “khả năng được khám phá”
  - Họ nhấn mạnh rằng cấu trúc ngành cũ, nơi phải chen chân vào vài trăm vị trí hữu hạn mỗi năm, sẽ sụp đổ, và rất nhiều người tài với tầm nhìn riêng sẽ có thể thực hiện những thử nghiệm lớn
  - Mô hình bắt đầu từ YouTube rồi phát triển thành IP khổng lồ như VivziePop(wiki về Vivienne Medrano), PsychicPebbles(wiki về Zach Hadel) sẽ trở thành chuẩn mực của tương lai
  - Họ dự đoán đổi mới trong giới sáng tạo sẽ không chỉ tốt hơn 2~10 lần mà gần như gấp 1000 lần
  - Trước nay họ không thích phần lớn phim/drama vì không hợp gu, nhưng bản thân vẫn luôn yêu thích media như một phương tiện
  - Giờ đây họ cực kỳ háo hức với một thế giới nơi có thể gặp được nội dung khớp hoàn toàn với gu và mối quan tâm của mình
Trong tương lai, có thể mọi thứ sẽ giống thuật toán TikTok: ngay khi đang xem, hệ thống nắm được sở thích của tôi và liên tục tạo video mới phù hợp vào đúng thời điểm
- Mỗi lần người dùng cuộn, hệ thống sẽ học thứ họ thích và tự động tạo thêm video để hiển thị
- Khi đủ ngữ cảnh được đưa vào model, nội dung khiến người đó phản ứng có thể trở nên mê hoặc đến mức gây nghiện, khiến họ không thể rời mắt khỏi màn hình
  - Đó là một hình dung rùng rợn, nhưng họ cho rằng về dài hạn thì khó tránh khỏi
- Đáng tiếc là cũng có lo ngại rằng thay vì đơn thuần làm theo sở thích của người dùng, hệ thống sẽ cố thao túng chính sở thích đó để tối đa hóa mức độ tương tác
- Cũng có ý kiến cho rằng hướng công nghệ như vậy thực ra khá xa với lý do con người dùng mạng xã hội
  - Họ lấy ví dụ rằng ChatGPT cũng có thể tạo bình luận vô tận, nhưng cuối cùng chúng ta vẫn đến đây, trên Hacker News
- Sau này có thể sẽ xuất hiện khái niệm “live mode”, tạo video theo thời gian thực, ngay lập tức khớp với giọng nói của người dùng
  - Có vẻ như Netflix cũng có thể thêm tính năng như vậy
- Họ cũng tò mò liệu hệ thống có học được việc người dùng ghét quảng cáo và phản ánh điều đó đúng cách hay không
Trong các video mẫu có khá nhiều cảnh ấn tượng, nhưng ở một số đoạn vẫn thường xuyên thấy chuyển động thiếu tự nhiên
- Có cảm giác như dữ liệu huấn luyện tập trung vào phần cường điệu nhất của TikTok, khiến model có đặc điểm là không giữ được một cảnh quá 5 giây
- Đánh giá chung là model xử lý tốt những cảnh khó, nhưng lại mắc khá nhiều lỗi ở những phần tưởng như đơn giản
  - Trên cây đàn piano mở đầu hay chiếc máy ảnh mà nhiếp ảnh gia dùng đều có dòng chữ AI text, ông lão trong quán cà phê thì bàn tay xuyên qua mũ beret, còn cô gái quay đầu ở bãi biển xoay đầu như cú mèo
  - Ở cảnh cậu bé đạp xe trong thành phố châu Âu, đoạn kết là một thực thể mã hóa đứng dưới gốc cây trên quảng trường và đi xe một bánh
- ByteDance thực ra đã thử nghiệm nội bộ model này trên Model Arena dưới tên Unicorn từ vài tuần trước
  - Nó đã ghi điểm cao hơn cả Google Veo 3
  - ArtificialAnalysis: xem bảng xếp hạng Model Arena
Có dự đoán rằng 5 năm nữa sẽ có một thế giới nơi mọi nội dung đều được tạo theo thời gian thực
- Tôi nói điều gì đó, và hệ thống lập tức đáp lại bằng một video dài 5 giây
- Từ giờ video sẽ không còn là “tài sản cố định”, mà trở thành phản hồi “ephemeral” được tạo tại chỗ rồi biến mất
- Video đang dần không còn là tệp thụ động được tải lên, mà là đầu ra của một luồng dữ liệu
- UI tương lai thay thế thao tác vuốt nhiều khả năng sẽ là prompt bằng giọng nói
- Điều Seedance đang làm không hẳn là thử nghiệm một định dạng mới, mà là thử nghiệm một hệ thống nội dung được tạo ở runtime
- Ở backend, họ nén model infra bằng comet và thiết lập để chạy LLM rẻ hơn, nhanh hơn
- Nếu tổ hợp này thành hiện thực, việc cung cấp tạo nội dung ở quy mô lớn sẽ khả thi mà không cần batch lớn hay cache lớn
- Nếu điều này thực sự được thiết lập, feed sẽ không còn là thứ để cuộn nữa mà biến thành một render loop
- Tất cả những điều đó được đánh giá là không còn là “dịch vụ media”, mà là một hệ thống hosting AI độ trễ thấp mang dáng vẻ của nền tảng video
Chất lượng video rất ấn tượng, nhưng có người hỏi âm thanh đâu rồi
- Họ nhắc tới việc VEO3 có thể làm video tốt, nhưng chính độ hoàn thiện ở phần audio mới tạo ra khác biệt lớn
- Có người nói họ đang làm về AI solution tại một công ty streaming video lớn
  - Vấn đề của VEO3 là độ nhất quán giữa các prompt còn kém
  - Ví dụ, ngay cả khi tải lên ảnh tham chiếu nhân vật, nếu tạo riêng “một cô dâu già cúi người” và “một cô dâu già nhặt đồng xu” thì nhân vật xuất hiện mỗi lần vẫn trông khác nhau
  - Dĩ nhiên VEO3 có tính năng image-to-video, nhưng để tạo scene thực tế thì vẫn còn thiếu nhiều
  - Theo thời gian mọi thứ sẽ tiến bộ, nhưng ở giai đoạn hiện tại họ thích việc Seedance tập trung vào tính nhất quán giữa các shot
  - Họ kỳ vọng điều này cũng sẽ tạo áp lực lên VEO3 để tính năng tương ứng được cải thiện nhanh hơn
Có người thắc mắc vì sao trong mọi video mẫu đều xuất hiện một vòng tròn lớn
Có câu hỏi về việc có thể dùng Seedance ở đâu
- Seedance 1.0 dự kiến sẽ được tích hợp vào nhiều nền tảng như Doubao và Jimeng từ tháng 6/2025
- Có vẻ tính năng này rồi cũng sẽ đi thẳng vào TikTok
  - Có ý kiến rằng trên chính nền tảng TikTok sẽ bùng nổ một làn sóng nội dung tạo sinh khổng lồ, và họ sẽ tìm cách kiếm tiền từ hiện tượng ai cũng muốn trở thành creator
  - Cũng có dự đoán rằng chính sách nền tảng sẽ thay đổi từ “bạn có thể đăng nội dung miễn phí” sang “bạn phải đăng qua một AI gateway và còn phải trả phí cho nó”
Có người cho biết họ cảm thấy buồn nôn hoặc chóng mặt khi xem các video có nhiều chuyển động
- Họ cũng từng có trải nghiệm tương tự khi Sora lần đầu ra mắt, nhưng với Seedance thì có phần nhẹ hơn
- Họ nói không gặp triệu chứng này trong bản demo Veo 3 và hỏi liệu người khác có cảm giác tương tự với các mẫu chuyển động mạnh của Seedance hay không
Có người thắc mắc liệu tính chân thực của video do AI tạo đã tiến gần mức phim hoạt hình CGI hiện nay chưa
- Họ cho rằng nếu là chuyên gia thì hiển nhiên sẽ chỉ ra được những lỗi rõ ràng trong kết quả hiện tại
- Tuy vậy, họ kỳ vọng sau này sẽ có thể tinh chỉnh vi mô chỉ một đoạn nhất định bằng prompt
- Họ cũng tò mò chi phí tính toán/tiền bạc thực tế là bao nhiêu nếu so với chi phí CGI Hollywood kinh phí lớn tính trên mỗi giây
- Chất lượng CGI thông thường trong các phim Hollywood gần đây, kể cả phim không phải hoạt hình, đôi khi cũng khá kém nên kỳ vọng của họ không quá cao
  - Quá trình áp dụng/quản lý thay đổi đối với kết quả CGI thực tế cũng có vẻ khá thú vị
Có người thấy Old man trông không già đến thế, và thú nhận đùa rằng có lẽ là vì bản thân họ cũng đã có tuổi

Seedance 1.0 - Mô hình tạo video đa cảnh của ByteDance

Giới thiệu Seedance 1.0

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News