AniSora: Mô hình tạo video hoạt hình mã nguồn mở

(komiko.app)

17 điểm bởi GN⁺ 2025-05-19 | 1 bình luận | Chia sẻ qua WhatsApp

AniSora là mô hình AI tạo video mã nguồn mở do Bilibili phát triển, hỗ trợ nhiều phong cách như hoạt hình, truyện tranh, VTuber
Có thể dễ dàng tạo video hoạt hình độ phân giải cao hoàn chỉnh từ hình ảnh hoặc câu lệnh văn bản
Dựa trên thuật toán chuyên biệt cho truyện tranh và hoạt hình cùng bộ dữ liệu quy mô lớn, mang lại kết quả có chuyển động chân thực và giàu biểu cảm
Thế mạnh nằm ở giao diện trực quan giúp người không chuyên cũng dễ sử dụng và môi trường cộng tác dựa trên cộng đồng
Phù hợp với nhiều trường hợp sử dụng đa dạng như tập phim ngắn, PV, VTuber, concept art

AniSora là gì

AniSora là mô hình tạo video hoạt hình mã nguồn mở mạnh mẽ nhất do Bilibili phát triển
Chỉ với một cú nhấp chuột, có thể tạo video theo nhiều phong cách như series hoạt hình, hoạt hình Trung Quốc, chuyển thể từ truyện tranh, VTuber, PV hoạt hình
Chỉ từ hình ảnh hoặc câu lệnh văn bản, có thể biến cảnh tĩnh thành hoạt hình sống động và chi tiết
Nghiên cứu nền tảng của AniSora dựa trên bài báo công nghệ mới nhất được chấp nhận tại IJCAI’25

Giới thiệu ví dụ về AniSora

Các video mẫu được tạo bằng AniSora cho thấy khả năng chuyển hình ảnh tĩnh thành hoạt hình chuyển động tự nhiên
- Ví dụ: cảnh mái tóc lay động trong gió bên trong ô tô, nhiều cô gái giơ tay nhảy múa, hiệu ứng mờ chuyển động của nhân vật đang chạy tốc độ cao
Mô hình này tái hiện chân thực nhiều yếu tố dàn dựng cần thiết trong truyện tranh và hoạt hình như biểu cảm cảm xúc, động tác, chuyển cảnh của nhân vật

Các ưu điểm chính của AniSora

Thuật toán chuyên biệt cho phong cách hoạt hình/truyện tranh

Sử dụng cấu trúc mô hình chuyên biệt được huấn luyện trên bộ dữ liệu hoạt hình và truyện tranh quy mô lớn
Tái hiện chính xác phong cách hình ảnh và cách dàn dựng đặc trưng
Có thể tạo ra đầu ra chất lượng cao phản ánh cả các tác phẩm chuyển thể truyện tranh mới nhất và xu hướng hiện tại

Giao diện trực quan

Được thiết kế để cả người dùng không quen thuộc với công nghệ cũng có thể tự tạo video
Chỉ với một cú nhấp chuột, bất kỳ ai cũng có thể dễ dàng trải nghiệm sản xuất video truyện tranh và VTuber

Hỗ trợ video hoạt hình chất lượng cao

AniSora cung cấp mặc định đầu ra video chất lượng cao 1080p
Video được tối ưu cho nhiều nền tảng, có thể sử dụng trên nhiều kênh khác nhau như dự án, SNS, PV

Tóm tắt FAQ của AniSora

AniSora là gì?

AniSora là một phần của Project Index-AniSora, mô hình tạo video hoạt hình mã nguồn mở do Bilibili công bố
Chỉ với hình ảnh hoặc câu lệnh văn bản, có thể tự động tạo video phong cách hoạt hình độ phân giải cao
Có tích hợp các kết quả nghiên cứu mới nhất, tập trung vào tính nhất quán của chuyển động và khả năng biểu đạt

Khác gì so với các công cụ tạo video AI khác

AniSora tập trung vào hiệu năng chuyên biệt cho phong cách hoạt hình và truyện tranh
Với chuyên môn của Bilibili và vai trò là dự án mã nguồn mở định hướng cộng đồng, nó được tối ưu cho sản xuất video mục đích chuyên biệt như series anime, tác phẩm chuyển thể truyện tranh, VTuber

Có hỗ trợ video & audio không

Hiện tại AniSora là mô hình tập trung vào tạo video
Việc có cung cấp thêm các tính năng như tổng hợp âm thanh hay không cần tham khảo tài liệu mới nhất

Có phù hợp với nhà sáng tạo hoạt hình/truyện tranh không?

AniSora được tối ưu cho tính nhất quán của nhân vật và chuyển động giàu biểu cảm, nên là công cụ lý tưởng cho nhà sáng tạo, đặc biệt trong các lĩnh vực hoạt hình, PV, truyện tranh, VTuber

Các trường hợp sử dụng chính

Có thể ứng dụng rộng rãi cho phim hoạt hình ngắn, video SNS, PV, hoạt họa panel truyện tranh, VTuber, concept art, storyboard

Chất lượng và độ dài video

AniSora có thế mạnh trong việc tạo video ngắn theo chuẩn độ phân giải cao (1080p)
Thông thường phù hợp với dạng clip ngắn, còn các giới hạn cụ thể có thể xem thông tin mới nhất trong tài liệu chính thức

Cách điều khiển phong cách và chuyển động

Người dùng có thể dẫn hướng phong cách hình ảnh và chuyển động mong muốn thông qua đầu vào hình ảnh hoặc câu lệnh văn bản
Dựa trên dữ liệu lĩnh vực hoạt hình, hỗ trợ khả năng kiểm soát nâng cao như tùy chỉnh chuyển động, tính nhất quán của nhân vật, áp dụng phong cách chi tiết
Phạm vi vận hành khả dụng có thể khác nhau tùy theo phiên bản hoặc giao diện

Kết luận

AniSora là mô hình AI tạo video mã nguồn mở hiệu năng hàng đầu, chuyên biệt cho sản xuất video hoạt hình, truyện tranh và VTuber
Các lợi thế chính là khả năng tái hiện phong cách khác biệt, cách sử dụng trực quan và tạo video chất lượng cao
Với trọng tâm vào văn hóa mã nguồn mở cộng đồng và hỗ trợ nhà sáng tạo, công cụ này có giá trị ứng dụng cao trong cả lĩnh vực hoạt hình Nhật Bản lẫn hoạt hình Trung Quốc

1 bình luận

GN⁺ 2025-05-19

Ý kiến trên Hacker News

Có cảm giác một số kết quả rõ ràng mang dấu vết được huấn luyện từ webtoon, manga, có lẽ cả pixiv nữa. Có thể dễ dàng thấy bằng chứng đó ở các tòa nhà CG hay nhiều loại tạo tác khác. Cuối cùng vẫn đi đến kết luận là nó được huấn luyện trên dữ liệu có bản quyền. Vì nghệ thuật không phải lĩnh vực có thể được tạo ra theo kiểu tổng hợp như văn bản, nên các nghệ sĩ con người sẽ mãi giữ một vị trí quan trọng, hoặc nếu không thì kết quả sẽ chỉ tiếp tục sinh ra những tạo tác kỳ quặc. Vì vậy tôi cũng nghĩ có lẽ rồi sẽ đi theo hướng nghệ sĩ bị hạ xuống thành một tầng lớp lao động phục vụ cho việc huấn luyện “AI”. Nhưng mặt khác, nếu là một cấu trúc nơi mỗi người tự vẽ thứ mình thích và dùng nó cho việc huấn luyện mô hình thì tôi cũng không thấy quá tệ. Tôi là người khá ủng hộ AI về mặt bản quyền và nhãn hiệu, nhưng tôi vẫn luôn băn khoăn chuyện gì sẽ xảy ra với rất nhiều người từng mang lại niềm vui cho chúng ta. Chất lượng sẽ tiếp tục tăng lên, hay rồi những phong cách mang tính thử thách sẽ biến mất vì bị xem là “quá khó với AI”, khiến mọi thứ trở nên na ná nhau? Cảm giác này khác với chuyện PC và máy móc thay thế con người, như thể chúng ta đã đi đến điểm cuối vậy.
- Tôi có chút thương cảm với họa sĩ minh họa và nghệ sĩ. Nhưng tôi nghĩ dữ liệu huấn luyện là tiểu thuyết, tranh vẽ, bài hát, mã nguồn hay thậm chí văn bản pháp lý thì cũng chẳng khác nhau nhiều. Mẹ tôi cũng từng là dịch giả thời máy đánh chữ, rồi chuyển sang môi trường cơ sở dữ liệu-kho ngữ liệu dịch máy, công việc ngày càng ít đi và tiền công cũng giảm xuống. Rốt cuộc những việc máy móc và lặp đi lặp lại sẽ có số phận là bị robot rẻ hơn thay thế.
- Với tư cách một nghệ sĩ đã vẽ hơn 30 năm: nói rằng bị hạ xuống thành lao động hỗ trợ huấn luyện AI là điều vô lý. Nghệ sĩ không chỉ vẽ để kiếm tiền, rất nhiều người còn vẽ vì “niềm vui”. Suốt 3 năm qua, trong các cuộc thảo luận về AI, phần cốt lõi này gần như luôn bị bỏ qua nên tôi rất tiếc.
- Hạ thấp nghệ sĩ thành một tầng lớp lao động “huấn luyện AI” mà lại không quá tệ sao? Tôi nghĩ đó là tình huống chỉ có trong tiểu thuyết phản địa đàng. Đa số nghệ sĩ ghét việc tác phẩm của mình bị đem cho mô hình nuốt vào rồi phân rã. Khi đó nó không còn là nghệ thuật nữa, mà chỉ là đóng vai trò linh kiện cho cỗ máy. Nghệ thuật không phải là chuyện cứ ngẫu nhiên vẽ vài bức là xong. Trong hoàn cảnh như vậy, câu hỏi căn bản là nghệ sĩ sẽ sống bằng gì, ai sẽ trả tiền để họ vẽ “thứ mình muốn vẽ” rồi cung cấp cho mô hình, và sẽ có bao nhiêu người được thuê cho việc đó. Internet đã đầy rẫy ảnh thất bại, và tôi tin rằng thị trường spam hay lừa đảo dùng mấy thứ này để đánh lừa con người đã lớn hơn cả thị trường của những người sáng tạo thật sự. Từ đây về sau còn nghiêm trọng hơn nữa.
- Điều tôi thấy có vấn đề trong tranh luận về AI và bản quyền là chỉ các tập đoàn lớn mới hưởng lợi. Trên ChatGPT và các dịch vụ tương tự thì tác phẩm nổi tiếng bị chặn tự động, nhưng tác phẩm của nghệ sĩ nhỏ lẻ thì không. Hoặc là mở cho tất cả, hoặc là không mở cho bất kỳ ai.
- Tôi đồng cảm với lập trường bảo vệ bản quyền của nghệ sĩ, đồng thời cũng thấy rất thú vị khi anh lại tích cực ủng hộ AI ở khía cạnh bản quyền. Với nhiều người, đây là chủ đề rất dễ gây cảm xúc mạnh nên thường chỉ có ý kiến cực đoan; lập trường nhìn được cả hai phía như vậy là khá hiếm. Tôi tò mò anh nghĩ thế nào về vai trò của bản quyền trong thời đại AI.
Có cảm giác cuối cùng cũng sắp đến thời chúng ta có thể tạo ra season 3 của Haruhi mà mình hằng mong muốn. Đúng là một thời kỳ tuyệt vời để sống.
- 5 năm nữa, 10 năm nữa hãy nói lại. Hiện tại tôi chưa thấy nó gần đến mức đó. Nhưng tôi tò mò về hướng mà mọi thứ sẽ đi tới.
- Đây là series đầu tiên tôi thực sự xem nghiêm túc trong anime (không tính phim hay kiểu như DBZ). Tôi vẫn còn nhớ rất rõ. Thật sự tiếc vì nó bị dừng lại do đạo diễn. Nếu ai đó có thể hoàn thành series này hoặc reboot nó để đi đến kết thúc thì đúng là món quà tuyệt nhất.
- Hoặc có bản remake của Neon Genesis Evangelion cũng được.
- Không... khoan đã... đừng nói là nó vẫn chưa kết thúc đấy nhé? Tôi đang mới xem season 1...
- Tôi đã quên bộ anime này hơn 10 năm rồi, giờ nghe lại thấy bị khơi dậy cảm giác hoài niệm mạnh mẽ.
Tôi đã thử bằng tranh minh họa quảng bá của <i>Neon Genesis Evangelion</i>. Kết quả khá ổn, nhưng trong lúc đầu quay thì hoạt ảnh tóc xuất hiện tạo tác theo thời gian. Cũng có một trang để tham khảo như bộ sưu tập ví dụ.
- Link không hoạt động.
Tóm tắt trích đoạn bài báo: “Áp dụng phương thức huấn luyện độ dài biến thiên, huấn luyện trên các đoạn 2 giây ~ 8 giây. Với chiến lược này có thể tạo video 720p dài từ 2 đến 8 giây.” Tôi muốn benchmark thử với FramePack. Thực ra tôi nghĩ trong hoạt hình 2D có lợi thế là gần như không bị ràng buộc về thời lượng khung hình.
Nếu quan tâm đến nội dung hoạt hình AI thì khuyến nghị tham gia cuộc thi AniGen.
- Hạn chót là 20 tháng 5 nên chắc phải nhanh lên.
Tôi tò mò liệu nó có thể thể hiện nhất quán cùng một nhân vật qua nhiều cảnh và góc nhìn khác nhau hay không. Tôi nghĩ đó là giới hạn của giới tạo ảnh từ trước đến nay.
Ngay từ ví dụ đầu tiên đã thấy rất nhiều lỗi. Phần tay áo của chiếc sơ mi bị vỡ, tóc đang chuyển động thì biến mất rồi lại xuất hiện. Kết cục là chủ yếu chỉ có cánh tay và mây là chuyển động.
Dù đổi tài khoản và đầu vào thế nào thì mỗi lần cũng phát sinh lỗi kỳ quặc nên không hoạt động tử tế được.
Tôi tò mò về tình trạng bản quyền của video được làm bằng các dịch vụ như thế này. Tôi muốn biết liệu chúng có được bảo hộ bản quyền hay không. Lập trường hiện tại của Văn phòng Bản quyền Mỹ là “đầu ra của AI tạo sinh chỉ được bảo hộ bản quyền khi tác giả là con người đã quyết định (đưa vào) đủ yếu tố sáng tạo”. Nếu không được bảo hộ, thì khi làm phim v.v. bằng dịch vụ đó sẽ phát sinh nguy cơ bị sao chép hay đạo nhái nguyên xi. Xin nói thêm là tôi tạm gác sang một bên việc công cụ này được huấn luyện bằng dữ liệu nào.
Tôi muốn xem cảnh chiến đấu của <i>The Beginning After the End</i> sẽ thay đổi ra sao nếu đi qua công cụ này. Nghiêm túc mà nói, tôi rất tò mò về hướng đi sắp tới. Liệu mọi người có chấp nhận thêm chút lỗi thị giác và tạo tác nếu được xem season mới của một franchise mình yêu thích, hay sẽ phản cảm như khi thấy việc dùng mô hình 3D một cách vụng về?
- Toei Animation đang có kế hoạch áp dụng AI vào nhiều lĩnh vực. Ví dụ như làm storyboard (tạo bố cục đơn giản và góc máy), chỉ định màu và tự động chỉnh màu, in-between (tự động tạo line drawing và các cảnh trung gian), background (tự động tạo từ ảnh) v.v. Vì đạo diễn vẫn sẽ chịu trách nhiệm về chất lượng cuối cùng nên tôi nghĩ kết quả sẽ ổn mà không có tạo tác, và các nhà sáng tạo indie cũng có thể làm ra tác phẩm của riêng mình dù chưa hoàn hảo, nên tôi thấy khá tích cực.
- Trong tình trạng gần như không có thử nghiệm mới hay tiến bộ đáng kể ở mức này, liệu có đáng để gán nhiều ý nghĩa và tranh luận về nó không? Tôi đã dùng thử thực tế nhưng các nhược điểm cũ của AI tạo video vẫn còn nguyên. Nó yếu nhất ở việc xử lý các cảnh hành động có tính chuỗi hoặc động tác mạnh, nhất là những cảnh hành động vốn xuất hiện rất nhiều trong anime. Công cụ này cũng không làm tôi hài lòng, và đa số mô hình đóng (thương mại) cũng vậy.
- Tôi hình dung về một tương lai nơi AI có thể được dùng cho công đoạn in-between (douga).

AniSora: Mô hình tạo video hoạt hình mã nguồn mở

AniSora là gì

Giới thiệu ví dụ về AniSora

Các ưu điểm chính của AniSora

Thuật toán chuyên biệt cho phong cách hoạt hình/truyện tranh

Giao diện trực quan

Hỗ trợ video hoạt hình chất lượng cao

Tóm tắt FAQ của AniSora

AniSora là gì?

Khác gì so với các công cụ tạo video AI khác

Có hỗ trợ video & audio không

Có phù hợp với nhà sáng tạo hoạt hình/truyện tranh không?

Các trường hợp sử dụng chính

Chất lượng và độ dài video

Cách điều khiển phong cách và chuyển động

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News