- AniSora là mô hình AI tạo video mã nguồn mở do Bilibili phát triển, hỗ trợ nhiều phong cách như hoạt hình, truyện tranh, VTuber
- Có thể dễ dàng tạo video hoạt hình độ phân giải cao hoàn chỉnh từ hình ảnh hoặc câu lệnh văn bản
- Dựa trên thuật toán chuyên biệt cho truyện tranh và hoạt hình cùng bộ dữ liệu quy mô lớn, mang lại kết quả có chuyển động chân thực và giàu biểu cảm
- Thế mạnh nằm ở giao diện trực quan giúp người không chuyên cũng dễ sử dụng và môi trường cộng tác dựa trên cộng đồng
- Phù hợp với nhiều trường hợp sử dụng đa dạng như tập phim ngắn, PV, VTuber, concept art
AniSora là gì
- AniSora là mô hình tạo video hoạt hình mã nguồn mở mạnh mẽ nhất do Bilibili phát triển
- Chỉ với một cú nhấp chuột, có thể tạo video theo nhiều phong cách như series hoạt hình, hoạt hình Trung Quốc, chuyển thể từ truyện tranh, VTuber, PV hoạt hình
- Chỉ từ hình ảnh hoặc câu lệnh văn bản, có thể biến cảnh tĩnh thành hoạt hình sống động và chi tiết
- Nghiên cứu nền tảng của AniSora dựa trên bài báo công nghệ mới nhất được chấp nhận tại IJCAI’25
Giới thiệu ví dụ về AniSora
- Các video mẫu được tạo bằng AniSora cho thấy khả năng chuyển hình ảnh tĩnh thành hoạt hình chuyển động tự nhiên
- Ví dụ: cảnh mái tóc lay động trong gió bên trong ô tô, nhiều cô gái giơ tay nhảy múa, hiệu ứng mờ chuyển động của nhân vật đang chạy tốc độ cao
- Mô hình này tái hiện chân thực nhiều yếu tố dàn dựng cần thiết trong truyện tranh và hoạt hình như biểu cảm cảm xúc, động tác, chuyển cảnh của nhân vật
Các ưu điểm chính của AniSora
Thuật toán chuyên biệt cho phong cách hoạt hình/truyện tranh
- Sử dụng cấu trúc mô hình chuyên biệt được huấn luyện trên bộ dữ liệu hoạt hình và truyện tranh quy mô lớn
- Tái hiện chính xác phong cách hình ảnh và cách dàn dựng đặc trưng
- Có thể tạo ra đầu ra chất lượng cao phản ánh cả các tác phẩm chuyển thể truyện tranh mới nhất và xu hướng hiện tại
Giao diện trực quan
- Được thiết kế để cả người dùng không quen thuộc với công nghệ cũng có thể tự tạo video
- Chỉ với một cú nhấp chuột, bất kỳ ai cũng có thể dễ dàng trải nghiệm sản xuất video truyện tranh và VTuber
Hỗ trợ video hoạt hình chất lượng cao
- AniSora cung cấp mặc định đầu ra video chất lượng cao 1080p
- Video được tối ưu cho nhiều nền tảng, có thể sử dụng trên nhiều kênh khác nhau như dự án, SNS, PV
Tóm tắt FAQ của AniSora
AniSora là gì?
- AniSora là một phần của Project Index-AniSora, mô hình tạo video hoạt hình mã nguồn mở do Bilibili công bố
- Chỉ với hình ảnh hoặc câu lệnh văn bản, có thể tự động tạo video phong cách hoạt hình độ phân giải cao
- Có tích hợp các kết quả nghiên cứu mới nhất, tập trung vào tính nhất quán của chuyển động và khả năng biểu đạt
Khác gì so với các công cụ tạo video AI khác
- AniSora tập trung vào hiệu năng chuyên biệt cho phong cách hoạt hình và truyện tranh
- Với chuyên môn của Bilibili và vai trò là dự án mã nguồn mở định hướng cộng đồng, nó được tối ưu cho sản xuất video mục đích chuyên biệt như series anime, tác phẩm chuyển thể truyện tranh, VTuber
Có hỗ trợ video & audio không
- Hiện tại AniSora là mô hình tập trung vào tạo video
- Việc có cung cấp thêm các tính năng như tổng hợp âm thanh hay không cần tham khảo tài liệu mới nhất
Có phù hợp với nhà sáng tạo hoạt hình/truyện tranh không?
- AniSora được tối ưu cho tính nhất quán của nhân vật và chuyển động giàu biểu cảm, nên là công cụ lý tưởng cho nhà sáng tạo, đặc biệt trong các lĩnh vực hoạt hình, PV, truyện tranh, VTuber
Các trường hợp sử dụng chính
- Có thể ứng dụng rộng rãi cho phim hoạt hình ngắn, video SNS, PV, hoạt họa panel truyện tranh, VTuber, concept art, storyboard
Chất lượng và độ dài video
- AniSora có thế mạnh trong việc tạo video ngắn theo chuẩn độ phân giải cao (1080p)
- Thông thường phù hợp với dạng clip ngắn, còn các giới hạn cụ thể có thể xem thông tin mới nhất trong tài liệu chính thức
Cách điều khiển phong cách và chuyển động
- Người dùng có thể dẫn hướng phong cách hình ảnh và chuyển động mong muốn thông qua đầu vào hình ảnh hoặc câu lệnh văn bản
- Dựa trên dữ liệu lĩnh vực hoạt hình, hỗ trợ khả năng kiểm soát nâng cao như tùy chỉnh chuyển động, tính nhất quán của nhân vật, áp dụng phong cách chi tiết
- Phạm vi vận hành khả dụng có thể khác nhau tùy theo phiên bản hoặc giao diện
Kết luận
- AniSora là mô hình AI tạo video mã nguồn mở hiệu năng hàng đầu, chuyên biệt cho sản xuất video hoạt hình, truyện tranh và VTuber
- Các lợi thế chính là khả năng tái hiện phong cách khác biệt, cách sử dụng trực quan và tạo video chất lượng cao
- Với trọng tâm vào văn hóa mã nguồn mở cộng đồng và hỗ trợ nhà sáng tạo, công cụ này có giá trị ứng dụng cao trong cả lĩnh vực hoạt hình Nhật Bản lẫn hoạt hình Trung Quốc
1 bình luận
Ý kiến trên Hacker News
Có cảm giác một số kết quả rõ ràng mang dấu vết được huấn luyện từ webtoon, manga, có lẽ cả pixiv nữa. Có thể dễ dàng thấy bằng chứng đó ở các tòa nhà CG hay nhiều loại tạo tác khác. Cuối cùng vẫn đi đến kết luận là nó được huấn luyện trên dữ liệu có bản quyền. Vì nghệ thuật không phải lĩnh vực có thể được tạo ra theo kiểu tổng hợp như văn bản, nên các nghệ sĩ con người sẽ mãi giữ một vị trí quan trọng, hoặc nếu không thì kết quả sẽ chỉ tiếp tục sinh ra những tạo tác kỳ quặc. Vì vậy tôi cũng nghĩ có lẽ rồi sẽ đi theo hướng nghệ sĩ bị hạ xuống thành một tầng lớp lao động phục vụ cho việc huấn luyện “AI”. Nhưng mặt khác, nếu là một cấu trúc nơi mỗi người tự vẽ thứ mình thích và dùng nó cho việc huấn luyện mô hình thì tôi cũng không thấy quá tệ. Tôi là người khá ủng hộ AI về mặt bản quyền và nhãn hiệu, nhưng tôi vẫn luôn băn khoăn chuyện gì sẽ xảy ra với rất nhiều người từng mang lại niềm vui cho chúng ta. Chất lượng sẽ tiếp tục tăng lên, hay rồi những phong cách mang tính thử thách sẽ biến mất vì bị xem là “quá khó với AI”, khiến mọi thứ trở nên na ná nhau? Cảm giác này khác với chuyện PC và máy móc thay thế con người, như thể chúng ta đã đi đến điểm cuối vậy.
Có cảm giác cuối cùng cũng sắp đến thời chúng ta có thể tạo ra season 3 của Haruhi mà mình hằng mong muốn. Đúng là một thời kỳ tuyệt vời để sống.
Tôi đã thử bằng tranh minh họa quảng bá của <i>Neon Genesis Evangelion</i>. Kết quả khá ổn, nhưng trong lúc đầu quay thì hoạt ảnh tóc xuất hiện tạo tác theo thời gian. Cũng có một trang để tham khảo như bộ sưu tập ví dụ.
Tóm tắt trích đoạn bài báo: “Áp dụng phương thức huấn luyện độ dài biến thiên, huấn luyện trên các đoạn 2 giây ~ 8 giây. Với chiến lược này có thể tạo video 720p dài từ 2 đến 8 giây.” Tôi muốn benchmark thử với FramePack. Thực ra tôi nghĩ trong hoạt hình 2D có lợi thế là gần như không bị ràng buộc về thời lượng khung hình.
Nếu quan tâm đến nội dung hoạt hình AI thì khuyến nghị tham gia cuộc thi AniGen.
Tôi tò mò liệu nó có thể thể hiện nhất quán cùng một nhân vật qua nhiều cảnh và góc nhìn khác nhau hay không. Tôi nghĩ đó là giới hạn của giới tạo ảnh từ trước đến nay.
Ngay từ ví dụ đầu tiên đã thấy rất nhiều lỗi. Phần tay áo của chiếc sơ mi bị vỡ, tóc đang chuyển động thì biến mất rồi lại xuất hiện. Kết cục là chủ yếu chỉ có cánh tay và mây là chuyển động.
Dù đổi tài khoản và đầu vào thế nào thì mỗi lần cũng phát sinh lỗi kỳ quặc nên không hoạt động tử tế được.
Tôi tò mò về tình trạng bản quyền của video được làm bằng các dịch vụ như thế này. Tôi muốn biết liệu chúng có được bảo hộ bản quyền hay không. Lập trường hiện tại của Văn phòng Bản quyền Mỹ là “đầu ra của AI tạo sinh chỉ được bảo hộ bản quyền khi tác giả là con người đã quyết định (đưa vào) đủ yếu tố sáng tạo”. Nếu không được bảo hộ, thì khi làm phim v.v. bằng dịch vụ đó sẽ phát sinh nguy cơ bị sao chép hay đạo nhái nguyên xi. Xin nói thêm là tôi tạm gác sang một bên việc công cụ này được huấn luyện bằng dữ liệu nào.
Tôi muốn xem cảnh chiến đấu của <i>The Beginning After the End</i> sẽ thay đổi ra sao nếu đi qua công cụ này. Nghiêm túc mà nói, tôi rất tò mò về hướng đi sắp tới. Liệu mọi người có chấp nhận thêm chút lỗi thị giác và tạo tác nếu được xem season mới của một franchise mình yêu thích, hay sẽ phản cảm như khi thấy việc dùng mô hình 3D một cách vụng về?