Hành trình thử nghiệm để AI tự động sản xuất không người vận hành từ tạo truyện đến video dựa trên GPTs

(youtube.com)

10 điểm bởi aitechtree 2023-12-28 | 1 bình luận | Chia sẻ qua WhatsApp

Việc tạo ra storytelling là điều rất quan trọng nhưng cũng là phần khó đối với bất kỳ ai.
Dù sao đi nữa, cốt lõi vẫn là sáng tạo được một câu chuyện hay.
Từ khi ChatGPT xuất hiện, việc tạo truyện bằng AI đã có bước tiến mang tính đột phá, nhưng tôi cho rằng
con đường phía trước vẫn còn rất xa.

Khoảng gần 1 năm trước, tôi từng có trải nghiệm làm một cuốn truyện tranh thiếu nhi bằng ChatGPT và Stable Diffusion,
và đăng lên Kakao Brunch, nên lần này tôi quyết định thử làm thứ gì đó đa phương thức hơn.

Mục tiêu được đặt ra là sau phần thiết lập ban đầu, “điểm cốt lõi là để AI tự tạo ra thành phẩm cuối cùng với tỷ lệ hơn 99% mà không có con người tham gia”.
Tất nhiên, điều bắt buộc là câu chuyện phải mới mẻ, hợp lý và được kết nối bằng quan hệ nhân quả.

Theo đó, tôi đặt mục tiêu triển khai là “nội dung YouTube dành cho trẻ em”.
Lý do chọn hướng nội dung cho trẻ em là vì,

tương đối dễ xử lý phần câu chuyện
dự kiến hiệu quả kỳ vọng sẽ lớn so với chất lượng video
đây là lần đầu tôi làm nội dung cho trẻ em nên muốn thử tạo ra nó

[Hình dung phương án triển khai cụ thể (kiến trúc) và tự build]

Tôi cho rằng logic tạo truyện cần được “thiết kế theo cấu trúc vừa giữ được tính nhất quán, vừa liên tục bổ sung thêm episode mới thì mới có tính bền vững”.
Theo đó, tôi đã tạo một GPTs chuyên cho storytelling thiếu nhi. (Hiện đang để chế độ chỉ mình tôi xem)
Instruction của GPTs dài khoảng 1 trang A4 và được thiết lập rất chi tiết (“mục đích là để có thể duy trì tổng thể concept và ngữ cảnh”).
Tôi yêu cầu instruction bắt buộc phải dùng các từ khóa đã chỉ định ở phần mở đầu và kết thúc của mọi bài viết (thiết lập bằng văn bản nhằm giúp cả người xem lần đầu cũng nhận ra concept và bối cảnh là gì, đồng thời khiến họ mong chờ tập tiếp theo).
Phần thân bài được triển khai theo trục khủng hoảng, xung đột, giải quyết, theo dòng thời gian tự nhiên; tôi đặt nhiều ví dụ chi tiết để vừa giữ được mạch ngữ cảnh, vừa buộc việc tạo episode mới cũng phải tuân theo các quy tắc đó.
*Lý do tôi đặt concept “Cuộc phiêu lưu của Tori” là “một cậu bé thức dậy mỗi ngày với khuôn mặt thay đổi” là vì khi tạo ảnh rất khó giữ seed ổn định, nên tôi muốn biến hẳn điểm yếu đó thành điểm mạnh; hơn nữa, vì mỗi lần lại tạo ra episode mới nên tôi thấy như vậy còn tốt hơn.
Tôi đã kết nối Actions qua API để script được tạo từ GPTs có thể tiếp tục được xử lý qua Zapier và dùng cho việc tạo đa phương thức về sau.

*Về cách thiết lập chi tiết GPTs Actions, hãy tham khảo liên kết Kakao Brunch do tôi viết
https://brunch.co.kr/@seawolf/9

Khi kết nối với GPTs, tôi thiết lập để GPTs hỏi tôi về “từ khóa chủ đề của episode mới”. Đó gần như là việc duy nhất con người cần quyết định. Tất nhiên, ngay cả phần này cũng có thể làm ngẫu nhiên.
Cách rút ra “từ khóa chủ đề” sẽ tuân theo quy trình sau đúng như đã cấu hình trong instruction.

Thông qua cổng tìm kiếm, GPTs sẽ trích xuất và gợi ý các “từ khóa” mới nhất mà “trẻ em” ưa thích (đánh giá theo lượng truy cập của từ khóa tìm kiếm, v.v.). Khi làm thực tế thì game, trò chơi đúng là áp đảo.
Khi chọn một từ khóa mình thích trong số các gợi ý
Theo logic đã chỉ định trong instruction, GPTs sẽ ngay lập tức xuất ra một câu chuyện mới dài khoảng một trang với tính hợp lý cao
Phần lớn nội dung đều mới mẻ và ưng ý, nhưng vẫn có thể yêu cầu thay đổi hoặc xóa một vài phần nhỏ bằng prompt
Khi có lệnh gửi văn bản đã chốt cuối cùng “tới email của tôi hoặc tới API” thông qua Actions thì nó sẽ được gửi ngay và trigger sẽ phát sinh.

Từ đây, trong Zapier — nơi nhận cuộc gọi từ GPTs và nhận giá trị truyền vào (văn bản) — các API sẽ được gọi theo đúng thứ tự tôi đã thiết lập để xử lý, kết hợp và tạo dữ liệu.
Các thành phần đa phương thức cho tới khi tạo video cuối cùng (sử dụng API và nhiều nền tảng dịch vụ)

Script văn bản đã được tối ưu
Chuyển văn bản thành giọng nói
Tự động trích xuất ngữ cảnh và từ khóa từ các cụm script (thông thường quy định 1 đến 3 câu là một khối) để tạo ảnh
Tự động bố trí các phụ kiện bổ sung như nhạc, hiệu ứng âm thanh, emoticon… cho phù hợp với ngữ cảnh
Xuất giọng nói đã tạo thành phụ đề
Render video cuối cùng
Tùy chọn “chuyển đổi đa ngôn ngữ”

Hoàn tất bằng việc tải xuống bản thành phẩm
Đăng thành nội dung YouTube

Khi đo thời gian thực hiện (ngày càng nhanh hơn),

Toàn bộ quá trình tạo câu chuyện mới qua GPTs: dưới 1 phút
Các backend API xử lý tiếp theo thông qua việc gọi Actions: khoảng 1~2 phút
Tới khi video đa phương thức hoàn chỉnh được tạo tự động: khoảng 3 phút
Nếu con người kiểm tra và retouch nhẹ những phần cần chỉnh ở bước này thì chất lượng tăng lên rất nhiều (nếu chỉ retouch đơn giản thì mất khoảng 3 phút)
Render cuối cùng: 3~5 phút (tùy kích thước video)
Tức là, chỉ trong 10 phút có thể tạo ra một video thiếu nhi có nền 3D modeling khá tốt, nội dung chặt chẽ và thú vị.
Chi phí thì cùng lắm chỉ là phí sử dụng một vài API trả phí bao gồm OPENAI và chi phí hosting;
ngay cả khi cộng tất cả lại, xét về giá vốn thì để làm một video dài dưới 3 phút có lẽ vẫn dưới 1.000 won mỗi phút.

[Liên kết xem thành phẩm hoàn chỉnh]
“Cuộc phiêu lưu của Tori” tập 1: Biến hình thành ngôi sao K-POP (tiếng Hàn)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

“Cuộc phiêu lưu của Tori” tập 1: Biến hình thành ngôi sao K-POP (phiên bản tiếng Anh)
https://www.youtube.com/watch?v=CT3KHU7BvIs

“Cuộc phiêu lưu của Tori” tập 2: Biến hình thành siêu anh hùng (tiếng Hàn)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

“Cuộc phiêu lưu của Tori” tập 3: Biến hình thành Ông già Noel (tiếng Hàn / phiên bản 3D modeling)
https://www.youtube.com/watch?v=wl2RWAqOXtY

Tôi cho rằng đã đạt được hơn 90% tự động hóa không người vận hành trong quy trình.
Thông qua thử nghiệm này, tôi đã phát hiện ra nhiều lĩnh vực ứng dụng và đăng bài để chia sẻ thông tin.

Nếu muốn biết thêm nhiều thông tin, hãy tham gia cộng đồng.
[ Liên kết tham gia cộng đồng (KakaoTalk Open Chat) ]
https://open.kakao.com/o/gE6hK9Vf

1 bình luận

aitechtree 2023-12-28

Mong rằng điều này sẽ giúp ích cho nhiều người dù chỉ một chút.

Hành trình thử nghiệm để AI tự động sản xuất không người vận hành từ tạo truyện đến video dựa trên GPTs

Bài viết liên quan

1 bình luận