- Đoạn mã tóm tắt bài báo trên ArXiv để giúp việc đọc dễ dàng hơn, sau đó dùng GPT để chuyển thành audio/video
- Chuyển bài báo sang dạng video cho người học thiên về thị giác, hoặc sang audio cho những ai thích nghe
- Các bước hoạt động
- Tải mã nguồn bài báo thông qua ArXiv ID
- Dùng
latex2html hoặc latexmlc để chuyển mã LaTeX thành trang HTML
- Trích xuất văn bản và công thức từ trang HTML, bỏ qua bảng biểu và hình ảnh
- Khi tạo video, ánh xạ các trang PDF, văn bản và các đoạn văn bản tương ứng với từng khối trên trang
- Chia văn bản thành các phần rồi dùng OpenAI GPT API để viết lại câu, đơn giản hóa và giải thích
- Chia văn bản do GPT tạo thành các chunk và dùng API chuyển văn bản thành giọng nói của Google để tạo audio
- Đóng gói mọi thành phần cần thiết để tạo file zip phục vụ xử lý video
- Dùng bản đồ ánh xạ văn bản-khối đã tính trước để tạo video bằng
ffmpeg
1 bình luận
Cả video nữa à? Tôi ngạc nhiên nên vào YouTube xem thử thì hóa ra chỉ là ảnh chụp trang bài báo + giọng đọc thôi.
Tôi nghĩ khi OpenAI Sora được công bố thì có lẽ thậm chí còn có thể tạo ra cả những video giải thích bằng cách diễn giải sâu hơn chính nội dung bài báo.
Kênh YouTube chính thức: https://www.youtube.com/@ArxivPapers