- Chuỗi hướng dẫn để xây dựng quy trình chuyển đổi PDF thành podcast
- Cũng có thể học các thử nghiệm sử dụng mô hình chuyển văn bản thành giọng nói
- Mọi nội dung đều được trình bày trong từng notebook, nên không cần có kiến thức trước về LLM, prompt hay mô hình âm thanh
Quy trình theo từng bước
- Bước 1: Tiền xử lý PDF
Sử dụng mô hình Llama-3.2-1B-Instruct để tiền xử lý PDF và lưu thành tệp .txt.
- Bước 2: Viết transcript
Sử dụng mô hình Llama-3.1-70B-Instruct để tạo transcript podcast từ văn bản.
- Bước 3: Viết lại theo hướng kịch tính hơn
Sử dụng mô hình Llama-3.1-8B-Instruct để làm transcript trở nên kịch tính hơn.
- Bước 4: Quy trình chuyển văn bản thành giọng nói
Sử dụng các mô hình parler-tts/parler-tts-mini-v1 và bark/suno để tạo podcast dạng hội thoại.
Các bước chi tiết để chạy notebook
- Yêu cầu
Cần máy chủ GPU hoặc nhà cung cấp API để sử dụng các mô hình Llama 70B, 8B, 1B.
- Notebook 1
Xử lý PDF và chuyển thành tệp .txt bằng mô hình Feather light.
- Notebook 2
Nhận đầu ra từ notebook 1 và chuyển đổi sáng tạo thành transcript podcast.
- Notebook 3
Nhận transcript trước đó và thêm các yếu tố kịch tính cùng các khoảng ngắt vào cuộc hội thoại.
- Notebook 4
Chuyển kết quả của notebook cuối cùng thành podcast.
Ý tưởng cải tiến/bổ sung trong tương lai
- Thử nghiệm mô hình giọng nói: cần cải thiện mô hình TTS để âm thanh tự nhiên hơn.
- Tranh luận LLM với LLM: hai agent thảo luận về chủ đề để viết dàn ý podcast.
- Thử nghiệm viết transcript bằng mô hình 405B.
- Viết prompt tốt hơn.
- Hỗ trợ tính năng thu thập website, tệp âm thanh, liên kết YouTube, v.v.
Tóm tắt của GN⁺
- NotebookLlama là một dự án mã nguồn mở chuyển PDF thành podcast, sử dụng nhiều mô hình LLM và TTS khác nhau để tạo nội dung sáng tạo.
- Dự án này cho thấy khả năng tạo ra giọng nói tự nhiên hơn thông qua các thử nghiệm với mô hình LLM và TTS.
- Các dự án có chức năng tương tự được khuyến nghị gồm Google TTS API và Amazon Polly.
1 bình luận
Ý kiến trên Hacker News
Càng nghe các "tập" của NotebookLM, tôi càng tin rằng Google đã huấn luyện một mô hình "thảo luận podcast" với hai người nói dựa trên backbone đa phương thức sẵn có
NotebookLM gây ấn tượng mạnh ngay cả với những người không rành công nghệ
Tôi thấy lựa chọn engine TTS khá lạ
Đánh giá rằng phần đầu ra mẫu còn quá ít
Mong nó được phát hành với các ngôn ngữ khác và nhiều kiểu giọng đa dạng, đặc biệt là giọng Đông Nam Á
Nghĩ rằng NotebookLM có thể không phải là open source mà chỉ là vài thử nghiệm trong notebook iPython
Điều này cho thấy việc tạo prototype bằng LLM diễn ra rất nhanh
Thắc mắc liệu NotebookLM có chỉ tạo podcast hay không
Nghĩ rằng sẽ rất hay nếu có thể chạy cục bộ trên điện thoại di động
Đánh giá rằng các mẫu còn hơi thô
Nói rằng họ muốn nghe đầu ra từ người đã thực sự dùng NotebookLM