1 điểm bởi GN⁺ 2024-10-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Chuỗi hướng dẫn để xây dựng quy trình chuyển đổi PDF thành podcast
  • Cũng có thể học các thử nghiệm sử dụng mô hình chuyển văn bản thành giọng nói
  • Mọi nội dung đều được trình bày trong từng notebook, nên không cần có kiến thức trước về LLM, prompt hay mô hình âm thanh

Quy trình theo từng bước

  • Bước 1: Tiền xử lý PDF
    Sử dụng mô hình Llama-3.2-1B-Instruct để tiền xử lý PDF và lưu thành tệp .txt.
  • Bước 2: Viết transcript
    Sử dụng mô hình Llama-3.1-70B-Instruct để tạo transcript podcast từ văn bản.
  • Bước 3: Viết lại theo hướng kịch tính hơn
    Sử dụng mô hình Llama-3.1-8B-Instruct để làm transcript trở nên kịch tính hơn.
  • Bước 4: Quy trình chuyển văn bản thành giọng nói
    Sử dụng các mô hình parler-tts/parler-tts-mini-v1bark/suno để tạo podcast dạng hội thoại.

Các bước chi tiết để chạy notebook

  • Yêu cầu
    Cần máy chủ GPU hoặc nhà cung cấp API để sử dụng các mô hình Llama 70B, 8B, 1B.
  • Notebook 1
    Xử lý PDF và chuyển thành tệp .txt bằng mô hình Feather light.
  • Notebook 2
    Nhận đầu ra từ notebook 1 và chuyển đổi sáng tạo thành transcript podcast.
  • Notebook 3
    Nhận transcript trước đó và thêm các yếu tố kịch tính cùng các khoảng ngắt vào cuộc hội thoại.
  • Notebook 4
    Chuyển kết quả của notebook cuối cùng thành podcast.

Ý tưởng cải tiến/bổ sung trong tương lai

  • Thử nghiệm mô hình giọng nói: cần cải thiện mô hình TTS để âm thanh tự nhiên hơn.
  • Tranh luận LLM với LLM: hai agent thảo luận về chủ đề để viết dàn ý podcast.
  • Thử nghiệm viết transcript bằng mô hình 405B.
  • Viết prompt tốt hơn.
  • Hỗ trợ tính năng thu thập website, tệp âm thanh, liên kết YouTube, v.v.

Tóm tắt của GN⁺

  • NotebookLlama là một dự án mã nguồn mở chuyển PDF thành podcast, sử dụng nhiều mô hình LLM và TTS khác nhau để tạo nội dung sáng tạo.
  • Dự án này cho thấy khả năng tạo ra giọng nói tự nhiên hơn thông qua các thử nghiệm với mô hình LLM và TTS.
  • Các dự án có chức năng tương tự được khuyến nghị gồm Google TTS API và Amazon Polly.

1 bình luận

 
GN⁺ 2024-10-28
Ý kiến trên Hacker News
  • Càng nghe các "tập" của NotebookLM, tôi càng tin rằng Google đã huấn luyện một mô hình "thảo luận podcast" với hai người nói dựa trên backbone đa phương thức sẵn có

    • Cách hai người nói ngắt lời nhau và đối thoại như con người nghe rất tự nhiên
    • Có khả năng họ đã fine-tune mô hình dựa trên podcast thực tế và bản chép lời của chúng
    • Lấy tập của "The Daily" làm ví dụ, có thể họ để mô hình ngôn ngữ viết một bài báo giả tưởng tóm tắt nội dung podcast, rồi đưa bài đó vào mô hình hai người nói và kiểm tra xem bản chép lời đầu ra khớp với bài đầu vào đến mức nào
  • NotebookLM gây ấn tượng mạnh ngay cả với những người không rành công nghệ

    • Bố mẹ tôi ngoài 70 tuổi và cả đứa trẻ 8 tuổi cũng không ngừng ngạc nhiên với công nghệ này và vẫn đang tiếp tục dùng nó
  • Tôi thấy lựa chọn engine TTS khá lạ

    • So với các hệ thống TTS mở mới nhất, họ cho rằng XTTSv2 hoặc F5-TTS mới sẽ là lựa chọn tốt hơn
  • Đánh giá rằng phần đầu ra mẫu còn quá ít

    • Nhấn mạnh rằng đội ngũ NotebookLM đã tạo ra một sản phẩm thành công từ mô hình nền tảng có sẵn
  • Mong nó được phát hành với các ngôn ngữ khác và nhiều kiểu giọng đa dạng, đặc biệt là giọng Đông Nam Á

  • Nghĩ rằng NotebookLM có thể không phải là open source mà chỉ là vài thử nghiệm trong notebook iPython

    • Chức năng ở cấp độ LLM không có gì quá mới, nhưng cách đóng gói thành sản phẩm thì thú vị
    • Phần "podcast" chỉ giống như phần giới thiệu/tổng quan của một kho ngữ liệu lớn, còn trò chuyện với bot để lấy các tài liệu tham khảo được trích dẫn thì hữu ích hơn
  • Điều này cho thấy việc tạo prototype bằng LLM diễn ra rất nhanh

    • Khuyên những ai chưa từng dùng API hãy thử
  • Thắc mắc liệu NotebookLM có chỉ tạo podcast hay không

    • Podcast thì vui, nhưng họ cho rằng đây là một tính năng hơi mang tính đồ chơi
  • Nghĩ rằng sẽ rất hay nếu có thể chạy cục bộ trên điện thoại di động

    • Ví dụ, nếu có thể chuyển tài liệu công việc thành podcast để nghe khi lái xe, năng suất sẽ tăng đáng kể
  • Đánh giá rằng các mẫu còn hơi thô

  • Nói rằng họ muốn nghe đầu ra từ người đã thực sự dùng NotebookLM