NotebookLlama - phiên bản mã nguồn mở của Google NotebookLM

(github.com/meta-llama)

1 điểm bởi GN⁺ 2024-10-28 | 1 bình luận | Chia sẻ qua WhatsApp

Trang GitHub hiện có của recipe NotebookLlama không phải là tài liệu triển khai mà là trang thông báo đã được chuyển sang vị trí mới
Vị trí mới dẫn tới tài liệu Building a Notebook Llama: A Step-by-Step Guide
Phần nội dung ở đường dẫn cũ lặp lại cùng một thông báo chuyển vị trí, vì vậy cần xem nội dung thực tế trong tài liệu mới
Nếu bookmark và script hiện có đang tham chiếu tới đường dẫn GitHub này, cần cập nhật sang URL mới
Trang hiện tại không bao gồm hướng dẫn sử dụng NotebookLlama như cách cài đặt, cấu trúc mã hay quy trình chạy

Vị trí mới của recipe NotebookLlama

Recipe NotebookLlama đã được chuyển từ thư mục GitHub cũ sang vị trí mới
Tiêu đề tài liệu mới là Building a Notebook Llama: A Step-by-Step Guide

Khi đang dùng đường dẫn cũ

Nếu bookmark hoặc script hiện có đang trỏ tới trang GitHub này, cần đổi sang URL tài liệu mới
Phần nội dung của trang GitHub hiện tại lặp lại thông báo chuyển vị trí và lời cảm ơn

Nội dung không có trên trang hiện tại

Trang này không bao gồm cách cài đặt, cấu trúc mã, quy trình chạy hay mô tả tính năng của NotebookLlama

1 bình luận

GN⁺ 2024-10-28

Ý kiến trên Hacker News

Càng nghe các “tập” của NotebookLM, tôi càng tin rằng Google đã huấn luyện một mô hình hội thoại 2 người tạo podcast trực tiếp trên nền các mô hình đa phương thức hiện có
Cách hai người nói chen vào nhau và nói chồng lên nhau giống con người đến rợn người
Cũng có khả năng họ dùng một lượng lớn podcast thật và bản chép lời, rồi tạo “tài liệu đầu vào” tổng hợp từ bản chép lời để đưa vào làm mẫu huấn luyện
Ví dụ, có thể lấy một tập của The Daily, cho một mô hình ngôn ngữ viết một bài giả định tóm tắt nội dung podcast đó, rồi đưa bài viết ấy vào mô hình hai người nói và chép lại âm thanh đầu ra để xem nó khớp với bài viết đầu vào đến đâu
Có thể tôi đang bỏ sót những chi tiết then chốt, nhưng tôi không nghĩ độ tự nhiên của podcast này có thể chỉ sinh ra từ bản chép lời văn bản thuần túy
- Nối tiếp mạch của swyx, TTS này rất có thể là việc Google cuối cùng đã đem Soundstorm vốn bị cất trong tầng hầm ra dùng
  https://google-research.github.io/seanet/soundstorm/examples...
- Có tin tốt và tin xấu: họ không làm như vậy
  Đã có một podcast đầu tiên phỏng vấn kỹ sư dẫn dắt mô hình âm thanh: https://www.latent.space/p/notebooklm
  Tóm lại, người đó xác nhận rằng kịch bản và âm thanh được tạo riêng, nhưng mô hình TTS đã được huấn luyện ở mức vượt xa những gì có thể tiếp cận dưới dạng mã nguồn mở hay thương mại
- Tôi cũng có cảm giác tương tự với NotebookLM, nhưng cũng thấy một điểm kỳ lạ
  Đôi khi người dẫn A đang nói thì đột nhiên người dẫn B lại kết thúc luôn câu đó
  Thường thì lúc này A đang giải thích điều gì đó cho B hoặc trả lời câu hỏi, nên xét theo ngữ cảnh thì không hợp lý; tôi không biết nên diễn giải thế nào, nhưng đó là một hiện tượng thú vị
Cái này thực ra khá rõ ràng là không phải mã nguồn mở: https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
Cũng không có tệp LICENSE, nên hiện tại có lẽ tối đa chỉ có thể dùng mã này để tham khảo
- Trông không hữu ích lắm để dùng nguyên xi, nhưng chính cách tiếp cận được khám phá thì được mô tả rõ ràng bằng ngôn ngữ thường và được tài liệu hóa tốt
  Dù không thể dùng trực tiếp, nó vẫn đủ đáng để biết ơn như một đóng góp cho tri thức công khai
- Có thể là nhầm lẫn vì nó khác với nội dung trong README: https://github.com/meta-llama/llama-models/blob/main/models/...
  Ở đây nó trỏ tới giấy phép của Meta Llama 3.2
- Cảm ơn, nhưng dù vậy tôi vẫn định cứ dùng thôi
Thấy cái này hay. Những người thích công nghệ mà phớt lờ NotebookLM thì khá rủi ro
Hầu hết những người tôi biết, thông minh nhưng không hẳn thiên về kỹ thuật, đều đón nhận NotebookLM như một killer app AI áp đảo
Bố mẹ tôi ngoài 70 và đứa trẻ 8 tuổi đều kinh ngạc khi thấy nó và cứ tiếp tục nghịch mãi
Như ai đó bên dưới đã chỉ ra, thứ được nói tới ở đây chính xác là tính năng “podcast”
- Với tư cách người không nghe podcast, tôi không rõ nếu không tạo podcast bằng NotebookLM thì sẽ gặp rủi ro gì
- Tôi hiểu vì sao với nhiều người nó trông ấn tượng, nhưng với tôi thì nó là điều ngược lại với tiết kiệm thời gian
  Có thể nói nó gần giống một công cụ ngốn thời gian hơn
  Cảm giác giống như những video có lý do tồn tại vì một số người, thậm chí cả lập trình viên, không đọc được hoặc bị choáng trước văn bản dài
  Có một bất lợi cạnh tranh chỉ được giảm nhẹ phần nào bằng cách gắn video vào cả những trang văn bản rất ngắn
- Tôi không chắc. Ý là những người “thông minh nhưng không thiên về kỹ thuật” không đọc được sao?
  Tôi không biết nếu phớt lờ nó như phớt lờ các podcast khác thì sẽ bỏ lỡ điều gì
  Tôi hầu như chưa thấy ai nói họ học được điều gì đó từ podcast; thường chỉ là ít kiến thức rời rạc thuộc lĩnh vực khác mà ít khi dùng đến
- Tôi tò mò là bạn đang nói về NotebookLM nói chung, hay cụ thể là màn trình diễn podcast
- Mỗi lần nghe podcast NotebookLM về một bài viết hay bài blog nào đó, tôi đều thấy giá mà chỉ dùng AI text-to-speech đọc chính bài đó lên thì tốt hơn nhiều
Trong vài tháng qua tôi đã thử làm một thứ giống NotebookLM: podcast tin tức cá nhân hóa (https://www.tailoredpod.ai)
Vấn đề lớn nhất là các TTS API tốt hiện có quá đắt, nên một công ty bình thường không có quyền truy cập nội bộ vào mô hình của Google rất khó tạo ra sản phẩm như NotebookLM
OpenAI cung cấp TTS API có chất lượng so với giá tạm ổn nhất, nhưng vẫn quá đắt để tạo miễn phí vài giờ âm thanh
Các mô hình TTS mã nguồn mở cũng đang dần bắt kịp, nhưng hiện vẫn cần phần cứng mạnh. Ví dụ: https://github.com/SWivid/F5-TTS
- Có người dùng chưa? Nếu TTS là nút thắt cổ chai thì có thể tôi giúp được. Email có trong hồ sơ
- Tôi tò mò “phần cứng mạnh” là cỡ nào
Lựa chọn engine TTS khá lạ
Theo chuẩn các hệ thống TTS mở, không cái nào trong số đó gần đạt mức hiện đại nhất
XTTSv2 hoặc F5-TTS mới hẳn sẽ là lựa chọn tốt hơn nhiều
- Có thể cập nhật mã bất cứ lúc nào để dùng các engine đó
  Khi Meta công bố thứ gì đó trên GitHub, mục tiêu thường không phải là đưa ra thứ “tốt nhất” mà là cung cấp bằng chứng khái niệm
  Giấy phép của các hệ thống TTS đó cũng quan trọng, nên chỉ mở thôi là chưa đủ
  Nếu đây là sản phẩm cho người dùng, chắc chắn họ đã dùng TTS tốt hơn
- Trên trang có ghi trong các mục cần cải thiện như sau:
  “Thử nghiệm mô hình giọng nói: Đây là giới hạn về mức độ tự nhiên của mô hình TTS. Nó có thể được cải thiện nhờ pipeline tốt hơn và sự trợ giúp của người am hiểu hơn. Rất hoan nghênh PR! :)”
Kết quả mẫu rất tệ
Dù là một demo ấn tượng, nó chỉ càng nhấn mạnh rằng đội ngũ NotebookLM đã tạo ra một sản phẩm thành công lớn đến mức nào với mô hình nền tảng gần như giống những gì đã có thể sử dụng
Cái này có vẻ giống vài thử nghiệm trong một notebook iPython hơn là một NotebookLM mã nguồn mở
Những gì NotebookLM làm ở cấp độ LLM không có gì đặc biệt mới; điều thú vị là cách nó được đóng gói thành sản phẩm khác với các sản phẩm khác
Phần “podcast” thực ra cũng gần giống một phần giới thiệu hay tổng quan về một kho ngữ liệu lớn, còn thứ hữu ích hơn nhiều là tính năng trò chuyện với bot về kho ngữ liệu đó và nhận nguồn trích dẫn
Tuy nhiên, ví dụ này cho thấy việc tạo prototype bằng LLM rất nhanh
Nếu bạn chưa từng thử API thì nên thử một lần
- Không đồng ý
  Điểm mới của NotebookLM nằm ở cách hai người dẫn chương trình ngắt lời nhau và nói chồng lên nhau
  Các giải pháp mã nguồn mở khác không làm được như vậy, chúng chỉ nói luân phiên mà thôi
Cũng có một giải pháp notebook dựa trên Jupyter khác hỗ trợ mô hình LLaMA: https://raku.land/zef:antononcube/Jupyter::Chatbook
Video demo ở đây: https://youtu.be/zVX-SqRfFPA
Cái này chỉ tạo podcast thôi đúng không?
Tôi quan tâm hơn đến các tính năng khác của NotebookLM
Podcast thì thú vị, nhưng gần như chỉ là một mánh lạ
- Ngược lại, tôi đã dùng tính năng podcast nhiều lần và chia sẻ với nhiều người
  Nó là một hệ thống kiêm phương tiện tốt để hiểu những thông tin phức tạp mà bình thường tôi sẽ không tiêu hóa nổi
Nếu có thể chạy cái này cục bộ trên điện thoại thì khá tuyệt
Hãy tưởng tượng tình huống nhận tài liệu công việc, ví dụ như tài liệu yêu cầu sản phẩm, rồi biến nó thành podcast để nghe khi đang lái xe
Có lẽ năng suất sẽ tăng đáng kể và cũng không phải lo về vấn đề tuân thủ
- Sẽ thật tốt nếu ChatGPT hoặc Claude làm một ứng dụng Android Auto có thể dùng khi đang lái xe

NotebookLlama - phiên bản mã nguồn mở của Google NotebookLM

Vị trí mới của recipe NotebookLlama

Khi đang dùng đường dẫn cũ

Nội dung không có trên trang hiện tại

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News