1 điểm bởi GN⁺ 2023-07-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • SoundStorm là một mô hình dành cho việc tạo âm thanh hiệu quả, không theo kiểu tự hồi quy.
  • Mô hình này sử dụng attention hai chiều và giải mã song song dựa trên độ tin cậy để tạo ra các token âm thanh.
  • So với các cách tiếp cận khác, SoundStorm nhanh hơn 100 lần trong khi vẫn duy trì cùng chất lượng âm thanh và tính nhất quán.
  • Trên TPU-v4, SoundStorm có thể tạo ra 30 giây âm thanh chỉ trong 0,5 giây.
  • Mô hình này có thể tổng hợp các đoạn hội thoại tự nhiên, chất lượng cao bằng cách kiểm soát nội dung lời nói, giọng nói của người nói và việc chuyển lượt nói.
  • SoundStorm có thể tạo âm thanh dựa trên các token ngữ nghĩa cùng với lời nhắc giọng nói.
  • Mô hình này tạo ra âm thanh chất lượng cao đồng thời giữ nguyên giọng của người nói từ lời nhắc giọng nói.
  • SoundStorm tạo ra âm thanh chất lượng cao hơn so với các mô hình khác.
  • Mô hình này có thể bị ảnh hưởng bởi thiên lệch trong dữ liệu huấn luyện, vì vậy cần thận trọng để ngăn ngừa việc sử dụng sai mục đích.
  • SoundStorm có thể được phát hiện bởi bộ phân loại chuyên dụng, nhờ đó giảm rủi ro bị lạm dụng.
  • Mô hình này được phát triển nhằm giúp nghiên cứu tạo âm thanh trở nên dễ tiếp cận hơn với cộng đồng rộng lớn hơn.

1 bình luận

 
GN⁺ 2023-07-18
Ý kiến Hacker News
  • Ngành CGI đã đạt được những bước tiến đáng kể để tạo ra hình ảnh và âm thanh chân thực.
  • Công nghệ tổng hợp hội thoại đã đạt đến một cột mốc mà máy móc có thể tạo ra âm thanh không thể phân biệt với con người.
  • Trước đây, công nghệ TTS đôi khi nghe rất tệ, nhưng giờ đã có các lựa chọn chất lượng cao.
  • Tác giả tự hỏi khi nào công nghệ này sẽ có thể tiếp cận được trên các thiết bị như Raspberry Pi.
  • Bing và Bard đang sử dụng công nghệ giọng nói tiên tiến, nhưng người viết mong những tiến bộ này sẽ khả dụng thông qua API công khai và giao diện người dùng.
  • Những công việc mới được tạo ra bởi tiến bộ công nghệ thường có lương thấp và mang tính phục dịch.
  • SoundStorm được huấn luyện để tạo hội thoại bằng cách sử dụng bản chép lời có đánh dấu | để biểu thị sự thay đổi giọng nói.
  • Mô hình Bark cũng tạo được hội thoại, nhưng đôi khi bỏ lỡ các lần chuyển giọng.
  • Khả năng tạo ra 30 giây TTS chỉ từ 3 giây dữ liệu nguồn là rất ấn tượng.
  • Các chợ việc làm như UpWork và Fiverr có thể sẽ phải thích nghi với sự sẵn có của phần mềm có thể tự thực hiện chính các dịch vụ của họ.
  • Người dùng Linux đang tìm kiếm các giọng TTS dễ thiết lập.
  • Người bình luận không hứng thú với các trò chơi do AI tạo ra và thích các đoạn hội thoại NPC do con người viết hơn.
  • Các ví dụ đầu ra của SoundStorm rất ấn tượng, nhưng vẫn có một số lỗi tinh vi.
  • Việc sử dụng giọng nói do AI tạo ra trong quảng cáo mà không được cho phép có thể dẫn đến các vấn đề pháp lý.
  • Có cung cấp liên kết GitHub đến kho PyTorch của SoundStorm.