2 điểm bởi GN⁺ 2024-11-04 | 1 bình luận | Chia sẻ qua WhatsApp
  • Standard Intelligence đang nghiên cứu học đa phương thức có khả năng mở rộng và đã phát hành mã nguồn mở hertz-dev, một mô hình nền tảng transformer chỉ dành cho âm thanh.

  • hertz-dev có 8,5 tỷ tham số và được tối ưu hóa cho mô hình hóa âm thanh.

  • hertz-codec

    • Là một bộ tự mã hóa âm thanh tích chập chuyển đổi giọng nói mono 16kHz thành biểu diễn tiềm ẩn 8Hz.
    • Vượt trội hơn Soundstream và Encodec ở bitrate 1kbps, đồng thời cho hiệu năng tương đương DAC.
    • Có 5 triệu tham số cho encoder và 95 triệu tham số cho decoder.
  • hertz-vae

    • Là một transformer decoder có 1,8 tỷ tham số, đóng vai trò là prior đã được học của audio VAE.
    • Sử dụng 8192 biểu diễn tiềm ẩn đã lấy mẫu để dự đoán khung âm thanh đã mã hóa tiếp theo.
  • hertz-dev

    • Là một stack transformer có 6,6 tỷ tham số.
    • Được huấn luyện trong một epoch duy nhất trên 500 tỷ token, với một phần trọng số được khởi tạo từ mô hình ngôn ngữ đã tiền huấn luyện.
    • Mô hình này là điểm khởi đầu phù hợp để các nhà nghiên cứu tinh chỉnh cho nhiều tác vụ khác nhau.
    • Độ trễ lý thuyết trên RTX 4090 là 65ms, còn độ trễ trung bình thực tế là 120ms.
  • Triển vọng tương lai

    • Hertz-dev là mô hình cho thấy cái nhìn thoáng qua về tương lai của tương tác giọng nói thời gian thực, đồng thời là mô hình mà các nhà nghiên cứu có thể dễ dàng tinh chỉnh và mở rộng.
    • Standard Intelligence đang phát triển phiên bản Hertz lớn hơn, dự kiến sẽ cải thiện đáng kể năng lực gốc và độ nhất quán đầu ra cuối cùng của mô hình thông qua tinh chỉnh bằng học tăng cường.
  • Mẫu sinh

    • Để thể hiện năng lực mô hình hóa âm thanh của hertz-dev, họ cung cấp các mẫu sinh một kênh, hai kênh và các đoạn hội thoại thời gian thực giữa mô hình và con người.
  • Mục tiêu của Standard Intelligence

    • Công ty đặt mục tiêu xây dựng trí tuệ nhân tạo tổng quát và hiện có đội ngũ gồm 4 người.
    • Họ đang tuyển dụng những người quan tâm đến việc xây dựng AGI, đồng thời cũng hoan nghênh liên hệ từ những người quan tâm đến đầu tư.

1 bình luận

 
GN⁺ 2024-11-04
Ý kiến trên Hacker News
  • Những người làm về mô hình giọng nói đang tự hỏi liệu âm thanh phát ra từ hệ thống có tạo ra tác động sinh lý hay không

    • Đây là mô hình vượt trội hơn hẳn các engine TTS mã nguồn mở hiện có
    • Sẽ tốt hơn nếu bổ sung khả năng đa phương thức để cũng có thể tiếp nhận văn bản
    • Có thể tinh chỉnh để phát lại đầu ra như Piper với ngữ điệu tự nhiên hơn
    • Sẽ hữu ích nếu LLM văn bản nối sang Piper, rồi Piper nối sang Hertz-dev
  • Hertz được nói là mô hình đầu tiên, nhưng vẫn có một mô hình tương tự là Moshi

  • Cách tiếp cận tự lái thuần thị giác của Tesla giúp công nghệ trở nên dễ tiếp cận hơn và có khả năng mở rộng tốt hơn

    • Cho phép thu thập tập dữ liệu quy mô lớn để lặp lại nhanh
    • Có khả năng sau khi đạt đến giai đoạn trưởng thành, họ sẽ tái tích hợp thêm dữ liệu từ cảm biến
  • Đang khám phá các ý tưởng cho hệ thống tương tác bằng giọng nói

    • Hiện nay phần lớn tương tác giọng nói đều chuyển giọng nói thành văn bản rồi lại chuyển về âm thanh
    • Nếu có thể phát triển một hệ thống phản hồi trực tiếp bằng giọng nói mà không đi qua văn bản, nó có thể tạo ra phản hồi tự nhiên và ngẫu hứng hơn
    • Tò mò không biết mô hình tương tác giọng nói này có đi theo quy trình giọng nói-văn bản-giọng nói tiêu chuẩn hay đang khám phá xử lý giọng nói-sang-giọng nói
  • Tò mò không biết giấy phép của trọng số mô hình là gì

  • Các mẫu giọng nói thường tạo ra âm thanh vô nghĩa, nhưng về mặt âm học thì rất xuất sắc

    • Với SD và LLMs, có thể gỡ lỗi bằng cách nghiên cứu phản ứng trước những thay đổi nhỏ
    • Hertz-dev dùng âm thanh làm đầu vào nên khó phân biệt cần điều chỉnh token nào
    • Với mục đích sử dụng thời gian thực thì không thể cứ loay hoay tinh chỉnh mãi
    • Tò mò về cách có thể nghiên cứu hành vi của Hertz-dev một cách có hệ thống
  • Đang khám phá VUI (Voice User Interface) và thấy nó có vẻ hữu ích

    • Nghĩ rằng VUI là tương lai của tương tác với máy tính
    • Có thể bổ sung trẻ em và người cao tuổi như những nhóm người dùng mới
  • Các tham số codec gợi nhớ đến codec giọng nói quân sự từ năm 2010

    • Sử dụng khung 120ms và được mã hóa bằng âm thanh 16KHz
    • Liên kết IEEE
  • Giọng nói nghe hơi méo và có tiếng ồn nền

    • Tò mò không biết đó là giới hạn của mô hình hay vấn đề về chất lượng dữ liệu huấn luyện
  • Liên kết kho lưu trữ Hertz-dev