13 điểm bởi GN⁺ 2025-03-21 | 2 bình luận | Chia sẻ qua WhatsApp
  • Bản demo tương tác để nhà phát triển có thể thử các mô hình chuyển văn bản thành giọng nói mới của OpenAI API
  • Có thể chỉ định chi tiết hiệu ứng giọng nói, tông giọng, tốc độ, cảm xúc, cách phát âm, khoảng dừng, v.v. bằng prompt

Demo

  • Chọn giọng nói: 11 lựa chọn như Alloy, Ash, Ballad, Coral, Echo
  • Chọn nhiều Vibe khác nhau: Sincere, Friendly, Noir Detective, Robot, Auctioneer, v.v.
  • Ví dụ: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Ví dụ: Medieval Knight
    Hiệu ứng giọng nói: trầm, mang tính mệnh lệnh và hơi kịch tính, phản ánh sự hùng tráng của những câu chuyện tiếng Anh cổ  
    Tông giọng: cao quý, anh hùng và trang trọng, nắm bắt bản chất của hiệp sĩ thời trung cổ và những cuộc phiêu lưu sử thi  
    Cảm xúc: sự phấn khích, kỳ vọng, bí ẩn, kết hợp với sự nghiêm túc của định mệnh và nghĩa vụ  
    Phát âm: rõ ràng, cẩn trọng, với nhịp điệu hơi trang trọng; các từ như "hast", "thou", "doth" được nhấn chậm để phản ánh kiểu phát âm tiếng Anh cổ  
    Tạm dừng: dừng sau các cụm tiếng Anh cổ như "Lo!", "Hark!", và dừng giữa các mệnh đề như "Choose thy path" để nhấn mạnh tầm quan trọng của quyết định và giúp người nghe cảm nhận sự nghiêm trọng của nhiệm vụ  
    

2 bình luận

 
GN⁺ 2025-03-21
Ý kiến trên Hacker News
  • Giá của các mô hình này rẻ hơn đáng kể so với ElevenLabs

    • Với mô hình "gpt-4o-mini-tts", chi phí là $0.015 mỗi phút âm thanh, rẻ hơn ElevenLabs 85%
    • Gói "Business" của ElevenLabs có giá $1100/tháng và cung cấp 11.000 phút TTS, tính phí 10 xu mỗi phút
    • OpenAI có thể cung cấp 11.000 phút TTS với giá $165
    • Nhờ kiểm tra xem phép tính có đúng không
  • Jeff của OpenAI thông báo đã phát hành các mô hình âm thanh mới

    • Ra mắt hai mô hình nhận dạng giọng nói và một mô hình TTS mới
    • Hỗ trợ Agents SDK để dễ dàng chuyển tác nhân văn bản thành tác nhân giọng nói
    • Nếu có câu hỏi thì cứ cho biết
  • Đề cập đến vấn đề độ tin cậy của các mô hình chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản

    • Chưa chắc điều đó sẽ gây vấn đề đến mức nào trong các ứng dụng thực tế
    • Cung cấp liên kết tới ghi chú liên quan
  • Hỏi cách lấy "speech marks" cùng với âm thanh được tạo ra

    • Giải thích "speech marks" được dùng trong dịch vụ TTS Polly của AWS
    • Hữu ích cho việc nhấn mạnh văn bản và đồng bộ khẩu hình
  • Những tiến bộ gần đây của các mô hình chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản cỡ lớn

    • Đề cập nhu cầu về giải pháp chuyển văn bản thành giọng nói ngoại tuyến, đa ngôn ngữ
    • Nghĩ rằng Tortoise TTS thường xuyên làm méo từ ngữ
    • Acapela SDK là giải pháp plugin cho ứng dụng desktop duy nhất
    • Hy vọng các mô hình mới dựa trên mạng nơ-ron sẽ chạy hiệu quả trên máy tính phổ thông
  • Có thể tạo ra nhiều ngữ điệu và cá tính khác nhau tùy theo văn bản nhập vào ô "vibe"

    • Mức độ thông minh trong nhịp điệu và ngữ điệu thật đáng kinh ngạc
    • Đã tiến bộ đến mức chỉ cần người nổi tiếng để thu âm sách nói
    • Cung cấp nhiều ví dụ giọng nói thú vị khác nhau
  • Phản ứng khi nhập Navy Seal copypasta

    • Kiểm soát an toàn hoạt động khác nhau tùy theo chỉ thị "vibe"
    • Giọng tài xế taxi NYC hoạt động bình thường và khá vui
  • Cảm thấy giọng nói của mô hình mới có rung nhẹ nên kém hơn Siri

  • Công cụ chính thức của OpenAI được liên kết với thông báo về mô hình mới

  • Trích dẫn quan trọng trong thông báo chính thức

    • Nhà phát triển có thể chỉ định cho mô hình không chỉ nói gì mà còn nói như thế nào
    • "vibes" là các chỉ dẫn trong UI
    • Mô hình mới tiếp nhận tốt hơn các khác biệt tinh tế
    • Chi phí đầu ra âm thanh của gpt-4o-mini-tts là $0.015 mỗi phút, đủ thực tế để sử dụng
    • Dự định thử nghiệm thêm nhiều hơn
 
sylee999 2025-03-21

Tiếng Hàn cũng hoạt động hoàn hảo.