2 điểm bởi GN⁺ 1 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Ra mắt 3 mô hình âm thanh mới cho API giọng nói thời gian thực, tích hợp khả năng suy luận, dịch thuật và phiên âm, giúp nhà phát triển xây dựng các ứng dụng giọng nói tự nhiên và thông minh hơn
  • GPT-Realtime-2 là mô hình giọng nói đầu tiên được trang bị năng lực suy luận cấp GPT-5, có thể gọi công cụ và xử lý ngắt quãng trong khi vẫn duy trì cuộc trò chuyện một cách tự nhiên
  • GPT-Realtime-Translatemô hình dịch trực tiếp theo thời gian thực từ hơn 70 ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra
  • GPT-Realtime-Whispermô hình phiên âm giọng nói streaming chuyển lời nói thành văn bản đồng thời với lúc người dùng phát biểu, có thể ứng dụng cho phụ đề, biên bản họp và hỗ trợ khách hàng
  • Đây là bước ngoặt cho thấy giọng nói đang tiến hóa vượt khỏi kiểu gọi-đáp đơn thuần để trở thành giao diện có thể đồng thời suy luận, dịch, phiên âm và thực thi công cụ

Tổng quan về 3 mô hình âm thanh thời gian thực mới

  • OpenAI đưa 3 mô hình vào API để giúp nhà phát triển xây dựng trải nghiệm giọng nói tự nhiên hơn, phản hồi thông minh hơn và thực hiện hành động theo thời gian thực
  • GPT-Realtime-2: mô hình giọng nói đầu tiên có suy luận cấp GPT-5, xử lý các yêu cầu khó và dẫn dắt hội thoại một cách tự nhiên
  • GPT-Realtime-Translate: thực hiện dịch giọng nói thời gian thực từ hơn 70 ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra, theo kịp tốc độ nói của người dùng
  • GPT-Realtime-Whisper: cung cấp phiên âm giọng nói sang văn bản livestream trong lúc người nói đang phát biểu

Xu hướng giọng nói trở thành giao diện phần mềm

  • Giọng nói đang nổi lên như một trong những cách sử dụng phần mềm tự nhiên nhất: nhờ hỗ trợ khi lái xe, thay đổi kế hoạch ở sân bay, nhận hỗ trợ bằng ngôn ngữ ưa thích hoặc làm việc mà không cần gõ
  • Một sản phẩm giọng nói hữu ích cần nhiều hơn là tốc độ đối đáp nhanh hay giọng nói tự nhiên: nó phải hiểu ý nghĩa, theo dõi ngữ cảnh, phục hồi khi yêu cầu thay đổi, sử dụng công cụ trong lúc hội thoại và phản hồi với tông giọng phù hợp
  • Các mô hình mới ra mắt lần này chuyển âm thanh thời gian thực từ mô hình gọi-đáp đơn giản thành giao diện giọng nói biết lắng nghe, suy luận, dịch, phiên âm và hành động

3 mô thức mới nổi của AI giọng nói

  • Voice-to-Action: người dùng nói ra yêu cầu, hệ thống sẽ suy luận và dùng công cụ để hoàn thành tác vụ
    • Trường hợp của Zillow: đang xây dựng trợ lý có thể nghe, suy luận và thực thi các yêu cầu như “Tìm nhà trong phạm vi BuyAbility của tôi, tránh các con đường đông đúc và đặt lịch tham quan vào thứ Bảy”
  • Systems-to-Voice: phần mềm chuyển ngữ cảnh thành hướng dẫn bằng giọng nói theo thời gian thực
    • Ví dụ ứng dụng du lịch: cung cấp hướng dẫn giọng nói chủ động như “Chuyến bay đến của bạn bị hoãn nhưng vẫn có thể nối chuyến. Tôi đã tìm được cổng mới, sẽ chỉ đường ngắn nhất trong nhà ga và hành lý của bạn vẫn được chuyển bình thường”
  • Voice-to-Voice: AI duy trì cuộc trò chuyện thời gian thực vượt qua rào cản ngôn ngữ, tác vụ và ngữ cảnh luôn thay đổi
    • Trường hợp của Deutsche Telekom: đang xây dựng trải nghiệm hỗ trợ bằng giọng nói, trong đó mô hình dịch theo thời gian thực khi khách hàng nói bằng ngôn ngữ họ thấy thoải mái nhất
  • Các mô thức này cũng có thể kết hợp với nhau; Priceline đang hướng tới tương lai nơi toàn bộ hành trình du lịch được quản lý bằng giọng nói, từ tìm chuyến bay và khách sạn, thay đổi đặt chỗ, cập nhật thời gian chờ TSA cho đến dịch hội thoại tại địa phương

GPT-Realtime-2: mô hình giọng nói thời gian thực có khả năng suy luận và hành động

  • Được tối ưu cho tương tác giọng nói thời gian thực, mô hình có thể vừa suy luận vừa gọi công cụ, xử lý chỉnh sửa/ngắt quãng và đưa ra phản hồi phù hợp với ngữ cảnh
  • Preambles: các cụm ngắn như “Để tôi kiểm tra” hoặc “Xin chờ một chút” giúp báo cho người dùng biết tác nhân đang xử lý yêu cầu
  • Gọi công cụ song song và minh bạch về công cụ: có thể gọi nhiều công cụ cùng lúc trong khi vẫn duy trì độ phản hồi bằng các câu như “Đang kiểm tra lịch” hoặc “Tôi đang tìm kiếm ngay bây giờ”
  • Khả năng phục hồi được tăng cường: thay vì âm thầm thất bại hoặc cắt ngang cuộc trò chuyện bằng những câu như “Tôi khó xử lý việc này lúc này”, mô hình có thể phục hồi tự nhiên
  • Cửa sổ ngữ cảnh mở rộng: tăng từ 32K lên 128K, hỗ trợ các phiên dài hơn và quy trình công việc phức tạp hơn
  • Hiểu miền kiến thức tốt hơn: giữ được tốt hơn các thuật ngữ chuyên môn, danh từ riêng và thuật ngữ y khoa quan trọng trong môi trường production
  • Kiểm soát được tông giọng và cách truyền đạt: có thể điều chỉnh tông như bình tĩnh khi xử lý sự cố, đồng cảm khi người dùng không hài lòng hoặc tươi sáng khi xác nhận thành công
  • Mức độ nỗ lực suy luận có thể điều chỉnh: cung cấp 5 mức minimal, low, medium, high, xhigh, mặc định là low để cân bằng giữa độ trễ thấp cho tương tác đơn giản và suy luận sâu hơn cho yêu cầu phức tạp

Benchmark hiệu năng của GPT-Realtime-2

  • GPT-Realtime-2 (high) đạt điểm cao hơn 15,2% so với GPT-Realtime-1.5 trên Big Bench Audio theo tiêu chí trí tuệ âm thanh
  • GPT-Realtime-2 (xhigh) đạt điểm cao hơn 13,8% so với GPT-Realtime-1.5 trên Audio MultiChallenge theo tiêu chí làm theo chỉ dẫn, cho thấy cải thiện về suy luận, quản lý ngữ cảnh và khả năng kiểm soát
  • Trích lời Josh Weisberg, SVP của Zillow: sau khi tối ưu prompt trên benchmark đối kháng khó nhất, tỷ lệ cuộc gọi thành công tăng 26 điểm (95% so với 69%), đồng thời vững chắc hơn trong tuân thủ quy định Fair Housing; sự kết hợp giữa năng lực tác nhân và độ mạnh của guardrail khiến mô hình phù hợp với giọng nói production của Zillow

GPT-Realtime-Translate: dịch giọng nói đa ngôn ngữ theo thời gian thực

  • Có thể xây dựng trải nghiệm giọng nói đa ngôn ngữ nơi mỗi người tham gia nói bằng ngôn ngữ ưa thích, nghe cuộc trò chuyện đã được dịch theo thời gian thực và đọc bản phiên âm thời gian thực
  • Hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra, phù hợp cho hỗ trợ khách hàng, bán hàng xuyên biên giới, giáo dục, sự kiện, truyền thông và các nền tảng sáng tạo toàn cầu
  • Mô hình phải theo kịp tốc độ của người nói trong khi vẫn giữ nguyên ý nghĩa, đồng thời xử lý phát ngôn tự nhiên, chuyển đổi ngữ cảnh, giọng địa phương và ngôn ngữ chuyên ngành
  • Deutsche Telekom đang thử nghiệm cho tương tác giọng nói đa ngôn ngữ; độ trễ thấp và độ lưu loát được cải thiện giúp hội thoại xuyên ngôn ngữ tự nhiên hơn
  • Trường hợp của Vimeo: GPT-Realtime-Translate thực hiện dịch thời gian thực trong lúc phát video đào tạo sản phẩm, cho phép khách hàng toàn cầu nghe cập nhật bằng ngôn ngữ họ ưa thích mà không cần tạo phiên bản riêng
  • Trích lời Prateek Sachan, CTO của BolnaAI: trong các đánh giá tiếng Hindi, Tamil và Telugu, tỷ lệ lỗi từ (WER) thấp hơn 12,5% so với các mô hình khác, giảm tỷ lệ fallback, đạt tỷ lệ hoàn thành tác vụ cao và độ trễ đủ để duy trì hội thoại tự nhiên

GPT-Realtime-Whisper: phiên âm streaming độ trễ thấp

  • Là mô hình phiên âm streaming mới cho chuyển giọng nói thành văn bản với độ trễ thấp, có thể phiên âm âm thanh đồng thời với lúc người dùng đang nói
  • Có thể dùng cho phụ đề thời gian thực, ghi chú họp được tạo trong lúc trò chuyện, tác nhân giọng nói cần hiểu người dùng liên tục và các quy trình follow-up nhanh trong tương tác giọng nói tần suất cao như hỗ trợ khách hàng, y tế, bán hàng và tuyển dụng
  • Giúp tận dụng ngay dữ liệu giọng nói thời gian thực trong quy trình công việc doanh nghiệp như tạo phụ đề cho cuộc họp, lớp học, phát sóng và sự kiện, hoặc tạo ghi chú và tóm tắt ngay khi cuộc trò chuyện đang diễn ra

An toàn và chính sách

  • Áp dụng các lớp bảo vệ và biện pháp giảm thiểu nhiều tầng cho Realtime API để ngăn chặn lạm dụng
  • Hiện đang vận hành bộ phân loại chủ động (active classifiers) cho từng phiên, có thể dừng cuộc trò chuyện nếu phát hiện vi phạm hướng dẫn về nội dung có hại
  • Nhà phát triển có thể dùng Agents SDK để bổ sung guardrail an toàn riêng
  • Theo chính sách sử dụng, cấm tái sử dụng hoặc phân phối đầu ra cho các mục đích gây hại như spam hay lừa đảo
  • Cần thông báo rõ ràng cho người dùng cuối rằng họ đang tương tác với AI (trừ khi ngữ cảnh đã quá rõ ràng)
  • Hỗ trợ đầy đủ EU data residency và áp dụng cam kết quyền riêng tư cho doanh nghiệp

Giá và khả dụng

  • Cả GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper đều có sẵn trên Realtime API
  • GPT-Realtime-2: $32 cho mỗi 1 triệu audio input token (input token được cache là $0.40), $64 cho mỗi 1 triệu audio output token
  • GPT-Realtime-Translate: $0.034 mỗi phút
  • GPT-Realtime-Whisper: $0.017 mỗi phút
  • Có thể thử các mô hình giọng nói thời gian thực mới trong Playground, đồng thời dùng Codex để thêm GPT-Realtime-2 vào ứng dụng hiện có hoặc bắt đầu dự án mới

Chưa có bình luận nào.

Chưa có bình luận nào.