Thành phần React điều khiển bằng giọng nói dựa trên OpenAI Realtime API

xguru · 2026-04-29T09:31:01+09:00

Thành phần điều khiển bằng giọng nói cho React/trình duyệt được xây dựng trên Realtime API Có thể triển khai widget phản hồi theo lệnh, từ nhập biểu mẫu bằng giọng nói đến chỉ thị nhiều hành động khác nhau Cung cấp mẫu tool-constrained UI để giới hạn sao cho trợ lý chỉ thực hiện các hành động mà ứng dụng cho phép Vì một controller duy nhất quản lý tập trung kết nối phiên, xử lý âm thanh, thực thi công cụ và ghép transcript, nên nhà phát triển không cần trực tiếp xử lý WebRTC hay giao thức Realtime Khi gắn vào ứng dụng hiện có, ứng dụng vẫn giữ vai trò nguồn sự thật duy nhất (source of truth) của trạng thái, còn lớp giọng nói chỉ gọi các handler bị giới hạn của ứng dụng Đây là một gói opinionated được tối ưu riêng cho luồng UI trên trình duyệt, không phải framework orchestration đa dụng; nếu cần runtime không phải React hoặc agent orchestration thì nên dùng Raw Realtime hoặc openai-agents-js Khi tích hợp vào ứng dụng hiện có, có hướng dẫn 9 bước gồm: proxy endpoint /session → tạo wrapper voice adapter → đăng ký công cụ → hoisting controller → mount widget Theo mặc định controller dùng server_vad; trong phiên chỉ dùng tool, thiết lập interruptResponse: false để cuộc gọi công cụ đang chạy không bị giọng nói mới hủy giữa chừng Có thể xem nhiều kịch bản tích hợp khác nhau trong ứng dụng demo như chuyển đổi theme, biểu mẫu nhiều bước, luồng cờ vua với trạng thái chia sẻ, thử nghiệm wake-word, v.v. Giấy phép Apache-2.0

(github.com/openai)

5 điểm bởi xguru 2026-04-29 | 1 bình luận | Chia sẻ qua WhatsApp

Thành phần điều khiển bằng giọng nói cho React/trình duyệt được xây dựng trên Realtime API
Có thể triển khai widget phản hồi theo lệnh, từ nhập biểu mẫu bằng giọng nói đến chỉ thị nhiều hành động khác nhau
Cung cấp mẫu tool-constrained UI để giới hạn sao cho trợ lý chỉ thực hiện các hành động mà ứng dụng cho phép
Vì một controller duy nhất quản lý tập trung kết nối phiên, xử lý âm thanh, thực thi công cụ và ghép transcript, nên nhà phát triển không cần trực tiếp xử lý WebRTC hay giao thức Realtime
Khi gắn vào ứng dụng hiện có, ứng dụng vẫn giữ vai trò nguồn sự thật duy nhất (source of truth) của trạng thái, còn lớp giọng nói chỉ gọi các handler bị giới hạn của ứng dụng
Đây là một gói opinionated được tối ưu riêng cho luồng UI trên trình duyệt, không phải framework orchestration đa dụng; nếu cần runtime không phải React hoặc agent orchestration thì nên dùng Raw Realtime hoặc openai-agents-js
Khi tích hợp vào ứng dụng hiện có, có hướng dẫn 9 bước gồm: proxy endpoint /session → tạo wrapper voice adapter → đăng ký công cụ → hoisting controller → mount widget
Theo mặc định controller dùng server_vad; trong phiên chỉ dùng tool, thiết lập interruptResponse: false để cuộc gọi công cụ đang chạy không bị giọng nói mới hủy giữa chừng
Có thể xem nhiều kịch bản tích hợp khác nhau trong ứng dụng demo như chuyển đổi theme, biểu mẫu nhiều bước, luồng cờ vua với trạng thái chia sẻ, thử nghiệm wake-word, v.v.
Giấy phép Apache-2.0

1 bình luận

xguru 2026-04-29

Video minh họa có thể xem tại https://x.com/OpenAIDevs/status/2048871260512473385
Nó hoạt động khá nhanh và ổn. Dù vậy, vì chi phí API khá cao nên có lẽ phạm vi sử dụng sẽ bị hạn chế..
Nếu sau này có thể triển khai được kiểu này trên mô hình cục bộ thì sẽ khá đáng dùng.

Thành phần React điều khiển bằng giọng nói dựa trên OpenAI Realtime API

Bài viết liên quan

1 bình luận