- Thành phần điều khiển bằng giọng nói cho React/trình duyệt được xây dựng trên Realtime API
- Có thể triển khai widget phản hồi theo lệnh, từ nhập biểu mẫu bằng giọng nói đến chỉ thị nhiều hành động khác nhau
- Cung cấp mẫu tool-constrained UI để giới hạn sao cho trợ lý chỉ thực hiện các hành động mà ứng dụng cho phép
- Vì một controller duy nhất quản lý tập trung kết nối phiên, xử lý âm thanh, thực thi công cụ và ghép transcript, nên nhà phát triển không cần trực tiếp xử lý WebRTC hay giao thức Realtime
- Khi gắn vào ứng dụng hiện có, ứng dụng vẫn giữ vai trò nguồn sự thật duy nhất (source of truth) của trạng thái, còn lớp giọng nói chỉ gọi các handler bị giới hạn của ứng dụng
- Đây là một gói opinionated được tối ưu riêng cho luồng UI trên trình duyệt, không phải framework orchestration đa dụng; nếu cần runtime không phải React hoặc agent orchestration thì nên dùng Raw Realtime hoặc
openai-agents-js
- Khi tích hợp vào ứng dụng hiện có, có hướng dẫn 9 bước gồm: proxy endpoint
/session → tạo wrapper voice adapter → đăng ký công cụ → hoisting controller → mount widget
- Theo mặc định controller dùng
server_vad; trong phiên chỉ dùng tool, thiết lập interruptResponse: false để cuộc gọi công cụ đang chạy không bị giọng nói mới hủy giữa chừng
- Có thể xem nhiều kịch bản tích hợp khác nhau trong ứng dụng demo như chuyển đổi theme, biểu mẫu nhiều bước, luồng cờ vua với trạng thái chia sẻ, thử nghiệm wake-word, v.v.
- Giấy phép Apache-2.0
1 bình luận
Video minh họa có thể xem tại https://x.com/OpenAIDevs/status/2048871260512473385
Nó hoạt động khá nhanh và ổn. Dù vậy, vì chi phí API khá cao nên có lẽ phạm vi sử dụng sẽ bị hạn chế..
Nếu sau này có thể triển khai được kiểu này trên mô hình cục bộ thì sẽ khá đáng dùng.