13 điểm bởi xguru 2024-10-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Với framework Agent, có thể xây dựng các chương trình máy chủ dựa trên AI có khả năng nhìn, nghe và nói theo thời gian thực
  • Kết nối với thiết bị của người dùng thông qua phiên LiveKit, xử lý luồng văn bản, âm thanh, hình ảnh và video, đồng thời truyền trực tuyến kết quả do mô hình AI tạo ra tới người dùng
  • Cung cấp API MultimodalAgent thông qua hợp tác với OpenAI
    • Bao bọc hoàn toàn Realtime API của OpenAI để trừu tượng hóa giao thức Raw Wire và cung cấp truyền WebRTC độ trễ cực thấp giữa GPT-4o và thiết bị
    • Đây là stack công nghệ được dùng trong tính năng Advanced Voice của ứng dụng ChatGPT
  • Tính năng được cung cấp
    • Plugin cho các LLM phổ biến, dịch vụ chuyển giọng nói thành văn bản và văn bản thành giọng nói, cùng các cơ sở dữ liệu RAG
    • Cung cấp các lớp trừu tượng cấp cao để xây dựng agent hoặc trợ lý giọng nói với khả năng tự động phát hiện lượt hội thoại, xử lý ngắt quãng, gọi hàm và phiên âm
    • Tương thích với stack điện thoại của LiveKit, cho phép tổng đài viên thực hiện hoặc nhận cuộc gọi qua điện thoại
    • Hệ thống cân bằng tải tích hợp để quản lý các nhóm agent với điều phối dựa trên edge, giám sát và chuyển đổi dự phòng minh bạch
    • Việc chạy agent diễn ra giống nhau trên localhost, môi trường tự lưu trữ và LiveKit Cloud

1 bình luận

 
xguru 2024-10-07

LiveKit - nền tảng giao tiếp thời gian thực mã nguồn mở

Tôi đã từng chia sẻ về LiveKit một lần vào năm 2021, và có vẻ như sau khi mở rộng với tính năng Agents thì nó cũng đã được dùng trong ChatGPT.
Ban đầu đây là sản phẩm dành cho các tính năng họp âm thanh/video thời gian thực với quy mô từ 10 đến 1000 người.
Khi đó nó đã nhận được khá nhiều chú ý vì có thể trở thành lựa chọn mã nguồn mở thay thế cho Agora mà ClubHouse từng sử dụng.
Và tìm hiểu thêm thì thấy Agora cũng đang cung cấp đúng chức năng tương tự dưới tên Conversational AI SDK.

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/