Tận dụng 100% tính năng của macOS với AI Voice Agent đa ngôn ngữ thời gian thực — TalkMode
(talkmode.baryon.ai)Tiêu đề:
AI voice agent thời gian thực chạy trên Mac — TalkMode
Phụ đề:
Giao diện giọng nói kiểu Agent-OS dựa trên theo dõi ánh nhìn (Gaze), STT/TTS thời gian thực và tích hợp Claude/OpenAI
TalkMode không hẳn là một chatbot giọng nói đơn thuần,
mà gần hơn với một dự án “AI voice agent cho tác vụ thời gian thực”.
Những điểm thú vị về mặt kỹ thuật:
- Tương tác giọng nói độ trễ thấp dựa trên macOS native
- Pipeline STT ↔ LLM ↔ TTS thời gian thực
- Tối ưu hội thoại giọng nói đa ngôn ngữ, bao gồm cả tiếng Hàn
- Thử nghiệm tương tác dựa trên gaze (ánh nhìn)
- Xử lý turn-taking (điều khiển thời điểm phát ngôn)
- Cấu trúc tích hợp OpenAI / Claude / CLI Agent
- Hướng tới workflow kiểu Agent OS
- Hướng tới kiến trúc local-first
Đặc biệt, đây không chỉ là kiểu “voice chat hỏi-đáp” đơn giản mà là:
- Họp
- Brainstorming
- Hỗ trợ phát triển
- Nghiên cứu
- Kết nối IDE/CLI
Cho thấy định hướng dùng giọng nói để kết nối các “luồng công việc liên tục” như vậy.
Cảm giác như đang thực sự nhắm tới luồng sau:
Mic Input
↓
Streaming STT
↓
Context / Memory
↓
LLM Agent
↓
Tool Calls / CLI
↓
Realtime TTS
Một điểm thú vị khác là,
nếu các Voice Assistant trước đây mang cảm giác của một “trợ lý di động”,
thì TalkMode dường như gần hơn với một “voice agent dành cho developer”
gắn với Claude Code / Codex / văn hóa terminal.
Trang chính thức:
https://talkmode.baryon.ai/
GitHub:
https://github.com/baryonlabs
Chưa có bình luận nào.