1 điểm bởi fastkoder 1 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tiêu đề:
AI voice agent thời gian thực chạy trên Mac — TalkMode

Phụ đề:
Giao diện giọng nói kiểu Agent-OS dựa trên theo dõi ánh nhìn (Gaze), STT/TTS thời gian thực và tích hợp Claude/OpenAI

TalkMode không hẳn là một chatbot giọng nói đơn thuần,
mà gần hơn với một dự án “AI voice agent cho tác vụ thời gian thực”.

Những điểm thú vị về mặt kỹ thuật:

  • Tương tác giọng nói độ trễ thấp dựa trên macOS native
  • Pipeline STT ↔ LLM ↔ TTS thời gian thực
  • Tối ưu hội thoại giọng nói đa ngôn ngữ, bao gồm cả tiếng Hàn
  • Thử nghiệm tương tác dựa trên gaze (ánh nhìn)
  • Xử lý turn-taking (điều khiển thời điểm phát ngôn)
  • Cấu trúc tích hợp OpenAI / Claude / CLI Agent
  • Hướng tới workflow kiểu Agent OS
  • Hướng tới kiến trúc local-first

Đặc biệt, đây không chỉ là kiểu “voice chat hỏi-đáp” đơn giản mà là:

  • Họp
  • Brainstorming
  • Hỗ trợ phát triển
  • Nghiên cứu
  • Kết nối IDE/CLI

Cho thấy định hướng dùng giọng nói để kết nối các “luồng công việc liên tục” như vậy.

Cảm giác như đang thực sự nhắm tới luồng sau:

Mic Input  
  ↓  
Streaming STT  
  ↓  
Context / Memory  
  ↓  
LLM Agent  
  ↓  
Tool Calls / CLI  
  ↓  
Realtime TTS  

Một điểm thú vị khác là,
nếu các Voice Assistant trước đây mang cảm giác của một “trợ lý di động”,
thì TalkMode dường như gần hơn với một “voice agent dành cho developer”
gắn với Claude Code / Codex / văn hóa terminal.

Trang chính thức:
https://talkmode.baryon.ai/

GitHub:
https://github.com/baryonlabs

Chưa có bình luận nào.

Chưa có bình luận nào.