- Trợ lý AI dùng giọng nói và thị giác, có thể sử dụng trong mọi ứng dụng trên macOS
- Nhấn phím tắt và đặt câu hỏi bằng giọng nói, hệ thống sẽ đưa ra câu trả lời bằng giọng nói dựa trên ngữ cảnh hiện tại
- Tạo ảnh chụp màn hình của cửa sổ hiện tại và gửi đến OpenAI GPT Vision
- Câu hỏi được chép lại thành văn bản bằng OpenAI Whisper API rồi gửi kèm cùng văn bản
- Câu trả lời dạng văn bản nhận được sẽ được chuyển thành giọng nói bằng OpenAI TTS để phát ra
- Được phát triển bằng NodeJS/Electron
- Phím tắt mặc định là Cmd + Shift + '
1 bình luận
Ý kiến trên Hacker News
Câu hỏi liệu dùng thuật ngữ "macOS" trong prompt thay vì "OSX" có tốt hơn không, hay đơn giản là lúc đầu không suy nghĩ nhiều về lựa chọn đó.
Đề xuất thêm tùy chọn văn bản streaming thay cho TTS trong phần phản hồi.
Nhắc rằng đã viết một script tương tự cho thiết lập Linux.
Khuyến nghị đặt giới hạn chi tiêu khi dùng OpenAI API.
Phản hồi tích cực về dự án.
Hỏi liệu có kế hoạch làm cho dự án hoạt động với local LLMs thay vì "open"AI hay không.
Ý kiến muốn xây dựng thứ gì đó tích hợp ngay trong terminal.
Phản ứng tiêu cực với thông tin rằng "macOSpilot sử dụng NodeJS/Electron".
Chia sẻ trải nghiệm đã thử dùng cùng digital audio workstation Ableton Live.
Chia sẻ một hình dung về năng suất trong lúc chờ kết quả của lệnh
ls.