macOSPilot - CoPilot giọng nói + thị giác cho macOS

(github.com/elfvingralf)

9 điểm bởi GN⁺ 2023-12-13 | 1 bình luận | Chia sẻ qua WhatsApp

Trợ lý AI dùng giọng nói và thị giác, có thể sử dụng trong mọi ứng dụng trên macOS
Nhấn phím tắt và đặt câu hỏi bằng giọng nói, hệ thống sẽ đưa ra câu trả lời bằng giọng nói dựa trên ngữ cảnh hiện tại
- Tạo ảnh chụp màn hình của cửa sổ hiện tại và gửi đến OpenAI GPT Vision
- Câu hỏi được chép lại thành văn bản bằng OpenAI Whisper API rồi gửi kèm cùng văn bản
- Câu trả lời dạng văn bản nhận được sẽ được chuyển thành giọng nói bằng OpenAI TTS để phát ra
Được phát triển bằng NodeJS/Electron
Phím tắt mặc định là Cmd + Shift + '

1 bình luận

GN⁺ 2023-12-13

Ý kiến trên Hacker News

Câu hỏi liệu dùng thuật ngữ "macOS" trong prompt thay vì "OSX" có tốt hơn không, hay đơn giản là lúc đầu không suy nghĩ nhiều về lựa chọn đó.
- Người đăng cho biết họ lướt qua video rồi nảy ra thắc mắc.
- Có cung cấp liên kết tới đoạn mã liên quan.
Đề xuất thêm tùy chọn văn bản streaming thay cho TTS trong phần phản hồi.
- Cũng nên cân nhắc dùng văn bản thay vì lệnh thoại.
- Chia sẻ kinh nghiệm đã thử các trợ lý tương tự trong thời gian dài và đề nghị liên hệ qua Discord.
Nhắc rằng đã viết một script tương tự cho thiết lập Linux.
- Liên kết với phím tắt bàn phím XFCE.
- Nói rằng tần suất sử dụng script này khá thấp.
Khuyến nghị đặt giới hạn chi tiêu khi dùng OpenAI API.
- Cảnh báo rằng bạn có thể nhanh chóng nhận ra chênh lệch chi phí giữa mô hình văn bản và mô hình thị giác.
- Xác nhận rằng mức giá khá tương đồng và đưa ra đánh giá tích cực.
Phản hồi tích cực về dự án.
- Nói rằng ảnh chụp màn hình có thể giúp làm rõ những phần gây bối rối.
- Hỏi có cách nào để ẩn cửa sổ khi không sử dụng hay không.
Hỏi liệu có kế hoạch làm cho dự án hoạt động với local LLMs thay vì "open"AI hay không.
Ý kiến muốn xây dựng thứ gì đó tích hợp ngay trong terminal.
- Nói rằng làm việc trực tiếp trong terminal sẽ đơn giản hơn và tránh phải chụp màn hình.
- Có đưa ví dụ mã theo kiểu ra lệnh cho AI trong terminal.
- Than thở rằng rất khó tìm được thời gian giữa cuộc sống bận rộn.
Phản ứng tiêu cực với thông tin rằng "macOSpilot sử dụng NodeJS/Electron".
Chia sẻ trải nghiệm đã thử dùng cùng digital audio workstation Ableton Live.
- Đánh giá tích cực rằng nó rất hữu ích và có thể tiết kiệm thời gian.
- Có cung cấp liên kết video tương tác.
- Đặt câu hỏi về các bình luận tiêu cực.
Chia sẻ một hình dung về năng suất trong lúc chờ kết quả của lệnh ls.

macOSPilot - CoPilot giọng nói + thị giác cho macOS

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News