- Điều gì sẽ xảy ra nếu điện thoại luôn ghi âm những gì chúng ta nói và xử lý bằng AI? Tôi đã thử trước.
- Luôn ghi âm trong thời gian thức, trừ lúc ngủ (cũng có lúc tắt trong những tình huống không phù hợp). Đây là PoC nên vẫn còn khó áp dụng thực tế.
- Động lực tạo ra nó là vì OpenAI đã công bố Whisper.
Cách hoạt động
- Dùng hai microphone để ghi âm lời nói suốt cả ngày, rồi khi hết ngày thì xử lý bằng Whisper để chuyển thành văn bản.
- Từ đó nhận ra có thể tạo một trợ lý số kiểu "Ok Google" ở mức sơ khai.
- Có hai loại thông tin có thể trích xuất mỗi ngày:
- Active: những gì tôi chủ động ra lệnh cho trợ lý.
- Passive: tất cả những thông tin còn lại cần được trích xuất mà tôi không cần phải thực hiện thêm hành động nào.
Active Functions
- Những việc cần được xử lý bất đồng bộ vào mỗi tối sẽ được nói theo dạng
'KEYWORD COMMAND data END KEYWORD'
'Robert WEIGHT 60.1 end Robert': Robert là tên của trợ lý, còn end là từ khóa kết thúc.
- Lý do không dùng "OK Google": quá hạn chế, không muốn dữ liệu đi tới Google, và vì đó là cơ chế đồng bộ xử lý ngay khi nói.
- Tất nhiên vì được xử lý bất đồng bộ nên có nhược điểm là không thể biết kết quả trước khi ngày kết thúc.
Xem kết quả
- Sau khi bước lên cân thì nói
'Robert WEIGHT 62.8 end Robert'
- Sau khi ngủ dậy thì đọc dữ liệu từ sleep tracker (Mi Band):
'Robert SLEEP 7 hours 14 minutes end Robert'
- Các thiết bị điện tử thực ra có đồng bộ với điện thoại để truyền thông tin, nhưng không có cách nào lấy dữ liệu ra, nên tôi chỉ tận dụng trợ lý số như một dạng Analog API.
- Sau khi ăn thì nói
'Robert LUNCH two toasts with a fried egg end Robert'
- Tính lượng calo qua API bên ngoài cho những món đã ăn mỗi ngày.
- Sau khi nghe podcast thì nói
'Robert NOTE the podcast talks about Morgan Housel's book the psychology of money end Robert'
- Lưu lại toàn bộ ghi chú và ý tưởng.
- Sau khi đổ xăng thì nói
'Robert SPENT 250,000 on fuel end Robert'
- Lưu lại các khoản tiền đã chi mỗi ngày.
- Dù việc nói với chính mình có hơi kỳ lạ, nhưng ưu điểm là không cần phải cầm điện thoại lên để làm gì cả.
Bảng điều khiển
- Tạo một dashboard để xem toàn bộ thông tin được nhập theo cách này.
- Tạo My Journal để tự động ghi lại hôm nay tôi đã làm gì trong ngày.
Passive Information - vẫn đang làm
- RELATIONSHIP THERMOMETER: nhiệt kế mối quan hệ
- SENTIMENT ANALYSIS: phân tích cảm xúc
- TOTAL RECALL: tìm kiếm toàn bộ những gì đã nói về một chủ đề cụ thể và tìm lại suy nghĩ của tôi về chủ đề đó ở một thời điểm nhất định
Kết luận sơ bộ
- Cần có audio + ngữ cảnh.
- Tiềm năng thu được từ việc này là cực lớn theo cả hướng tích cực lẫn tiêu cực.
- Tích cực: trí nhớ hoàn hảo, nhà tâm lý học/coach cá nhân, bản sao ảo của tôi
- Tiêu cực: những thứ như trên nằm trong tay người khác
- Khác biệt giữa utopia và dystopia là ai có thể truy cập vào thông tin đó
3 bình luận
“Điểm khác biệt giữa utopia và dystopia là ai có thể truy cập thông tin đó.” Câu này hay đấy.
Thật hấp dẫn. Có vẻ hoàn toàn có thể trở thành hiện thực.
Cũng có thể có những nội dung kiểu VLog, đôi khi chia sẻ và lan tỏa một cuộc sống thường ngày mang tính hình mẫu.
Tác giả đã tự đăng lên HN và cũng trả lời bình luận ở đó: https://news.ycombinator.com/item?id=33608437
Cũng có kèm link AliExpress của chiếc micro đã dùng nữa haha
Whisper - Hệ thống nhận dạng giọng nói đa ngôn ngữ (ASR) do OpenAI công bố mã nguồn mở