- Mô phỏng dịch vụ "Be My Eyes" bằng AI, vốn kết nối người khiếm thị với tình nguyện viên để đọc nội dung trên màn hình
- Ứng dụng web sử dụng backend đa phương thức để xem hình ảnh/video và mô tả đó là gì theo thời gian thực
- Chạy mô hình đa phương thức mã nguồn mở BakLLaVA-1 của SkunkworksAI bằng llama.cpp, và xuất giọng nói bằng Web Speech API
4 bình luận
Wow, nhìn những thứ như thế này khiến tôi thấy thật tự hào khi là một kỹ sư. Có vẻ nó sẽ thực sự giúp ích rất nhiều cho người khiếm thị.
Cũng có một ứng dụng tên là 'Sullivan Plus' mà YouTuber Wonshot Hansol đã sử dụng.
Có vẻ như không chỉ nhận diện văn bản mà còn có thể nắm bắt được đặc điểm của đồ vật nữa.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - Hãy trao thị lực cho người khiếm thị
AI tạo chú thích hình ảnh của MS bắt đầu mô tả ảnh như con người
Tin như thế này thật đáng mừng haha vì con gái tôi là người khiếm thị mà