31 điểm bởi xguru 2025-10-04 | 1 bình luận | Chia sẻ qua WhatsApp
  • Ứng dụng giọng nói → văn bản mã nguồn mở miễn phí hoạt động hoàn toàn ngoại tuyến, là ứng dụng desktop Tauri dựa trên Rust + React/TypeScript
  • Nhấn phím tắt để bắt đầu ghi âm → nói là ứng dụng sẽ chuyển đổi cục bộ không gửi lên đám mây → tự động nhập thành văn bản
  • Sử dụng các mô hình WhisperParakeet V3, chạy với tăng tốc GPU hoặc tối ưu hóa CPU, đồng thời hỗ trợ Windows, macOS, Linux
  • Mục tiêu của dự án không phải là tạo ra “ứng dụng nhận diện giọng nói hoàn hảo nhất”, mà là xây dựng ứng dụng dễ fork nhất có thể dễ dàng sửa đổi và mở rộng cho mọi người, đồng thời hỗ trợ mã nguồn mở, miễn phí, ngoại tuyến
  • Ngăn xếp công nghệ
    • Frontend: React + TypeScript + Tailwind CSS
    • Backend: dựa trên Rust, phụ trách xử lý âm thanh và suy luận máy học
    • Thư viện cốt lõi:
      • whisper-rs (nhận diện giọng nói dựa trên Whisper)
      • transcription-rs (mô hình Parakeet tối ưu cho CPU)
      • cpal (audio I/O đa nền tảng)
      • vad-rs (phát hiện hoạt động giọng nói)
      • rdev (phím tắt toàn cục và xử lý sự kiện)
      • rubato (lấy mẫu lại âm thanh)
  • Trang chính thức: https://handy.computer/

1 bình luận

 
shakespeares 2025-10-07

Tuyệt vời.