- Whispering là công cụ phiên âm giọng nói ưu tiên cục bộ: sau khi nhấn phím tắt, ứng dụng thực hiện quá trình giọng nói → văn bản rồi dán thẳng vào clipboard
- Khác với nhiều công cụ hiện có là dịch vụ đóng và trả phí, Whispering mang lại xử lý dữ liệu minh bạch và khả năng tiếp cận mã nguồn mở
- Người dùng có thể chọn giữa phương thức cục bộ (Whisper C++, Speaches, v.v.) hoặc đám mây (Groq, OpenAI, ElevenLabs, v.v.), đồng thời cấu hình các tính năng biến đổi AI theo ý muốn
- Ứng dụng nhẹ với dung lượng 22MB và khởi chạy nhanh, đồng thời bao gồm các tính năng nâng cao như phím tắt tùy chỉnh, chế độ kích hoạt bằng giọng nói, tự động định dạng văn bản
- Có thể đồng thời đạt được quyền sở hữu dữ liệu và tiết kiệm chi phí, khiến đây trở thành một dự án có ý nghĩa như giải pháp thay thế cho SaaS phiên âm đóng
Tổng quan về Whispering
- Whispering là ứng dụng phiên âm giọng nói miễn phí và mã nguồn mở; khi nhấn phím tắt rồi nói, ứng dụng sẽ chuyển thành văn bản và tự động sao chép
- Dữ liệu cá nhân mặc định được lưu cục bộ và không gửi ra bên ngoài
- Nếu muốn, có thể tự kết nối các API bên ngoài như OpenAI, Groq, ElevenLabs
- Dự án nhấn mạnh tính minh bạch và đảm bảo quyền sở hữu dữ liệu là giá trị cốt lõi
Tính năng và đặc điểm chính
- Hỗ trợ chế độ kích hoạt bằng giọng nói (Voice Activity Detection, VAD)
- Khi người dùng bắt đầu nói, ghi âm tự động bắt đầu; khi dừng nói, ghi âm tự động kết thúc
- Tính năng biến đổi dựa trên AI (Transformations)
- Có thể thiết lập nhiều quy trình AI như sửa ngữ pháp, dịch thuật, tóm tắt, áp dụng định dạng
- Có thể chọn nhiều nhà cung cấp LLM như OpenAI, Anthropic, Google Gemini, Groq
- Hỗ trợ phím tắt tùy chỉnh để cá nhân hóa môi trường sử dụng
- Cấu trúc chi phí thấp: dùng trực tiếp API key của mình để thanh toán cho nhà cung cấp
- Ví dụ: khi dùng mô hình Groq, 0.02$/giờ → khoảng 0.20$/tháng (rẻ hơn 100 lần so với SaaS truyền thống)
Cài đặt và sử dụng
- Cung cấp binary cho macOS, Windows, Linux
- macOS: có bản riêng cho Apple Silicon/Intel
- Windows: có tùy chọn cài đặt MSI/EXE
- Linux: hỗ trợ AppImage, DEB, RPM
- Nếu ngại cài đặt, cũng có phiên bản web app (tuy nhiên không hỗ trợ phím tắt toàn cục)
Cách xử lý dữ liệu
- Mọi bản ghi âm và kết quả phiên âm đều được lưu trong IndexedDB để quản lý cục bộ
- Nếu chọn dịch vụ phiên âm bên ngoài, chỉ phát sinh gọi trực tiếp thông qua API key
- Không có máy chủ trung gian, không thu thập dữ liệu
- Dịch vụ biến đổi cũng chỉ gửi dữ liệu tới nhà cung cấp LLM mà người dùng chọn
- Quy trình biến đổi, prompt và giá trị thiết lập được lưu cục bộ
Điểm khác biệt và ưu thế
- Các ứng dụng phiên âm hiện có thường đi qua máy chủ trung gian và thu phí 15~30 USD/tháng
- Whispering có cấu trúc không qua trung gian, cho phép kết nối trực tiếp với nhà cung cấp để giảm chi phí
- Khi chọn tùy chọn cục bộ, có thể sử dụng hoàn toàn ngoại tuyến, miễn phí và không giới hạn
Phát triển và kiến trúc
- Được xây dựng trên Svelte 5 + Tauri, hỗ trợ cả desktop lẫn web
- Kích thước khoảng 22MB, khởi chạy nhanh, dùng tài nguyên tối thiểu
- Codebase sử dụng kiến trúc 3 lớp gồm lớp dịch vụ, lớp truy vấn, lớp UI
- 97% mã nguồn được chia sẻ giữa phiên bản web và desktop
- Tiện ích mở rộng trình duyệt (React + shadcn/ui) hiện đang tạm dừng để tập trung ổn định ứng dụng desktop
Đóng góp và cộng đồng
- Bất kỳ ai cũng có thể xem xét mã nguồn, đóng góp tính năng, hoặc thêm adapter cho dịch vụ phiên âm/AI mới
- Hướng dẫn phát triển: duy trì pattern TypeScript/Svelte, xử lý lỗi dựa trên thư viện WellCrafted
- Phản hồi người dùng và hợp tác được thực hiện qua cộng đồng Discord và GitHub Issues
- Có thể tự do fork, chỉnh sửa và phân phối lại theo giấy phép MIT
Các câu trả lời chính trong FAQ
- Có hỗ trợ dùng ngoại tuyến không: hỗ trợ hoàn toàn ngoại tuyến với chế độ cục bộ Speaches
- Chi phí thực tế: dùng Groq khoảng 0.2~3 USD/tháng, OpenAI khoảng 1.8~16.2 USD/tháng, cục bộ là miễn phí
- Bảo mật/quyền riêng tư: bản ghi âm được lưu cục bộ; việc gửi ra bên ngoài chỉ diễn ra tới API của nhà cung cấp do người dùng trực tiếp chọn
- Nền tảng hỗ trợ: desktop macOS, Windows, Linux + trình duyệt web
Chưa có bình luận nào.