Whispering - Ứng dụng phiên âm giọng nói mã nguồn mở

(github.com/epicenter-so)

21 điểm bởi GN⁺ 2025-08-19 | 2 bình luận | Chia sẻ qua WhatsApp

Whispering là công cụ phiên âm giọng nói ưu tiên cục bộ: sau khi nhấn phím tắt, ứng dụng thực hiện quá trình giọng nói → văn bản rồi dán thẳng vào clipboard
Khác với nhiều công cụ hiện có là dịch vụ đóng và trả phí, Whispering mang lại xử lý dữ liệu minh bạch và khả năng tiếp cận mã nguồn mở
Người dùng có thể chọn giữa phương thức cục bộ (Whisper C++, Speaches, v.v.) hoặc đám mây (Groq, OpenAI, ElevenLabs, v.v.), đồng thời cấu hình các tính năng biến đổi AI theo ý muốn
Ứng dụng nhẹ với dung lượng 22MB và khởi chạy nhanh, đồng thời bao gồm các tính năng nâng cao như phím tắt tùy chỉnh, chế độ kích hoạt bằng giọng nói, tự động định dạng văn bản
Có thể đồng thời đạt được quyền sở hữu dữ liệu và tiết kiệm chi phí, khiến đây trở thành một dự án có ý nghĩa như giải pháp thay thế cho SaaS phiên âm đóng

Tổng quan về Whispering

Whispering là ứng dụng phiên âm giọng nói miễn phí và mã nguồn mở; khi nhấn phím tắt rồi nói, ứng dụng sẽ chuyển thành văn bản và tự động sao chép
- Dữ liệu cá nhân mặc định được lưu cục bộ và không gửi ra bên ngoài
- Nếu muốn, có thể tự kết nối các API bên ngoài như OpenAI, Groq, ElevenLabs
Dự án nhấn mạnh tính minh bạch và đảm bảo quyền sở hữu dữ liệu là giá trị cốt lõi

Tính năng và đặc điểm chính

Hỗ trợ chế độ kích hoạt bằng giọng nói (Voice Activity Detection, VAD)
- Khi người dùng bắt đầu nói, ghi âm tự động bắt đầu; khi dừng nói, ghi âm tự động kết thúc
Tính năng biến đổi dựa trên AI (Transformations)
- Có thể thiết lập nhiều quy trình AI như sửa ngữ pháp, dịch thuật, tóm tắt, áp dụng định dạng
- Có thể chọn nhiều nhà cung cấp LLM như OpenAI, Anthropic, Google Gemini, Groq
Hỗ trợ phím tắt tùy chỉnh để cá nhân hóa môi trường sử dụng
Cấu trúc chi phí thấp: dùng trực tiếp API key của mình để thanh toán cho nhà cung cấp
- Ví dụ: khi dùng mô hình Groq, 0.02$/giờ → khoảng 0.20$/tháng (rẻ hơn 100 lần so với SaaS truyền thống)

Cài đặt và sử dụng

Cung cấp binary cho macOS, Windows, Linux
- macOS: có bản riêng cho Apple Silicon/Intel
- Windows: có tùy chọn cài đặt MSI/EXE
- Linux: hỗ trợ AppImage, DEB, RPM
Nếu ngại cài đặt, cũng có phiên bản web app (tuy nhiên không hỗ trợ phím tắt toàn cục)

Cách xử lý dữ liệu

Mọi bản ghi âm và kết quả phiên âm đều được lưu trong IndexedDB để quản lý cục bộ
Nếu chọn dịch vụ phiên âm bên ngoài, chỉ phát sinh gọi trực tiếp thông qua API key
- Không có máy chủ trung gian, không thu thập dữ liệu
Dịch vụ biến đổi cũng chỉ gửi dữ liệu tới nhà cung cấp LLM mà người dùng chọn
- Quy trình biến đổi, prompt và giá trị thiết lập được lưu cục bộ

Điểm khác biệt và ưu thế

Các ứng dụng phiên âm hiện có thường đi qua máy chủ trung gian và thu phí 15~30 USD/tháng
Whispering có cấu trúc không qua trung gian, cho phép kết nối trực tiếp với nhà cung cấp để giảm chi phí
Khi chọn tùy chọn cục bộ, có thể sử dụng hoàn toàn ngoại tuyến, miễn phí và không giới hạn

Phát triển và kiến trúc

Được xây dựng trên Svelte 5 + Tauri, hỗ trợ cả desktop lẫn web
- Kích thước khoảng 22MB, khởi chạy nhanh, dùng tài nguyên tối thiểu
Codebase sử dụng kiến trúc 3 lớp gồm lớp dịch vụ, lớp truy vấn, lớp UI
- 97% mã nguồn được chia sẻ giữa phiên bản web và desktop
Tiện ích mở rộng trình duyệt (React + shadcn/ui) hiện đang tạm dừng để tập trung ổn định ứng dụng desktop

Đóng góp và cộng đồng

Bất kỳ ai cũng có thể xem xét mã nguồn, đóng góp tính năng, hoặc thêm adapter cho dịch vụ phiên âm/AI mới
Hướng dẫn phát triển: duy trì pattern TypeScript/Svelte, xử lý lỗi dựa trên thư viện WellCrafted
Phản hồi người dùng và hợp tác được thực hiện qua cộng đồng Discord và GitHub Issues
Có thể tự do fork, chỉnh sửa và phân phối lại theo giấy phép MIT

Các câu trả lời chính trong FAQ

Có hỗ trợ dùng ngoại tuyến không: hỗ trợ hoàn toàn ngoại tuyến với chế độ cục bộ Speaches
Chi phí thực tế: dùng Groq khoảng 0.2~3 USD/tháng, OpenAI khoảng 1.8~16.2 USD/tháng, cục bộ là miễn phí
Bảo mật/quyền riêng tư: bản ghi âm được lưu cục bộ; việc gửi ra bên ngoài chỉ diễn ra tới API của nhà cung cấp do người dùng trực tiếp chọn
Nền tảng hỗ trợ: desktop macOS, Windows, Linux + trình duyệt web

2 bình luận

wedding 2025-08-21

Để triển khai tính năng nhận dạng giọng nói trong môi trường mạng nội bộ tách biệt, tôi đã tạo một web server nhẹ dùng Whisper để làm STT và đang sử dụng nó.
Họ mô tả như thể mọi thứ đều chạy được ngoại tuyến, nhưng ngoài chức năng chép lời thì những phần như transformation vẫn phải phụ thuộc vào đám mây, nên tôi thấy không rõ sự khác biệt và ưu điểm đó có ý nghĩa gì.

GN⁺ 2025-08-19

Ý kiến trên Hacker News

Tò mò không biết có thể dùng mô hình Parakeet chạy cục bộ hay không; tôi đang dùng MacWhisper, và rất hài lòng vì Parakeet vượt trội hơn Whisper rất nhiều về tốc độ lẫn độ chính xác khi chép lời trên thiết bị; tôi đã dùng tổ hợp MacWhisper + Parakeet cho push-to-transcribe từ lâu rồi, cảm giác đúng là như phép màu
- Hiện vẫn chưa được hỗ trợ, nhưng đó cũng là tính năng tôi rất mong muốn; tôi đã thấy Parakeet đạt kết quả cực kỳ ấn tượng trên bảng xếp hạng, và hiện tại dự định là ổn định hóa tích hợp whisper.cpp trước rồi sẽ thêm hỗ trợ Parakeet; nếu ai gửi PR tạo connector thì tôi sẵn sàng merge ngay
- Parakeet thật sự đáng kinh ngạc, trên GPU A100 thì nhanh gấp 3000 lần thời gian thực, còn trên CPU laptop cũng nhanh gấp 5 lần thời gian thực; độ chính xác còn tốt hơn whisper-large-v3; có thể xem bảng xếp hạng ASR của Hugging Face; tuy vậy framework NeMo có thể hơi phiền phức; việc nó chạy cục bộ trên Mac (qua MacWhisper) thật sự rất ấn tượng
Thông báo cho những ai đang xem repo sáng nay: tôi đang chuẩn bị một bản phát hành bổ sung hỗ trợ whisper C++; có thể xem liên kết PR đang tiến hành; khi phần này được công khai, chúng tôi sẽ có hỗ trợ chép lời cục bộ mạnh hơn nhiều; chỉ còn hoàn tất vài chỉnh sửa nhỏ nữa thôi
Tôi mong có các ứng dụng local-first mã nguồn mở cho mọi loại nhu cầu, và chúng kết nối tốt với nhau; ý tưởng của Epicenter là lưu toàn bộ dữ liệu dưới dạng văn bản và SQLite trong thư mục để mọi thứ minh bạch và đáng tin cậy; phía trên đó là lớp công cụ local-first có thể tương tác với nhau; tôi thật sự thích sự minh bạch đáng tin như vậy; tôi gần như không có kinh nghiệm với TTS, nhưng khi đào sâu mảng này thì nhờ Epicenter tôi sẽ bắt đầu từ Whispering; tôi đã star repo và cũng định nghĩ thêm ý tưởng ứng dụng có thể đóng góp; chúc mừng đã vào YC và xin cảm ơn
- Cảm ơn bạn rất nhiều vì đã ủng hộ, những phản hồi như thế này cực kỳ quý giá; rất vui khi được trao đổi với người cùng chia sẻ giá trị của mã nguồn mở và quyền tự sở hữu dữ liệu; trong thời gian ở YC chúng tôi sẽ cố gắng hết sức để hỗ trợ thêm nhiều nhà phát triển OSS; hy vọng sẽ tiếp tục giữ liên lạc
- Có vẻ ở đây đang nói về STT (nhận dạng giọng nói), không phải TTS (tổng hợp giọng nói)
- Nếu sau này bạn muốn có cả phiên bản đám mây, có thể dùng AgentDB API để chỉ tải đúng phần dữ liệu đó lên, rồi chạy truy vấn trên cloud
Cảm ơn vì đã chia sẻ một sản phẩm tuyệt vời; tuần trước tôi đã tự làm một ứng dụng tương tự chạy cục bộ vì các sản phẩm thương mại quá chậm; nó có tính năng chỉ với một nút bấm là ghi âm toàn bộ âm thanh, chép lời và đưa vào ứng dụng; tôi cũng làm thêm chế độ thứ hai là nếu nói bằng tiếng mẹ đẻ thì sẽ tự động dịch sang tiếng Anh; tôi còn triển khai tốt cả việc giữ định dạng như dấu phẩy hay dấu ngoặc kép; thật lạ là đến giờ những thứ này vẫn chưa có trong ứng dụng đọc chính tả mặc định của macOS
- Cảm ơn bạn rất nhiều vì đã ủng hộ, thật vui khi biết nó còn giúp được cho việc dịch; đúng là khá khó hiểu khi tính năng đọc chính tả mặc định của macOS vẫn chưa tiến xa đến mức này; OSS đang lấp vào khoảng trống đó
Không rõ iOS có tính năng này không; tôi muốn một ứng dụng bàn phím iOS tùy chỉnh bọc Parakeet hoặc Whisper, để chỉ cần chuyển sang bàn phím đọc chính tả và bấm nút là có thể chèn ngay nội dung chép lời vào mọi ứng dụng, kể cả bên thứ nhất lẫn bên thứ ba; trên macOS thì MacWhisper thật sự rất tuyệt, nhưng trên iOS vẫn chưa có tính năng tương đương; đọc chính tả mặc định của iOS cũng tốt, nhưng với thuật ngữ kỹ thuật hay từ viết tắt thì Whisper cpp nhận ra tốt hơn hẳn
- superwhisper có cung cấp tính năng đó
Tôi từng quan tâm đến tính năng đọc chính tả xử lý âm thanh cục bộ; tôi không thích gửi âm thanh tới API từ xa và muốn mọi thứ chạy hoàn toàn local, không lộ dữ liệu; tôi đã thử vài thứ như mô hình dùng trong FUTO Keyboard, nhưng vẫn thấy còn thiếu; nhất là xử lý tạp âm hay những chỗ đệm kiểu "ừm...", "à...", hoặc các đoạn tự sửa giữa chừng khi đang nói, thì nó theo chưa tốt; tôi hy vọng sẽ có mô hình mở giải quyết tốt những điểm này; tôi vẫn chưa chắc đó là vấn đề của ứng dụng hay giới hạn của mô hình, nhưng cũng tò mò không biết có mô hình mới nào cho việc này không; trước mắt chắc vẫn phải tiếp tục gõ tay để ghi chú dù khá bất tiện
- Bạn đã thử chính Whisper chưa, tôi muốn giới thiệu; vì nó có open weights nên dùng được, và trong các đặc điểm của Epicenter được giới thiệu ở trên có tính năng "biến đổi bản chép lời"; có thể đưa văn bản vào LLM để tinh chỉnh cho gọn gàng hơn; nếu chấp nhận được chi phí token thì không chỉ xóa bớt phần thừa mà còn có thể tự động chỉnh lại câu theo từng đơn vị ý nghĩa
Tôi ngày càng thích ý tưởng kết hợp cách tiếp cận local-first với bộ công cụ tự sao lưu trong lĩnh vực này; gần đây hyprnote từng nổi trên Hacker News, và nó thật sự được làm rất tốt; nó là local-first nhưng vẫn có thể dùng cùng các công cụ ưa thích của bạn
- Tôi cũng thật sự là fan của Hyprnote; hai sản phẩm có hơi khác nhau, nhưng chồng lấn khá nhiều về tech stack và sứ mệnh cũng rất giống nhau
Tôi đã dùng whispering hơn 1 năm rồi, và nó đã thay đổi cả cách tôi tương tác với máy tính; nhất định hãy mua chuột và bàn phím có phím lập trình được để gán phím tắt cho whispering; giờ tôi thấy nhập liệu kiểu gõ thông thường kém hiệu quả đến mức không thể quay lại nữa
- Cảm ơn bạn rất nhiều vì đã cổ vũ, những phản hồi như thế này là nguồn động lực lớn; nếu sau này có vấn đề gì cứ liên hệ với chúng tôi bất cứ lúc nào
Tôi tò mò không biết công nghệ này có hoạt động tốt với giọng trẻ em không; trong các ứng dụng giáo dục có nhu cầu lớn với mô hình chạy cục bộ vì quyền riêng tư rất quan trọng; nhưng tôi biết là Whisper hiện giờ không nghe tốt với nhóm tuổi nhỏ
- Đúng vậy, Whisper khá yếu với giọng trẻ em; tôi vẫn chưa thử Parakeet hay mô hình khác cho trường hợp này, nhưng đây là một ví dụ hay vì quyền riêng tư rất quan trọng trong giáo dục; tôi cũng muốn giới thiệu Hyprnote, gần đây họ đang mở rộng mô hình như OWhisper; có thể tham khảo giới thiệu Hyprnote, chi tiết về OWhisper
Tôi bị ám ảnh với phần mềm mã nguồn mở local-first; tôi nghĩ ai cũng nên như vậy
- Hoàn toàn đồng ý