MimikaStudio - mã nguồn mở nhân bản giọng nói và TTS cho Mac

xguru · 2026-03-19T09:31:02+09:00

Cung cấp tích hợp các tính năng nhân bản giọng nói, chuyển văn bản thành giọng nói, đọc tài liệu và tạo audiobook Tận dụng tăng tốc Metal dựa trên MLX để đạt hiệu năng native trên macOS (dự kiến hỗ trợ Windows) Tích hợp các engine Qwen3-TTS và Chatterbox có thể nhân bản giọng nói chỉ với mẫu 3 giây Hỗ trợ nhân bản giọng nói đa ngôn ngữ (23 ngôn ngữ, bao gồm cả tiếng Hàn) và biểu đạt cảm xúc Bao gồm các mô hình tổng hợp giọng nói mới nhất như Kokoro TTS, Supertonic-2 và CosyVoice3 ONNX Tính năng trình đọc tài liệu: hỗ trợ đọc theo từng câu với các tệp PDF, DOCX, EPUB, Markdown, TXT Trình tạo audiobook: chuyển toàn bộ tài liệu sang định dạng WAV/MP3/M4B. Quản lý hàng đợi theo chương, theo dõi tiến độ, tái sử dụng preset giọng nói Hoạt động như Agentic Voice Cloning Server, hỗ trợ xử lý song song thông qua điều phối hàng đợi tác vụ nâng cao Cung cấp đầy đủ UI, API, CLI để tự động hóa cục bộ và tích hợp bên ngoài, đồng thời tích hợp sẵn máy chủ MCP Có thư viện giọng nói dùng chung, cho phép tái sử dụng giọng nói đã tải lên trên mọi engine Tích hợp trình quản lý mô hình: có thể tải mô hình từ HuggingFace và kiểm tra trạng thái Hỗ trợ tích hợp Multi-LLM (Claude, OpenAI, Ollama, v.v.) Codebase quy mô khoảng 18.600 dòng, gồm backend FastAPI và UI desktop Flutter Backend Python khoảng 8.500 dòng, UI Dart khoảng 10.100 dòng Cung cấp binary dành riêng cho macOS, Windows/Linux hiện chỉ hỗ trợ tương thích mã nguồn (sẽ có bản build trong tương lai) Công bố mã nguồn theo Business Source License 1.1 (BSL-1.1), binary áp dụng giấy phép phân phối riêng

(github.com/BoltzmannEntropy)

42 điểm bởi xguru 2026-03-19 | 2 bình luận | Chia sẻ qua WhatsApp

Cung cấp tích hợp các tính năng nhân bản giọng nói, chuyển văn bản thành giọng nói, đọc tài liệu và tạo audiobook
Tận dụng tăng tốc Metal dựa trên MLX để đạt hiệu năng native trên macOS (dự kiến hỗ trợ Windows)
Tích hợp các engine Qwen3-TTS và Chatterbox có thể nhân bản giọng nói chỉ với mẫu 3 giây
- Hỗ trợ nhân bản giọng nói đa ngôn ngữ (23 ngôn ngữ, bao gồm cả tiếng Hàn) và biểu đạt cảm xúc
Bao gồm các mô hình tổng hợp giọng nói mới nhất như Kokoro TTS, Supertonic-2 và CosyVoice3 ONNX
Tính năng trình đọc tài liệu: hỗ trợ đọc theo từng câu với các tệp PDF, DOCX, EPUB, Markdown, TXT
Trình tạo audiobook: chuyển toàn bộ tài liệu sang định dạng WAV/MP3/M4B. Quản lý hàng đợi theo chương, theo dõi tiến độ, tái sử dụng preset giọng nói
Hoạt động như Agentic Voice Cloning Server, hỗ trợ xử lý song song thông qua điều phối hàng đợi tác vụ nâng cao
Cung cấp đầy đủ UI, API, CLI để tự động hóa cục bộ và tích hợp bên ngoài, đồng thời tích hợp sẵn máy chủ MCP
Có thư viện giọng nói dùng chung, cho phép tái sử dụng giọng nói đã tải lên trên mọi engine
Tích hợp trình quản lý mô hình: có thể tải mô hình từ HuggingFace và kiểm tra trạng thái
Hỗ trợ tích hợp Multi-LLM (Claude, OpenAI, Ollama, v.v.)
Codebase quy mô khoảng 18.600 dòng, gồm backend FastAPI và UI desktop Flutter
- Backend Python khoảng 8.500 dòng, UI Dart khoảng 10.100 dòng
Cung cấp binary dành riêng cho macOS, Windows/Linux hiện chỉ hỗ trợ tương thích mã nguồn (sẽ có bản build trong tương lai)
Công bố mã nguồn theo Business Source License 1.1 (BSL-1.1), binary áp dụng giấy phép phân phối riêng

2 bình luận

neocode24 2026-03-19

Đây có phải là phiên bản GUI của mlx-audio không? Chất lượng đúng là khá tốt.

jhk0530 2026-03-19

Tôi đã thử rồi, đúng là đỉnh thật sự

MimikaStudio - mã nguồn mở nhân bản giọng nói và TTS cho Mac

Bài viết liên quan

2 bình luận