- Cung cấp tích hợp các tính năng nhân bản giọng nói, chuyển văn bản thành giọng nói, đọc tài liệu và tạo audiobook
- Tận dụng tăng tốc Metal dựa trên MLX để đạt hiệu năng native trên macOS (dự kiến hỗ trợ Windows)
- Tích hợp các engine Qwen3-TTS và Chatterbox có thể nhân bản giọng nói chỉ với mẫu 3 giây
- Hỗ trợ nhân bản giọng nói đa ngôn ngữ (23 ngôn ngữ, bao gồm cả tiếng Hàn) và biểu đạt cảm xúc
- Bao gồm các mô hình tổng hợp giọng nói mới nhất như Kokoro TTS, Supertonic-2 và CosyVoice3 ONNX
- Tính năng trình đọc tài liệu: hỗ trợ đọc theo từng câu với các tệp PDF, DOCX, EPUB, Markdown, TXT
- Trình tạo audiobook: chuyển toàn bộ tài liệu sang định dạng WAV/MP3/M4B. Quản lý hàng đợi theo chương, theo dõi tiến độ, tái sử dụng preset giọng nói
- Hoạt động như Agentic Voice Cloning Server, hỗ trợ xử lý song song thông qua điều phối hàng đợi tác vụ nâng cao
- Cung cấp đầy đủ UI, API, CLI để tự động hóa cục bộ và tích hợp bên ngoài, đồng thời tích hợp sẵn máy chủ MCP
- Có thư viện giọng nói dùng chung, cho phép tái sử dụng giọng nói đã tải lên trên mọi engine
- Tích hợp trình quản lý mô hình: có thể tải mô hình từ HuggingFace và kiểm tra trạng thái
- Hỗ trợ tích hợp Multi-LLM (Claude, OpenAI, Ollama, v.v.)
- Codebase quy mô khoảng 18.600 dòng, gồm backend FastAPI và UI desktop Flutter
- Backend Python khoảng 8.500 dòng, UI Dart khoảng 10.100 dòng
- Cung cấp binary dành riêng cho macOS, Windows/Linux hiện chỉ hỗ trợ tương thích mã nguồn (sẽ có bản build trong tương lai)
- Công bố mã nguồn theo Business Source License 1.1 (BSL-1.1), binary áp dụng giấy phép phân phối riêng
2 bình luận
Đây có phải là phiên bản GUI của mlx-audio không? Chất lượng đúng là khá tốt.
Tôi đã thử rồi, đúng là đỉnh thật sự