42 điểm bởi xguru 2026-03-19 | 2 bình luận | Chia sẻ qua WhatsApp
  • Cung cấp tích hợp các tính năng nhân bản giọng nói, chuyển văn bản thành giọng nói, đọc tài liệu và tạo audiobook
  • Tận dụng tăng tốc Metal dựa trên MLX để đạt hiệu năng native trên macOS (dự kiến hỗ trợ Windows)
  • Tích hợp các engine Qwen3-TTSChatterbox có thể nhân bản giọng nói chỉ với mẫu 3 giây
    • Hỗ trợ nhân bản giọng nói đa ngôn ngữ (23 ngôn ngữ, bao gồm cả tiếng Hàn) và biểu đạt cảm xúc
  • Bao gồm các mô hình tổng hợp giọng nói mới nhất như Kokoro TTS, Supertonic-2CosyVoice3 ONNX
  • Tính năng trình đọc tài liệu: hỗ trợ đọc theo từng câu với các tệp PDF, DOCX, EPUB, Markdown, TXT
  • Trình tạo audiobook: chuyển toàn bộ tài liệu sang định dạng WAV/MP3/M4B. Quản lý hàng đợi theo chương, theo dõi tiến độ, tái sử dụng preset giọng nói
  • Hoạt động như Agentic Voice Cloning Server, hỗ trợ xử lý song song thông qua điều phối hàng đợi tác vụ nâng cao
  • Cung cấp đầy đủ UI, API, CLI để tự động hóa cục bộ và tích hợp bên ngoài, đồng thời tích hợp sẵn máy chủ MCP
  • thư viện giọng nói dùng chung, cho phép tái sử dụng giọng nói đã tải lên trên mọi engine
  • Tích hợp trình quản lý mô hình: có thể tải mô hình từ HuggingFace và kiểm tra trạng thái
  • Hỗ trợ tích hợp Multi-LLM (Claude, OpenAI, Ollama, v.v.)
  • Codebase quy mô khoảng 18.600 dòng, gồm backend FastAPIUI desktop Flutter
    • Backend Python khoảng 8.500 dòng, UI Dart khoảng 10.100 dòng
  • Cung cấp binary dành riêng cho macOS, Windows/Linux hiện chỉ hỗ trợ tương thích mã nguồn (sẽ có bản build trong tương lai)
  • Công bố mã nguồn theo Business Source License 1.1 (BSL-1.1), binary áp dụng giấy phép phân phối riêng

2 bình luận

 
neocode24 2026-03-19

Đây có phải là phiên bản GUI của mlx-audio không? Chất lượng đúng là khá tốt.

 
jhk0530 2026-03-19

Tôi đã thử rồi, đúng là đỉnh thật sự