43 điểm bởi xguru 9 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Hỗ trợ 30 ngôn ngữ, bao gồm cả tiếng Hàn; chỉ cần nhập văn bản là có thể tổng hợp ngay mà không cần chỉ định thẻ ngôn ngữ
  • Không cần mẫu giọng đọc; chỉ cần thêm mô tả ngôn ngữ tự nhiên như (Young female voice, warm and gentle) ở trước văn bản (giới tính, độ tuổi, tông giọng, cảm xúc, tốc độ) là có thể tạo ngay nhân vật giọng nói mong muốn
  • Hệ thống TTS dựa trên diffusion autoregressive tạo trực tiếp biểu diễn giọng nói liên tục mà không qua bước token hóa rời rạc; mô hình 2B tham số được huấn luyện trên hơn 2 triệu giờ dữ liệu đa ngôn ngữ
  • Hỗ trợ Controllable Voice Cloning cho phép sao chép âm sắc từ một đoạn tham chiếu ngắn, đồng thời điều chỉnh riêng cảm xúc, tốc độ và phong cách (slightly faster, cheerful tone)
  • Chế độ Ultimate Cloning tái hiện toàn bộ âm sắc, nhịp điệu, cảm xúc và phong cách khi đưa vào cả audio tham chiếu + kịch bản, không cần hậu xử lý riêng
  • Ngay cả khi đầu vào tham chiếu là 16kHz, hệ thống vẫn tạo trực tiếp đầu ra 48kHz chất lượng studio bằng AudioVAE V2 với encode/decode bất đối xứng. Không cần upsampler ngoài hay xây dựng pipeline hậu xử lý
  • Với RTX 4090, RTF (Real-Time Factor) khoảng 0.3, và khoảng 0.13 khi tăng tốc bằng Nano-vLLM, đủ để dùng cho streaming thời gian thực
  • Chỉ cần khoảng 8GB VRAM để chạy, nên có thể vận hành trên GPU tầm RTX 3070~4060
  • Trên Seed-TTS-eval, thuộc nhóm đứng đầu về độ tương đồng người nói (SIM) trong các mô hình mã nguồn mở; tỷ lệ lỗi trung bình của benchmark ASR nội bộ cho 30 ngôn ngữ là 1.68%
  • Chỉ cần 5~10 phút audio là có thể thích ứng với người nói hoặc miền cụ thể bằng LoRA fine-tuning; cũng hỗ trợ huấn luyện và suy luận qua WebUI bằng lora_ft_webui.py
  • Dựa trên backbone MiniCPM-4, gồm pipeline 4 giai đoạn LocEnc → TSLM → RALM → LocDiT
  • Có nhiều tùy chọn suy luận ngay cả trong môi trường không có GPU như GGML/GGUF CPU inference (VoxCPM.cpp), chuyển đổi ONNX, backend Apple Neural Engine, tái hiện thực bằng Rust, node ComfyUI, v.v.
  • Giấy phép Apache-2.0 nên không có hạn chế cho sử dụng thương mại, bản triển khai bằng Python

2 bình luận

 

Tôi cũng đã thử dùng được trên 3060, chất lượng rất tuyệt.

 

À, hóa ra OpenBMB là nơi làm ra mô hình MiniCPM-o, tôi cứ thấy quen tai mà không nhớ ở đâu.
MiniCPM-o là một mô hình omni kiểu như GPT 4o, và hiệu năng của nó khá ổn.

Hãy xem thử video demo MiniCPM-o,

Đây là một mô hình mà tôi đã khá hài lòng, nên cũng rất mong đợi mô hình nhân bản giọng nói mới này.