7 điểm bởi xguru 11 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Mô hình omni gốc đa phương thức tích hợp xử lý văn bản, hình ảnh, video và âm thanh trong một kiến trúc duy nhất, được tối ưu cho các tác vụ agent
  • Có thể phân phối thương mại và fine-tuning theo giấy phép MIT mà không cần xin phép riêng
  • Cấu trúc Sparse MoE cho phép suy luận hiệu quả khi chỉ kích hoạt 15B trong tổng số 310B tham số (phiên bản Pro là 1.02T/42B)
  • Hybrid Attention (SWA + GA theo tỷ lệ 5:1, cửa sổ 128) giúp giảm khoảng 6 lần lượng lưu trữ KV-cache đồng thời hỗ trợ ngữ cảnh tối đa 1M token
  • Tích hợp bộ mã hóa thị giác chuyên dụng (ViT 729M tham số, hybrid window attention) và bộ mã hóa âm thanh (261M tham số, dựa trên MiMo-Audio-Tokenizer)
  • Mô-đun Multi-Token Prediction(MTP) gồm 3 lớp giúp tăng tốc suy luận dựa trên speculative decoding và cải thiện hiệu quả huấn luyện RL
  • Được huấn luyện với tổng cộng khoảng 48T token bằng FP8 mixed precision, và ở giai đoạn hậu xử lý áp dụng SFT, agent RL quy mô lớn, Multi-Teacher On-Policy Distillation(MOPD) để tăng cường hiệu năng trên các benchmark agent và đa phương thức
    • Pipeline 5 giai đoạn (tiền huấn luyện văn bản → khởi động projector → tiền huấn luyện đa phương thức → SFT/hậu xử lý agent → RL/MOPD)
  • Hỗ trợ SGLang(FP8 lượng tử hóa, song song dp/tp)bản phân phối chính thức vLLM
  • Cung cấp hai phiên bản Base(256K)Full(1M)

2 bình luận

 

VentureBeat đã thử nghiệm cái này và cho rằng nó khá phù hợp với OpenClaw
https://venturebeat.com/ai/…

  • Trên benchmark ClawEval, mẫu Pro ghi nhận tỷ lệ thành công 63,8%, dẫn đầu trong nhóm mã nguồn mở
  • So với Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro và OpenAI GPT-5.4, nó đạt kết quả tương đương với ít hơn 40~60% token
  • MiMo-V2.5 ("Omni") là mô hình chuyên dụng đa phương thức gốc, xử lý tích hợp thị giác, âm thanh và văn bản
  • MiMo-V2.5-Pro ("Agent") được tối ưu cho "độ nhất quán đường dài (long-horizon coherence)" và kỹ thuật phần mềm phức tạp
  • Mẫu Pro đạt 1581 điểm trên benchmark GDPVal-AA(Elo), vượt Kimi K2.6 và GLM 5.1
  • Khác với nhiều mô hình "mở" đi kèm chính sách "Acceptable Use" mang tính hạn chế, MiMo-V2.5 được phát hành theo giấy phép MIT
    • Không cần phê duyệt: có thể phân phối thương mại mà không cần sự cho phép rõ ràng từ Xiaomi
    • Tự do huấn luyện tiếp: có thể fine-tune bằng dữ liệu riêng và công bố trọng số phái sinh
    • Sử dụng thương mại không giới hạn: không có trần doanh thu hay giới hạn số người dùng thường thấy ở giấy phép cộng đồng
  • Trưởng dự án là Fuli Luo (cựu thành viên nòng cốt của DeepSeek)

    "Giá trị của mô hình không được đo bằng thứ hạng, mà bằng những vấn đề nó giải quyết"

 
cosine20 9 ngày trước

Xét đến các lĩnh vực kinh doanh chủ chốt của Xiaomi, cũng có khả năng nó được tạo ra với ý thức nhắm đến các agent như OpenClaw hay Hermes.