- Mô hình omni gốc đa phương thức tích hợp xử lý văn bản, hình ảnh, video và âm thanh trong một kiến trúc duy nhất, được tối ưu cho các tác vụ agent
- Có thể phân phối thương mại và fine-tuning theo giấy phép MIT mà không cần xin phép riêng
- Cấu trúc Sparse MoE cho phép suy luận hiệu quả khi chỉ kích hoạt 15B trong tổng số 310B tham số (phiên bản Pro là 1.02T/42B)
- Hybrid Attention (SWA + GA theo tỷ lệ 5:1, cửa sổ 128) giúp giảm khoảng 6 lần lượng lưu trữ KV-cache đồng thời hỗ trợ ngữ cảnh tối đa 1M token
- Tích hợp bộ mã hóa thị giác chuyên dụng (ViT 729M tham số, hybrid window attention) và bộ mã hóa âm thanh (261M tham số, dựa trên MiMo-Audio-Tokenizer)
- Mô-đun Multi-Token Prediction(MTP) gồm 3 lớp giúp tăng tốc suy luận dựa trên speculative decoding và cải thiện hiệu quả huấn luyện RL
- Được huấn luyện với tổng cộng khoảng 48T token bằng FP8 mixed precision, và ở giai đoạn hậu xử lý áp dụng SFT, agent RL quy mô lớn, Multi-Teacher On-Policy Distillation(MOPD) để tăng cường hiệu năng trên các benchmark agent và đa phương thức
- Pipeline 5 giai đoạn (tiền huấn luyện văn bản → khởi động projector → tiền huấn luyện đa phương thức → SFT/hậu xử lý agent → RL/MOPD)
- Hỗ trợ SGLang(FP8 lượng tử hóa, song song dp/tp) và bản phân phối chính thức vLLM
- Cung cấp hai phiên bản Base(256K) và Full(1M)
2 bình luận
VentureBeat đã thử nghiệm cái này và cho rằng nó khá phù hợp với OpenClaw
https://venturebeat.com/ai/…
Xét đến các lĩnh vực kinh doanh chủ chốt của Xiaomi, cũng có khả năng nó được tạo ra với ý thức nhắm đến các agent như OpenClaw hay Hermes.