- Mô hình omnimodal gốc xử lý tích hợp văn bản, hình ảnh, video và âm thanh trong một kiến trúc duy nhất, được chuyên biệt cho các tác vụ agent
- Phát hành theo giấy phép MIT nên có thể phân phối thương mại và fine-tuning tự do, không cần xin phép riêng
- Kiến trúc Sparse MoE chỉ kích hoạt 15B trong tổng số 310B tham số để suy luận hiệu quả (bản Pro là 1.02T/42B)
- Hybrid Attention (SWA + GA tỷ lệ 5:1, cửa sổ 128) giúp giảm khoảng 6 lần dung lượng lưu KV-cache trong khi vẫn hỗ trợ ngữ cảnh tối đa 1M token
- Tích hợp vision encoder chuyên dụng (ViT 729M tham số, hybrid window attention) và audio encoder (261M tham số, dựa trên MiMo-Audio-Tokenizer)
- 3 lớp mô-đun Multi-Token Prediction(MTP) giúp tăng tốc suy luận dựa trên speculative decoding và cải thiện hiệu quả huấn luyện RL
- Được huấn luyện với tổng khoảng 48T token bằng FP8 mixed precision; ở giai đoạn hậu xử lý áp dụng SFT, agent RL quy mô lớn, Multi-Teacher On-Policy Distillation(MOPD) để tăng hiệu năng trên các benchmark agent và đa phương thức
- Pipeline 5 giai đoạn (tiền huấn luyện văn bản → projector warm-up → tiền huấn luyện đa phương thức → hậu xử lý SFT/agent → RL/MOPD)
- Hỗ trợ SGLang(FP8 lượng tử hóa, song song dp/tp) và phân phối chính thức trên vLLM
- Cung cấp hai phiên bản Base(256K) và Full(1M)
Chưa có bình luận nào.