MiMo-V2.5 — mô hình AI omni mã nguồn mở của Xiaomi

(huggingface.co)

3 điểm bởi xguru 1 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình omnimodal gốc xử lý tích hợp văn bản, hình ảnh, video và âm thanh trong một kiến trúc duy nhất, được chuyên biệt cho các tác vụ agent
Phát hành theo giấy phép MIT nên có thể phân phối thương mại và fine-tuning tự do, không cần xin phép riêng
Kiến trúc Sparse MoE chỉ kích hoạt 15B trong tổng số 310B tham số để suy luận hiệu quả (bản Pro là 1.02T/42B)
Hybrid Attention (SWA + GA tỷ lệ 5:1, cửa sổ 128) giúp giảm khoảng 6 lần dung lượng lưu KV-cache trong khi vẫn hỗ trợ ngữ cảnh tối đa 1M token
Tích hợp vision encoder chuyên dụng (ViT 729M tham số, hybrid window attention) và audio encoder (261M tham số, dựa trên MiMo-Audio-Tokenizer)
3 lớp mô-đun Multi-Token Prediction(MTP) giúp tăng tốc suy luận dựa trên speculative decoding và cải thiện hiệu quả huấn luyện RL
Được huấn luyện với tổng khoảng 48T token bằng FP8 mixed precision; ở giai đoạn hậu xử lý áp dụng SFT, agent RL quy mô lớn, Multi-Teacher On-Policy Distillation(MOPD) để tăng hiệu năng trên các benchmark agent và đa phương thức
- Pipeline 5 giai đoạn (tiền huấn luyện văn bản → projector warm-up → tiền huấn luyện đa phương thức → hậu xử lý SFT/agent → RL/MOPD)
Hỗ trợ SGLang(FP8 lượng tử hóa, song song dp/tp) và phân phối chính thức trên vLLM
Cung cấp hai phiên bản Base(256K) và Full(1M)

MiMo-V2.5 — mô hình AI omni mã nguồn mở của Xiaomi

Bài viết liên quan

Chưa có bình luận nào.