MosaicML công bố mô hình MPT-7B-8K
(mosaicml.com)- LLM mã nguồn mở 7B tham số hỗ trợ độ dài ngữ cảnh 8k
- Ngoài MPT-7B, mô hình được huấn luyện thêm trong 3 ngày trên 256 GPU NVidia H100 với 500B token dữ liệu
- Công bố 3 mô hình: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
- Có thể sử dụng cho mục đích thương mại
- Hỗ trợ đầu vào 8k bằng ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
- Huấn luyện và suy luận nhanh nhờ FlashAttention và FasterTrasformer
Chưa có bình luận nào.