- Sử dụng Hyena, một kiến trúc mới thay thế Transformer, để hỗ trợ ngữ cảnh cực dài (Ultra Long)
- Hyena dựa trên mô hình chuỗi lấy cảm hứng từ xử lý tín hiệu
- Mô hình thay thế đầu tiên có thể cạnh tranh với Transformers trong các đánh giá ngữ cảnh ngắn/dài
- Đạt hiệu năng tương đương Llama-2, Yi và Mistral 7B trong các tác vụ trên bảng xếp hạng OpenLLM, đồng thời cho kết quả vượt trội ở tóm tắt ngữ cảnh dài
- StripedHyena nhanh hơn và hiệu quả bộ nhớ hơn cho huấn luyện, tinh chỉnh và sinh trên chuỗi dài
- Được tối ưu bằng kỹ thuật ghép mô hình (Model Grafting) mới, cho phép thay đổi kiến trúc mô hình trong quá trình huấn luyện
- StripedHyena có được bằng cách ghép các thành phần kiến trúc của Transformer và Hyena, rồi huấn luyện trên hỗn hợp bộ dữ liệu RedPajama được tăng cường bằng dữ liệu ngữ cảnh dài hơn
Chưa có bình luận nào.