- Khi LLM được sử dụng rộng rãi hơn, việc áp dụng cho các chuỗi dài trở nên quan trọng: tóm tắt tài liệu, viết mã, dự đoán chuỗi protein, v.v.
- Tuy nhiên, phần lớn các LLM mã nguồn mở (LLaMA, MPT, Falcon) chỉ được huấn luyện với độ dài chuỗi tối đa 2K token
- XGen-7B được huấn luyện trên 1.5T token với độ dài chuỗi tối đa lên tới 8K
- Trên các benchmark NLP tiêu chuẩn, mô hình này đạt hiệu năng tương đương hoặc tốt hơn MPT, Falcon, LLaMA, Redpajama, OpenLLaMA cùng kích thước mô hình
- Đạt kết quả xuất sắc ở cả tác vụ văn bản (MMLU, QA) và mã nguồn (HumanEval)
- Chi phí huấn luyện khoảng $150K cho 1T token trên TPU-v4
Chưa có bình luận nào.