XGen-7B - LLM 7B được huấn luyện trên 1.5T token với độ dài chuỗi tối đa 8K

xguru · 2023-07-01T10:02:01+09:00

Khi LLM được sử dụng rộng rãi hơn, việc áp dụng cho các chuỗi dài trở nên quan trọng: tóm tắt tài liệu, viết mã, dự đoán chuỗi protein, v.v. Tuy nhiên, phần lớn các LLM mã nguồn mở (LLaMA, MPT, Falcon) chỉ được huấn luyện với độ dài chuỗi tối đa 2K token XGen-7B được huấn luyện trên 1.5T token với độ dài chuỗi tối đa lên tới 8K Trên các benchmark NLP tiêu chuẩn, mô hình này đạt hiệu năng tương đương hoặc tốt hơn MPT, Falcon, LLaMA, Redpajama, OpenLLaMA cùng kích thước mô hình Đạt kết quả xuất sắc ở cả tác vụ văn bản (MMLU, QA) và mã nguồn (HumanEval) Chi phí huấn luyện khoảng $150K cho 1T token trên TPU-v4

(blog.salesforceairesearch.com)

4 điểm bởi xguru 2023-07-01 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Khi LLM được sử dụng rộng rãi hơn, việc áp dụng cho các chuỗi dài trở nên quan trọng: tóm tắt tài liệu, viết mã, dự đoán chuỗi protein, v.v.
Tuy nhiên, phần lớn các LLM mã nguồn mở (LLaMA, MPT, Falcon) chỉ được huấn luyện với độ dài chuỗi tối đa 2K token
XGen-7B được huấn luyện trên 1.5T token với độ dài chuỗi tối đa lên tới 8K
Trên các benchmark NLP tiêu chuẩn, mô hình này đạt hiệu năng tương đương hoặc tốt hơn MPT, Falcon, LLaMA, Redpajama, OpenLLaMA cùng kích thước mô hình
Đạt kết quả xuất sắc ở cả tác vụ văn bản (MMLU, QA) và mã nguồn (HumanEval)
Chi phí huấn luyện khoảng $150K cho 1T token trên TPU-v4

XGen-7B - LLM 7B được huấn luyện trên 1.5T token với độ dài chuỗi tối đa 8K

Bài viết liên quan

Chưa có bình luận nào.