4 điểm bởi xguru 2023-07-01 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Khi LLM được sử dụng rộng rãi hơn, việc áp dụng cho các chuỗi dài trở nên quan trọng: tóm tắt tài liệu, viết mã, dự đoán chuỗi protein, v.v.
  • Tuy nhiên, phần lớn các LLM mã nguồn mở (LLaMA, MPT, Falcon) chỉ được huấn luyện với độ dài chuỗi tối đa 2K token
  • XGen-7B được huấn luyện trên 1.5T token với độ dài chuỗi tối đa lên tới 8K
  • Trên các benchmark NLP tiêu chuẩn, mô hình này đạt hiệu năng tương đương hoặc tốt hơn MPT, Falcon, LLaMA, Redpajama, OpenLLaMA cùng kích thước mô hình
  • Đạt kết quả xuất sắc ở cả tác vụ văn bản (MMLU, QA) và mã nguồn (HumanEval)
  • Chi phí huấn luyện khoảng $150K cho 1T token trên TPU-v4

Chưa có bình luận nào.

Chưa có bình luận nào.