- Mô hình này do Gradient phát triển đã mở rộng độ dài ngữ cảnh của LLama-3 8B từ 8k lên trên 1040K
- Chứng minh rằng mô hình LLM SOTA có thể học cách hoạt động với ngữ cảnh dài bằng cách điều chỉnh RoPE theta một cách phù hợp với mức huấn luyện tối thiểu
- Giai đoạn này đã được huấn luyện với 830M token, và tổng số 1.4B token ở tất cả các giai đoạn, chỉ chiếm 0.1% dữ liệu tiền huấn luyện gốc của Llama3
- Ghi chú: Cần tối thiểu 64GB bộ nhớ để sử dụng ngữ cảnh 256k; để sử dụng trên 1M ngữ cảnh thì cần trên 100GB
1 bình luận
Có vẻ vì cửa sổ ngữ cảnh tăng lên nên hiệu năng đã giảm đáng kể so với LLaMA 3 ban đầu đến mức gần như không thể dùng được.
https://twitter.com/ArkaPal999/status/1785611161540378707