Llama3-gradient - Mô hình mở rộng độ dài ngữ cảnh của LLAMA từ 8k lên 1m

xguru · 2024-05-02T10:46:01+09:00

Mô hình này do Gradient phát triển đã mở rộng độ dài ngữ cảnh của LLama-3 8B từ 8k lên trên 1040K Chứng minh rằng mô hình LLM SOTA có thể học cách hoạt động với ngữ cảnh dài bằng cách điều chỉnh RoPE theta một cách phù hợp với mức huấn luyện tối thiểu Giai đoạn này đã được huấn luyện với 830M token, và tổng số 1.4B token ở tất cả các giai đoạn, chỉ chiếm 0.1% dữ liệu tiền huấn luyện gốc của Llama3 Ghi chú: Cần tối thiểu 64GB bộ nhớ để sử dụng ngữ cảnh 256k; để sử dụng trên 1M ngữ cảnh thì cần trên 100GB

(ollama.com)

6 điểm bởi xguru 2024-05-02 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình này do Gradient phát triển đã mở rộng độ dài ngữ cảnh của LLama-3 8B từ 8k lên trên 1040K
Chứng minh rằng mô hình LLM SOTA có thể học cách hoạt động với ngữ cảnh dài bằng cách điều chỉnh RoPE theta một cách phù hợp với mức huấn luyện tối thiểu
Giai đoạn này đã được huấn luyện với 830M token, và tổng số 1.4B token ở tất cả các giai đoạn, chỉ chiếm 0.1% dữ liệu tiền huấn luyện gốc của Llama3
Ghi chú: Cần tối thiểu 64GB bộ nhớ để sử dụng ngữ cảnh 256k; để sử dụng trên 1M ngữ cảnh thì cần trên 100GB

1 bình luận

livekth 2024-05-02

Có vẻ vì cửa sổ ngữ cảnh tăng lên nên hiệu năng đã giảm đáng kể so với LLaMA 3 ban đầu đến mức gần như không thể dùng được.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - Mô hình mở rộng độ dài ngữ cảnh của LLAMA từ 8k lên 1m

Bài viết liên quan

1 bình luận