Meta công bố LLaMA 2 Long hỗ trợ context window 32k token
(venturebeat.com)- Meta đã công bố mô hình LLaMA 2 Long thông qua bài báo Effective Long-Context Scaling of Foundation Models
- Liên kết bài báo: https://arxiv.org/pdf/2309.16039.pdf
- Hỗ trợ độ dài context window lên tới 32K (32.768) token
- Phiên bản 70B đã vượt hiệu năng tổng thể của gpt-3.5-turbo-16k trên bộ tác vụ ngữ cảnh dài
- Vẫn giữ nguyên kiến trúc mô hình hiện có, đồng thời áp dụng RoPE (Rotary Positional Embedding) cho positional encoding để tạo ra phản hồi tốt hơn với ít thông tin hơn
- Giải thích về RoPE: https://blog.eleuther.ai/rotary-embeddings/
Chưa có bình luận nào.