Tăng độ dài ngữ cảnh của LLM

(slashpage.com)

4 điểm bởi frida 2024-07-01 | 2 bình luận | Chia sẻ qua WhatsApp

2 bình luận

frida 2024-07-02

Để sử dụng LLM tiếng Hàn có độ dài ngữ cảnh lớn, đây là nhiều phương pháp đã được khảo sát và thử nghiệm nhằm mở rộng độ dài ngữ cảnh của LLM một cách hiệu quả.

LongLoRA
Mở rộng tới 8 lần bằng cách tận dụng shifted sparse attention và tinh chỉnh LoRA
Rope-based Position Interpolation
Có thể áp dụng cho các mô hình dùng embedding dựa trên RoPE như Llama bằng cách chỉnh sửa embedding RoPE, và có thể mở rộng độ dài ngữ cảnh tới 16 lần thông qua fine-tuning
Dynamic NTK
Áp dụng lý thuyết NTK để mở rộng hơn 2 lần mà không cần fine-tuning
LongLM
Sử dụng attention biến thể để mở rộng tới 4 lần mà không cần fine-tuning
ChunkLlama
Phân tách văn bản thành các chunk để mở rộng độ dài ngữ cảnh của mô hình Llama lên 4 lần mà không cần fine-tuning
Infini-attention
Có thể mở rộng tới 2M với ít bộ nhớ bổ sung và cho phép suy luận nhanh, đây là phương pháp được áp dụng cho Gemini-Pro

superwoou 2024-07-02

Đây đúng là lần đầu tôi thấy một bài viết chẳng có lấy dù chỉ một dòng tóm tắt.

Tăng độ dài ngữ cảnh của LLM

Bài viết liên quan

2 bình luận