4 điểm bởi frida 2024-07-01 | 2 bình luận | Chia sẻ qua WhatsApp

2 bình luận

 
frida 2024-07-02

Để sử dụng LLM tiếng Hàn có độ dài ngữ cảnh lớn, đây là nhiều phương pháp đã được khảo sát và thử nghiệm nhằm mở rộng độ dài ngữ cảnh của LLM một cách hiệu quả.

  1. LongLoRA
    Mở rộng tới 8 lần bằng cách tận dụng shifted sparse attention và tinh chỉnh LoRA

  2. Rope-based Position Interpolation
    Có thể áp dụng cho các mô hình dùng embedding dựa trên RoPE như Llama bằng cách chỉnh sửa embedding RoPE, và có thể mở rộng độ dài ngữ cảnh tới 16 lần thông qua fine-tuning

  3. Dynamic NTK
    Áp dụng lý thuyết NTK để mở rộng hơn 2 lần mà không cần fine-tuning

  4. LongLM
    Sử dụng attention biến thể để mở rộng tới 4 lần mà không cần fine-tuning

  5. ChunkLlama
    Phân tách văn bản thành các chunk để mở rộng độ dài ngữ cảnh của mô hình Llama lên 4 lần mà không cần fine-tuning

  6. Infini-attention
    Có thể mở rộng tới 2M với ít bộ nhớ bổ sung và cho phép suy luận nhanh, đây là phương pháp được áp dụng cho Gemini-Pro

 
superwoou 2024-07-02

Đây đúng là lần đầu tôi thấy một bài viết chẳng có lấy dù chỉ một dòng tóm tắt.