8 điểm bởi xguru 2023-03-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Một phiên bản fork giúp có thể chạy LLaMA-13B của Meta chỉ với 24 GiB RAM
    • Tức là có thể vận hành chỉ bằng một chiếc RTX4090/3090
  • Về mặt lý thuyết, có thể vận hành LLaMA-65B trên một chiếc A100 80GB
  • Các thay đổi
    • Loại bỏ cấu trúc xử lý song song
    • Định lượng hóa các weights trên máy chủ
    • Tải dần các weights để tránh vấn đề bộ nhớ
    • Sử dụng bitsandbytestqdm
    • Thiết lập hình phạt lặp lại (mặc định 1.15)
  • Trên máy Ubuntu với RTX4090 + 64GB, mất khoảng 25 giây để tải mô hình và định lượng hóa

Chưa có bình luận nào.

Chưa có bình luận nào.