Cải thiện tốc độ nạp trọng số mô hình của llama.cpp lên 10~100 lần

xguru · 2023-04-03T10:03:01+09:00

Việc thay đổi định dạng tệp giúp có thể dùng mmap() mà không cần read(), nhờ đó tốc độ nạp trọng số nhanh hơn 10~100 lần Đã hỗ trợ cả 7B dạng tệp đơn và 13B dạng nhiều tệp, đồng thời mã nạp cũng trở nên đơn giản hơn rất nhiều Ngoài ra, nhờ thay đổi này, các tensor được căn chỉnh theo biên 32 byte, nên có thể kỳ vọng thêm cải thiện hiệu năng trên một số bộ xử lý nhất định

(github.com/ggerganov)

13 điểm bởi xguru 2023-04-03 | 1 bình luận | Chia sẻ qua WhatsApp

Việc thay đổi định dạng tệp giúp có thể dùng mmap() mà không cần read(), nhờ đó tốc độ nạp trọng số nhanh hơn 10~100 lần
Đã hỗ trợ cả 7B dạng tệp đơn và 13B dạng nhiều tệp, đồng thời mã nạp cũng trở nên đơn giản hơn rất nhiều
Ngoài ra, nhờ thay đổi này, các tensor được căn chỉnh theo biên 32 byte, nên có thể kỳ vọng thêm cải thiện hiệu năng trên một số bộ xử lý nhất định

1 bình luận

xguru 2023-04-03

LLaMA - LLM 65 tỷ tham số do Meta công bố
llama.cpp - Suy luận mô hình LLaMA của Facebook bằng C/C++ thuần túy

Cải thiện tốc độ nạp trọng số mô hình của llama.cpp lên 10~100 lần

Bài viết liên quan

1 bình luận