Cải thiện tốc độ nạp trọng số mô hình của llama.cpp lên 10~100 lần
(github.com/ggerganov)- Việc thay đổi định dạng tệp giúp có thể dùng
mmap()mà không cầnread(), nhờ đó tốc độ nạp trọng số nhanh hơn 10~100 lần - Đã hỗ trợ cả 7B dạng tệp đơn và 13B dạng nhiều tệp, đồng thời mã nạp cũng trở nên đơn giản hơn rất nhiều
- Ngoài ra, nhờ thay đổi này, các tensor được căn chỉnh theo biên 32 byte, nên có thể kỳ vọng thêm cải thiện hiệu năng trên một số bộ xử lý nhất định
1 bình luận
LLaMA - LLM 65 tỷ tham số do Meta công bố
llama.cpp - Suy luận mô hình LLaMA của Facebook bằng C/C++ thuần túy