- Nhờ LLaMA.cpp, phiên bản viết lại mã suy luận LLaMA bằng C++ thuần, có thể chạy trên nhiều phần cứng khác nhau như Pixel 5, MacBook Pro M2, Raspberry Pi, v.v.
- Các mô hình lớn thường cần GPU đắt tiền, vậy điều này có thể xảy ra như thế nào?
- GPU có lợi thế cho học sâu nhờ băng thông bộ nhớ lớn và năng lực tính toán mạnh, nhưng băng thông bộ nhớ thường lại là nút thắt cổ chai của suy luận
- Vì để tính toán thực tế, dữ liệu phải được chuyển từ bộ nhớ HBM (RAM) sang bộ nhớ trên chip
- Quantization (lượng tử hóa) rất quan trọng đối với mức sử dụng RAM cho trọng số LLaMA
- Giảm độ chính xác có thể làm giảm mạnh lượng bộ nhớ cần thiết để lưu mô hình
- Thông qua lượng tử hóa, có thể giảm lượng bộ nhớ cần để lưu mô hình, giúp nó vừa với bộ nhớ của GPU trung tâm dữ liệu tiêu chuẩn và GPU tiêu dùng cao cấp
- Băng thông bộ nhớ là yếu tố giới hạn trong gần như mọi tác vụ liên quan đến sampling của transformer
- Khi giảm yêu cầu bộ nhớ bằng các phương pháp như lượng tử hóa, việc phục vụ mô hình sẽ trở nên dễ dàng hơn nhiều
- Đây cũng là một lý do khác cho distillation hoặc việc "huấn luyện các mô hình nhỏ hơn trong thời gian dài hơn"
3 bình luận
Tôi đã thử kiểm tra embedding bằng cách tải llama2 bằng LlamaCpp trên máy cục bộ.
https://breezymind.com/llamacpp-embedding
Bình luận đầu tiên trên HN khá hữu ích
Ý kiến trên Hacker News