- Tổng hợp các con số quan trọng khi sử dụng LLM.
- Chỉ cần thêm "ngắn gọn" vào prompt là có thể tiết kiệm 40~90% chi phí.
- So với GPT-4, GPT-3.5 Turbo rẻ hơn 50 lần.
- Nếu dùng OpenAI Embeddings cho tìm kiếm vector thì rẻ hơn GPT-3.5 Turbo 20 lần.
- Việc huấn luyện một LLM cỡ LLaMa tốn khoảng 1 triệu USD.
- Dung lượng bộ nhớ theo từng GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- Thông thường cần lượng bộ nhớ gấp 2 lần kích thước mô hình - 7B = 14GB
- Mô hình embedding thường dùng dưới 1GB bộ nhớ
- Nếu xử lý hàng loạt các yêu cầu LLM, tốc độ có thể nhanh hơn hơn 10 lần.
- Mô hình 13B cần khoảng 1MB cho mỗi token, nên khi xử lý hàng loạt yêu cầu, nhu cầu bộ nhớ sẽ tăng mạnh.
2 bình luận
Tôi đã thử rất nhiều cách để làm cho nó ngắn gọn, nhưng có lẽ tôi cũng nên thử thêm cụm "be consise" như bài viết nói.
Có lẽ cũng nên thử kết hợp với
let's think step by step.