42 điểm bởi kuroneko 2023-05-18 | 2 bình luận | Chia sẻ qua WhatsApp
  • Tổng hợp các con số quan trọng khi sử dụng LLM.
  • Chỉ cần thêm "ngắn gọn" vào prompt là có thể tiết kiệm 40~90% chi phí.
  • So với GPT-4, GPT-3.5 Turbo rẻ hơn 50 lần.
  • Nếu dùng OpenAI Embeddings cho tìm kiếm vector thì rẻ hơn GPT-3.5 Turbo 20 lần.
  • Việc huấn luyện một LLM cỡ LLaMa tốn khoảng 1 triệu USD.
  • Dung lượng bộ nhớ theo từng GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • Thông thường cần lượng bộ nhớ gấp 2 lần kích thước mô hình - 7B = 14GB
  • Mô hình embedding thường dùng dưới 1GB bộ nhớ
  • Nếu xử lý hàng loạt các yêu cầu LLM, tốc độ có thể nhanh hơn hơn 10 lần.
  • Mô hình 13B cần khoảng 1MB cho mỗi token, nên khi xử lý hàng loạt yêu cầu, nhu cầu bộ nhớ sẽ tăng mạnh.

2 bình luận

 
xguru 2023-05-18

Tôi đã thử rất nhiều cách để làm cho nó ngắn gọn, nhưng có lẽ tôi cũng nên thử thêm cụm "be consise" như bài viết nói.

 
wedding 2023-05-20

Có lẽ cũng nên thử kết hợp với let's think step by step.