Những con số mọi nhà phát triển LLM cần biết

kuroneko · 2023-05-18T10:45:09+09:00

Tổng hợp các con số quan trọng khi sử dụng LLM. Chỉ cần thêm "ngắn gọn" vào prompt là có thể tiết kiệm 40~90% chi phí. So với GPT-4, GPT-3.5 Turbo rẻ hơn 50 lần. Nếu dùng OpenAI Embeddings cho tìm kiếm vector thì rẻ hơn GPT-3.5 Turbo 20 lần. Việc huấn luyện một LLM cỡ LLaMa tốn khoảng 1 triệu USD. Dung lượng bộ nhớ theo từng GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB Thông thường cần lượng bộ nhớ gấp 2 lần kích thước mô hình - 7B = 14GB Mô hình embedding thường dùng dưới 1GB bộ nhớ Nếu xử lý hàng loạt các yêu cầu LLM, tốc độ có thể nhanh hơn hơn 10 lần. Mô hình 13B cần khoảng 1MB cho mỗi token, nên khi xử lý hàng loạt yêu cầu, nhu cầu bộ nhớ sẽ tăng mạnh.

(github.com/ray-project)

42 điểm bởi kuroneko 2023-05-18 | 2 bình luận | Chia sẻ qua WhatsApp

Tổng hợp các con số quan trọng khi sử dụng LLM.
Chỉ cần thêm "ngắn gọn" vào prompt là có thể tiết kiệm 40~90% chi phí.
So với GPT-4, GPT-3.5 Turbo rẻ hơn 50 lần.
Nếu dùng OpenAI Embeddings cho tìm kiếm vector thì rẻ hơn GPT-3.5 Turbo 20 lần.
Việc huấn luyện một LLM cỡ LLaMa tốn khoảng 1 triệu USD.
Dung lượng bộ nhớ theo từng GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
Thông thường cần lượng bộ nhớ gấp 2 lần kích thước mô hình - 7B = 14GB
Mô hình embedding thường dùng dưới 1GB bộ nhớ
Nếu xử lý hàng loạt các yêu cầu LLM, tốc độ có thể nhanh hơn hơn 10 lần.
Mô hình 13B cần khoảng 1MB cho mỗi token, nên khi xử lý hàng loạt yêu cầu, nhu cầu bộ nhớ sẽ tăng mạnh.

2 bình luận

xguru 2023-05-18

Tôi đã thử rất nhiều cách để làm cho nó ngắn gọn, nhưng có lẽ tôi cũng nên thử thêm cụm "be consise" như bài viết nói.

wedding 2023-05-20

Có lẽ cũng nên thử kết hợp với let's think step by step.

Những con số mọi nhà phát triển LLM cần biết

Bài viết liên quan

2 bình luận