Chi phí self-hosting mô hình Llama-3 8B-Instruct
(blog.lytix.co)- Chi phí để tự host trực tiếp mô hình ngôn ngữ lớn (LLM) là bao nhiêu?
- Khi host mô hình Llama-3 8B-Instruct trên EKS, chi phí vào khoảng $17 cho mỗi 1 triệu token
- Nếu dùng ChatGPT cho cùng tác vụ, chi phí là $1 cho mỗi 1 triệu token
- Nếu self-host bằng phần cứng riêng, chi phí cho mỗi 1 triệu token có thể giảm xuống dưới $0.01, và mất khoảng 5.5 năm để đạt điểm hòa vốn
- Tính toán dựa trên chi phí 4x NVidia Tesla T4 GPU và phần cứng khác ($3800) + chi phí hàng tháng (tiền điện và chi phí khác) là $100
Quá trình xác định phần cứng tối ưu
-
Môi trường thử nghiệm: Tất cả các bài kiểm tra đều được chạy trên cụm EKS
-
Lần thử đầu tiên: Instance AWS
g4dn.2xlargedùng GPU Nvidia Tesla T4.- Cấu hình: 1 NVidia Tesla T4, 32GB bộ nhớ, 8 vCPU.
- Kết quả: Không thể chạy phiên bản 8B hoặc 70B tham số của Llama 3.
- Vấn đề: Xảy ra OOM (Out of Memory) và thời gian phản hồi mất khoảng 10 phút.
-
Lần thử thứ hai: Instance AWS
g4dn.16xlargedùng 4 GPU Nvidia Tesla T4.- Cấu hình: 4 NVidia Tesla T4, 192GB bộ nhớ, 48 vCPU.
- Kết quả: Thời gian phản hồi giảm xuống dưới 10 giây.
Triển khai ban đầu
- Cách triển khai: Sao chép và sử dụng mã Llama-3 từ Hugging Face.
- Tính toán chi phí:
- Chi phí sử dụng instance
g5dn.12xlarge: $3.912 mỗi giờ. - Khi tính theo chi phí hàng tháng, chi phí phát sinh khoảng $167.17 cho mỗi 1 triệu token.
- Chi phí của ChatGPT 3.5 Turbo: $1 cho mỗi 1 triệu token.
- Chi phí sử dụng instance
Giải quyết vấn đề
- Nhận ra vấn đề: Tác giả nhận ra cách làm trước đó là sai và chuyển sang dùng
vLLM. - Kết quả cải thiện:
- Cài đặt
rayvàvllmđể host máy chủ API. - Dùng tùy chọn
—tensor-parallel-size 4để sử dụng cả 4 GPU. - Kết quả: Thời gian phản hồi được cải thiện đáng kể xuống còn 2044ms.
- Khi tính chi phí, mức chi là khoảng $17 cho mỗi 1 triệu token.
- Cài đặt
Cách tiếp cận thay thế
- Tự host bằng phần cứng riêng:
- Phần cứng cần thiết: 4x NVidia Tesla T4 GPU, khoảng $700 trên eBay.
- Tính cả các chi phí khác, tổng chi phí lắp đặt khoảng $3,800.
- Chi phí năng lượng hàng tháng khoảng $50.
- Tổng chi phí hàng tháng được tính khoảng $100.
- Mất khoảng 66 tháng (5.5 năm) để đạt điểm hòa vốn.
Kết luận
- Ưu điểm: Có thể giảm chi phí khi tự host bằng phần cứng riêng.
- Nhược điểm: Cần quản lý phần cứng và khả năng mở rộng
- Giả định mức sử dụng 100% là không thực tế, nên cần đánh giá theo tình huống thực tế.
4 bình luận
Đây đâu phải là xây dựng mô hình,
chỉ suy luận với Llama 8B thôi mà thiết bị có vẻ hơi quá.
GPU 24G (3090 hoặc 4090) là đủ (2~3 triệu), tiền điện một tháng khoảng 30.000 won là đủ rồi.
Viết xong mới thấy bên dưới cũng có nói rồi haha
5,5 năm thì cũng dài thật..
Liệu 8B có khả thi ở mức hơn cả toy-level không?
Ý kiến trên Hacker News