Chi phí self-hosting mô hình Llama-3 8B-Instruct

xguru · 2024-06-17T10:08:01+09:00

Chi phí để tự host trực tiếp mô hình ngôn ngữ lớn (LLM) là bao nhiêu? Khi host mô hình Llama-3 8B-Instruct trên EKS, chi phí vào khoảng $17 cho mỗi 1 triệu token Nếu dùng ChatGPT cho cùng tác vụ, chi phí là $1 cho mỗi 1 triệu token Nếu self-host bằng phần cứng riêng, chi phí cho mỗi 1 triệu token có thể giảm xuống dưới $0.01, và mất khoảng 5.5 năm để đạt điểm hòa vốn Tính toán dựa trên chi phí 4x NVidia Tesla T4 GPU và phần cứng khác ($3800) + chi phí hàng tháng (tiền điện và chi phí khác) là $100 Quá trình xác định phần cứng tối ưu Môi trường thử nghiệm: Tất cả các bài kiểm tra đều được chạy trên cụm EKS Lần thử đầu tiên: Instance AWS g4dn.2xlarge dùng GPU Nvidia Tesla T4. Cấu hình: 1 NVidia Tesla T4, 32GB bộ nhớ, 8 vCPU. Kết quả: Không thể chạy phiên bản 8B hoặc 70B tham số của Llama 3. Vấn đề: Xảy ra OOM (Out of Memory) và thời gian phản hồi mất khoảng 10 phút. Lần thử thứ hai: Instance AWS g4dn.16xlarge dùng 4 GPU Nvidia Tesla T4. Cấu hình: 4 NVidia Tesla T4, 192GB bộ nhớ, 48 vCPU. Kết quả: Thời gian phản hồi giảm xuống dưới 10 giây. Triển khai ban đầu Cách triển khai: Sao chép và sử dụng mã Llama-3 từ Hugging Face. Tính toán chi phí: Chi phí sử dụng instance g5dn.12xlarge: $3.912 mỗi giờ. Khi tính theo chi phí hàng tháng, chi phí phát sinh khoảng $167.17 cho mỗi 1 triệu token. Chi phí của ChatGPT 3.5 Turbo: $1 cho mỗi 1 triệu token. Giải quyết vấn đề Nhận ra vấn đề: Tác giả nhận ra cách làm trước đó là sai và chuyển sang dùng vLLM. Kết quả cải thiện: Cài đặt ray và vllm để host máy chủ API. Dùng tùy chọn —tensor-parallel-size 4 để sử dụng cả 4 GPU. Kết quả: Thời gian phản hồi được cải thiện đáng kể xuống còn 2044ms. Khi tính chi phí, mức chi là khoảng $17 cho mỗi 1 triệu token. Cách tiếp cận thay thế Tự host bằng phần cứng riêng: Phần cứng cần thiết: 4x NVidia Tesla T4 GPU, khoảng $700 trên eBay. Tính cả các chi phí khác, tổng chi phí lắp đặt khoảng $3,800. Chi phí năng lượng hàng tháng khoảng $50. Tổng chi phí hàng tháng được tính khoảng $100. Mất khoảng 66 tháng (5.5 năm) để đạt điểm hòa vốn. Kết luận Ưu điểm: Có thể giảm chi phí khi tự host bằng phần cứng riêng. Nhược điểm: Cần quản lý phần cứng và khả năng mở rộng Giả định mức sử dụng 100% là không thực tế, nên cần đánh giá theo tình huống thực tế.

(blog.lytix.co)

15 điểm bởi xguru 2024-06-17 | 4 bình luận | Chia sẻ qua WhatsApp

Chi phí để tự host trực tiếp mô hình ngôn ngữ lớn (LLM) là bao nhiêu?
Khi host mô hình Llama-3 8B-Instruct trên EKS, chi phí vào khoảng $17 cho mỗi 1 triệu token
Nếu dùng ChatGPT cho cùng tác vụ, chi phí là $1 cho mỗi 1 triệu token
Nếu self-host bằng phần cứng riêng, chi phí cho mỗi 1 triệu token có thể giảm xuống dưới $0.01, và mất khoảng 5.5 năm để đạt điểm hòa vốn
- Tính toán dựa trên chi phí 4x NVidia Tesla T4 GPU và phần cứng khác ($3800) + chi phí hàng tháng (tiền điện và chi phí khác) là $100

Quá trình xác định phần cứng tối ưu

Môi trường thử nghiệm: Tất cả các bài kiểm tra đều được chạy trên cụm EKS
Lần thử đầu tiên: Instance AWS g4dn.2xlarge dùng GPU Nvidia Tesla T4.
- Cấu hình: 1 NVidia Tesla T4, 32GB bộ nhớ, 8 vCPU.
- Kết quả: Không thể chạy phiên bản 8B hoặc 70B tham số của Llama 3.
- Vấn đề: Xảy ra OOM (Out of Memory) và thời gian phản hồi mất khoảng 10 phút.
Lần thử thứ hai: Instance AWS g4dn.16xlarge dùng 4 GPU Nvidia Tesla T4.
- Cấu hình: 4 NVidia Tesla T4, 192GB bộ nhớ, 48 vCPU.
- Kết quả: Thời gian phản hồi giảm xuống dưới 10 giây.

Triển khai ban đầu

Cách triển khai: Sao chép và sử dụng mã Llama-3 từ Hugging Face.
Tính toán chi phí:
- Chi phí sử dụng instance g5dn.12xlarge: $3.912 mỗi giờ.
- Khi tính theo chi phí hàng tháng, chi phí phát sinh khoảng $167.17 cho mỗi 1 triệu token.
- Chi phí của ChatGPT 3.5 Turbo: $1 cho mỗi 1 triệu token.

Giải quyết vấn đề

Nhận ra vấn đề: Tác giả nhận ra cách làm trước đó là sai và chuyển sang dùng vLLM.
Kết quả cải thiện:
- Cài đặt ray và vllm để host máy chủ API.
- Dùng tùy chọn —tensor-parallel-size 4 để sử dụng cả 4 GPU.
- Kết quả: Thời gian phản hồi được cải thiện đáng kể xuống còn 2044ms.
- Khi tính chi phí, mức chi là khoảng $17 cho mỗi 1 triệu token.

Cách tiếp cận thay thế

Tự host bằng phần cứng riêng:
- Phần cứng cần thiết: 4x NVidia Tesla T4 GPU, khoảng $700 trên eBay.
- Tính cả các chi phí khác, tổng chi phí lắp đặt khoảng $3,800.
- Chi phí năng lượng hàng tháng khoảng $50.
- Tổng chi phí hàng tháng được tính khoảng $100.
- Mất khoảng 66 tháng (5.5 năm) để đạt điểm hòa vốn.

Kết luận

Ưu điểm: Có thể giảm chi phí khi tự host bằng phần cứng riêng.
Nhược điểm: Cần quản lý phần cứng và khả năng mở rộng
- Giả định mức sử dụng 100% là không thực tế, nên cần đánh giá theo tình huống thực tế.

4 bình luận

iolothebard 2024-06-17

Đây đâu phải là xây dựng mô hình,
chỉ suy luận với Llama 8B thôi mà thiết bị có vẻ hơi quá.
GPU 24G (3090 hoặc 4090) là đủ (2~3 triệu), tiền điện một tháng khoảng 30.000 won là đủ rồi.
Viết xong mới thấy bên dưới cũng có nói rồi haha

wedding 2024-06-17

5,5 năm thì cũng dài thật..

ragingwind 2024-06-17

Liệu 8B có khả thi ở mức hơn cả toy-level không?

xguru 2024-06-17

Ý kiến trên Hacker News

Nếu tự lưu trữ phần cứng thay vì dùng AWS thì chi phí sẽ giảm đáng kể.
- Dùng 4 chiếc NVidia Tesla T4 sẽ tốn khoảng $3,800.
- Nếu dùng mô hình Llama 3 8b thì chỉ cần một GPU 3090 hoặc 4090 là đủ.
- Có thể tiết kiệm chi phí bằng cách mua GPU trên eBay.
Mô hình Llama 8B trên AWS Bedrock có giá $0.40 cho mỗi 1M token đầu vào và $0.60 cho token đầu ra, rẻ hơn các mô hình của OpenAI.
- Cũng cần tính đến thời gian và chi phí để thiết lập cũng như bảo trì máy chủ.
Giá của Jetstream + Maxtext
- Mức giá cam kết 3 năm với TPU v5e là $0.25 cho mỗi 1M token.
- Giá theo nhu cầu là khoảng $0.45 cho mỗi 1M token.
- Có thể xem chi tiết trong phiên Google Next 2024.
Dự đoán giá trị thị trường của NVIDIA sẽ giảm
- Hiệu năng LLM đang chững lại, và khi LLM được thương mại hóa rộng rãi thì giá trị thị trường của NVIDIA có thể sẽ giảm.
- Nhu cầu điện toán cho huấn luyện cũng sẽ giảm nhanh hơn dự kiến.
Vấn đề trong phân tích chi phí
- Chạy với batch size 1 gây ra sai lệch lớn trong phân tích chi phí.
- Đắt hơn từ 100 đến 1000 lần so với mức phí mà các nhà cung cấp API tính.
Chi phí chạy mô hình 8B
- Chỉ với một 3090 và hệ thống cơ bản là đủ để chạy mô hình 8B.
- Chênh lệch chi phí giữa OpenAI và AWS là rất lớn ($1 so với $17).
- Trên thực tế AWS có thể rẻ hơn.
Vấn đề trong cách hiểu chi phí
- Không phù hợp khi cố hiểu chi phí dựa trên một yêu cầu đồng bộ đơn lẻ.
- ChatGPT xử lý rất nhiều yêu cầu song song.
- Các yêu cầu lớn hơn, yêu cầu đồng thời và việc xếp hàng yêu cầu có thể giúp giảm chi phí đáng kể.
Chi phí truy cập LLM
- Chi phí truy cập LLM là rất rẻ.
- So với tốc độ tiến bộ công nghệ thì mức chi phí này thấp đến mức giới kỹ sư nên vui mừng.
T4 là dòng card đã 6 năm tuổi, nên sẽ hợp lý hơn nếu so sánh với 3090, 4090, A10, A100 v.v.