15 điểm bởi xguru 2024-06-17 | 4 bình luận | Chia sẻ qua WhatsApp
  • Chi phí để tự host trực tiếp mô hình ngôn ngữ lớn (LLM) là bao nhiêu?
  • Khi host mô hình Llama-3 8B-Instruct trên EKS, chi phí vào khoảng $17 cho mỗi 1 triệu token
  • Nếu dùng ChatGPT cho cùng tác vụ, chi phí là $1 cho mỗi 1 triệu token
  • Nếu self-host bằng phần cứng riêng, chi phí cho mỗi 1 triệu token có thể giảm xuống dưới $0.01, và mất khoảng 5.5 năm để đạt điểm hòa vốn
    • Tính toán dựa trên chi phí 4x NVidia Tesla T4 GPU và phần cứng khác ($3800) + chi phí hàng tháng (tiền điện và chi phí khác) là $100

Quá trình xác định phần cứng tối ưu

  • Môi trường thử nghiệm: Tất cả các bài kiểm tra đều được chạy trên cụm EKS

  • Lần thử đầu tiên: Instance AWS g4dn.2xlarge dùng GPU Nvidia Tesla T4.

    • Cấu hình: 1 NVidia Tesla T4, 32GB bộ nhớ, 8 vCPU.
    • Kết quả: Không thể chạy phiên bản 8B hoặc 70B tham số của Llama 3.
    • Vấn đề: Xảy ra OOM (Out of Memory) và thời gian phản hồi mất khoảng 10 phút.
  • Lần thử thứ hai: Instance AWS g4dn.16xlarge dùng 4 GPU Nvidia Tesla T4.

    • Cấu hình: 4 NVidia Tesla T4, 192GB bộ nhớ, 48 vCPU.
    • Kết quả: Thời gian phản hồi giảm xuống dưới 10 giây.

Triển khai ban đầu

  • Cách triển khai: Sao chép và sử dụng mã Llama-3 từ Hugging Face.
  • Tính toán chi phí:
    • Chi phí sử dụng instance g5dn.12xlarge: $3.912 mỗi giờ.
    • Khi tính theo chi phí hàng tháng, chi phí phát sinh khoảng $167.17 cho mỗi 1 triệu token.
    • Chi phí của ChatGPT 3.5 Turbo: $1 cho mỗi 1 triệu token.

Giải quyết vấn đề

  • Nhận ra vấn đề: Tác giả nhận ra cách làm trước đó là sai và chuyển sang dùng vLLM.
  • Kết quả cải thiện:
    • Cài đặt rayvllm để host máy chủ API.
    • Dùng tùy chọn —tensor-parallel-size 4 để sử dụng cả 4 GPU.
    • Kết quả: Thời gian phản hồi được cải thiện đáng kể xuống còn 2044ms.
    • Khi tính chi phí, mức chi là khoảng $17 cho mỗi 1 triệu token.

Cách tiếp cận thay thế

  • Tự host bằng phần cứng riêng:
    • Phần cứng cần thiết: 4x NVidia Tesla T4 GPU, khoảng $700 trên eBay.
    • Tính cả các chi phí khác, tổng chi phí lắp đặt khoảng $3,800.
    • Chi phí năng lượng hàng tháng khoảng $50.
    • Tổng chi phí hàng tháng được tính khoảng $100.
    • Mất khoảng 66 tháng (5.5 năm) để đạt điểm hòa vốn.

Kết luận

  • Ưu điểm: Có thể giảm chi phí khi tự host bằng phần cứng riêng.
  • Nhược điểm: Cần quản lý phần cứng và khả năng mở rộng
    • Giả định mức sử dụng 100% là không thực tế, nên cần đánh giá theo tình huống thực tế.

4 bình luận

 
iolothebard 2024-06-17

Đây đâu phải là xây dựng mô hình,
chỉ suy luận với Llama 8B thôi mà thiết bị có vẻ hơi quá.
GPU 24G (3090 hoặc 4090) là đủ (2~3 triệu), tiền điện một tháng khoảng 30.000 won là đủ rồi.
Viết xong mới thấy bên dưới cũng có nói rồi haha

 
wedding 2024-06-17

5,5 năm thì cũng dài thật..

 
ragingwind 2024-06-17

Liệu 8B có khả thi ở mức hơn cả toy-level không?

 
xguru 2024-06-17

Ý kiến trên Hacker News

  • Nếu tự lưu trữ phần cứng thay vì dùng AWS thì chi phí sẽ giảm đáng kể.
    • Dùng 4 chiếc NVidia Tesla T4 sẽ tốn khoảng $3,800.
    • Nếu dùng mô hình Llama 3 8b thì chỉ cần một GPU 3090 hoặc 4090 là đủ.
    • Có thể tiết kiệm chi phí bằng cách mua GPU trên eBay.
  • Mô hình Llama 8B trên AWS Bedrock có giá $0.40 cho mỗi 1M token đầu vào và $0.60 cho token đầu ra, rẻ hơn các mô hình của OpenAI.
    • Cũng cần tính đến thời gian và chi phí để thiết lập cũng như bảo trì máy chủ.
  • Giá của Jetstream + Maxtext
    • Mức giá cam kết 3 năm với TPU v5e là $0.25 cho mỗi 1M token.
    • Giá theo nhu cầu là khoảng $0.45 cho mỗi 1M token.
    • Có thể xem chi tiết trong phiên Google Next 2024.
  • Dự đoán giá trị thị trường của NVIDIA sẽ giảm
    • Hiệu năng LLM đang chững lại, và khi LLM được thương mại hóa rộng rãi thì giá trị thị trường của NVIDIA có thể sẽ giảm.
    • Nhu cầu điện toán cho huấn luyện cũng sẽ giảm nhanh hơn dự kiến.
  • Vấn đề trong phân tích chi phí
    • Chạy với batch size 1 gây ra sai lệch lớn trong phân tích chi phí.
    • Đắt hơn từ 100 đến 1000 lần so với mức phí mà các nhà cung cấp API tính.
  • Chi phí chạy mô hình 8B
    • Chỉ với một 3090 và hệ thống cơ bản là đủ để chạy mô hình 8B.
    • Chênh lệch chi phí giữa OpenAI và AWS là rất lớn ($1 so với $17).
    • Trên thực tế AWS có thể rẻ hơn.
  • Vấn đề trong cách hiểu chi phí
    • Không phù hợp khi cố hiểu chi phí dựa trên một yêu cầu đồng bộ đơn lẻ.
    • ChatGPT xử lý rất nhiều yêu cầu song song.
    • Các yêu cầu lớn hơn, yêu cầu đồng thời và việc xếp hàng yêu cầu có thể giúp giảm chi phí đáng kể.
  • Chi phí truy cập LLM
    • Chi phí truy cập LLM là rất rẻ.
    • So với tốc độ tiến bộ công nghệ thì mức chi phí này thấp đến mức giới kỹ sư nên vui mừng.
  • T4 là dòng card đã 6 năm tuổi, nên sẽ hợp lý hơn nếu so sánh với 3090, 4090, A10, A100 v.v.