Hướng dẫn Cloud GPU - Nên dùng GPU nào cho AI và dùng ở đâu?

xguru · 2023-08-23T11:04:02+09:00

Nếu bạn tạo các công cụ AI dùng StableDiffusion, Whisper, các LLM mã nguồn mở, v.v. thì chúng cần phải được chạy liên tục ở đâu đó Nên dùng GPU nào? Nếu dùng Cloud GPU: Falcon-40B, Falcon-40B-Uncensored, hoặc Falcon-40B-Instruct Nếu muốn hiệu năng tốt nhất bất kể chi phí: 2 H100 Nếu muốn cân bằng giữa chi phí và hiệu năng: 2 RTX 6000 Ada (không phải A6000 hay RTX6000) Nếu muốn rẻ: 2 A6000 MPT-30B Hiệu năng tốt nhất hoặc đáng tiền nhất: 1 H100 Rẻ: 1 A100 80GB Stable Diffusion Hiệu năng tốt nhất: 1 H100 Giá/hiệu năng tốt: 1 4090 Rẻ: 1 3090 Whisper Giống Stable Diffusion Whisper-Large có thể chạy với VRAM thấp hơn, nhưng phần lớn cloud không có các card như vậy 4090/3090 cũng chạy tốt, và có thể chạy trên CPU Nếu bạn muốn fine-tune LLM quy mô lớn Cụm H100 hoặc cụm A100 Nếu bạn muốn huấn luyện LLM quy mô lớn Cụm H100 quy mô lớn Nếu dùng GPU cục bộ: Gần như tương tự bên trên, nhưng không thể huấn luyện và fine-tune LLM Phần lớn LLM có các phiên bản có thể chạy với VRAM nhỏ hơn (Falcon trên 40GB) Nên chạy các mô hình cục bộ hay trên cloud GPU? Cả hai đều là lựa chọn hợp lý Nếu muốn chạy mô hình trên cloud, lựa chọn dễ nhất là template của Runpod Lựa chọn dễ nhất là dùng các instance được host sẵn: DreamStudio, RunDiffusion, Playground AI cho stable diffusion, v.v. RTX 6000, A6000, 6000 Ada khác nhau thế nào? Ba cái này hoàn toàn khác nhau RTX 6000 (Quadro RTX 6000, 24 GB VRAM, phát hành 2018/08/13) RTX A6000 (48 GB VRAM, phát hành 2020/10/05) RTX 6000 Ada (48 GB VRAM, phát hành 2022/12/03) DGX GH200, GH200, H100? 1 DGX GH200 bao gồm 256 GH200 1 GH200 bao gồm 1 H100 và 1 CPU Grace H100 có phải là bản nâng cấp lớn từ A100 không? Chắc chắn rồi. Tốc độ tăng rất lớn. H100 cũng có thể mở rộng lên số lượng GPU nhiều hơn so với A100 Nói cách khác, nhiều H100 là lựa chọn tốt nhất để huấn luyện LLM Còn AMD, Intel, Cerebras thì sao? Ở thời điểm hiện tại, Nvidia là lựa chọn dễ nhất Nên dùng cloud GPU nào? Nếu cần nhiều A100/H100: hãy liên hệ Oracle, FluidStack, Lambda Labs, v.v. Nếu cần vài chiếc A100: FluidStack hoặc Runpod Nếu cần 1 H100: FluidStack hoặc Lambda Labs 3090, 4090, A6000 giá rẻ: Tensordock Nếu chỉ cần suy luận Stable Diffusion: Salad Nếu cần nhiều loại GPU khác nhau: Runpod hoặc FluidStack Nếu muốn dùng template hoặc làm vì sở thích: Runpod Các cloud lớn thì đắt và phức tạp Cloud GPU dễ bắt đầu nhất Dùng template trên RunPod Lưu ý rằng pod của RunPod không phải là VM đầy đủ tính năng mà là container Docker trên máy host Cần bao nhiêu VRAM, RAM hệ thống và bao nhiêu vCPU? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: nên từ 16GB+ trở lên Whisper: 12GB+. (nếu dùng bản OpenAI thì mức này là đủ, còn bản cộng đồng thì có thể chạy trên CPU) RAM hệ thống Gấp 1~2 lần VRAM vCPU 8-16 vCPU là đủ, trừ khi bạn chạy workload GPU quy mô lớn Dung lượng đĩa Tùy vào use case. Nếu chưa rõ thì hãy bắt đầu với 100GB rồi xem có phù hợp với use case của bạn không

(gpus.llm-utils.org)

37 điểm bởi xguru 2023-08-23 | 6 bình luận | Chia sẻ qua WhatsApp

Nếu bạn tạo các công cụ AI dùng StableDiffusion, Whisper, các LLM mã nguồn mở, v.v. thì chúng cần phải được chạy liên tục ở đâu đó

Nên dùng GPU nào?

Nếu dùng Cloud GPU:

Falcon-40B, Falcon-40B-Uncensored, hoặc Falcon-40B-Instruct
- Nếu muốn hiệu năng tốt nhất bất kể chi phí: 2 H100
- Nếu muốn cân bằng giữa chi phí và hiệu năng: 2 RTX 6000 Ada (không phải A6000 hay RTX6000)
- Nếu muốn rẻ: 2 A6000
MPT-30B
- Hiệu năng tốt nhất hoặc đáng tiền nhất: 1 H100
- Rẻ: 1 A100 80GB
Stable Diffusion
- Hiệu năng tốt nhất: 1 H100
- Giá/hiệu năng tốt: 1 4090
- Rẻ: 1 3090
Quảng cáo
Whisper
- Giống Stable Diffusion
- Whisper-Large có thể chạy với VRAM thấp hơn, nhưng phần lớn cloud không có các card như vậy
- 4090/3090 cũng chạy tốt, và có thể chạy trên CPU
Nếu bạn muốn fine-tune LLM quy mô lớn
- Cụm H100 hoặc cụm A100
Nếu bạn muốn huấn luyện LLM quy mô lớn
- Cụm H100 quy mô lớn
  Nếu dùng GPU cục bộ:
Gần như tương tự bên trên, nhưng không thể huấn luyện và fine-tune LLM
Phần lớn LLM có các phiên bản có thể chạy với VRAM nhỏ hơn (Falcon trên 40GB)

Nên chạy các mô hình cục bộ hay trên cloud GPU?

Cả hai đều là lựa chọn hợp lý
Nếu muốn chạy mô hình trên cloud, lựa chọn dễ nhất là template của Runpod
Lựa chọn dễ nhất là dùng các instance được host sẵn: DreamStudio, RunDiffusion, Playground AI cho stable diffusion, v.v.

RTX 6000, A6000, 6000 Ada khác nhau thế nào?

Ba cái này hoàn toàn khác nhau

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, phát hành 2018/08/13)
RTX A6000 (48 GB VRAM, phát hành 2020/10/05)
RTX 6000 Ada (48 GB VRAM, phát hành 2022/12/03)

DGX GH200, GH200, H100?

1 DGX GH200 bao gồm 256 GH200
1 GH200 bao gồm 1 H100 và 1 CPU Grace

H100 có phải là bản nâng cấp lớn từ A100 không?

Chắc chắn rồi. Tốc độ tăng rất lớn. H100 cũng có thể mở rộng lên số lượng GPU nhiều hơn so với A100
Nói cách khác, nhiều H100 là lựa chọn tốt nhất để huấn luyện LLM

Còn AMD, Intel, Cerebras thì sao?

Ở thời điểm hiện tại, Nvidia là lựa chọn dễ nhất

Nên dùng cloud GPU nào?

Nếu cần nhiều A100/H100: hãy liên hệ Oracle, FluidStack, Lambda Labs, v.v.
Nếu cần vài chiếc A100: FluidStack hoặc Runpod
Nếu cần 1 H100: FluidStack hoặc Lambda Labs
3090, 4090, A6000 giá rẻ: Tensordock
Nếu chỉ cần suy luận Stable Diffusion: Salad
Nếu cần nhiều loại GPU khác nhau: Runpod hoặc FluidStack
Nếu muốn dùng template hoặc làm vì sở thích: Runpod
Các cloud lớn thì đắt và phức tạp

Cloud GPU dễ bắt đầu nhất

Dùng template trên RunPod
Lưu ý rằng pod của RunPod không phải là VM đầy đủ tính năng mà là container Docker trên máy host

Cần bao nhiêu VRAM, RAM hệ thống và bao nhiêu vCPU?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: nên từ 16GB+ trở lên
- Whisper: 12GB+. (nếu dùng bản OpenAI thì mức này là đủ, còn bản cộng đồng thì có thể chạy trên CPU)
RAM hệ thống
- Gấp 1~2 lần VRAM
vCPU
- 8-16 vCPU là đủ, trừ khi bạn chạy workload GPU quy mô lớn
Dung lượng đĩa
Tùy vào use case. Nếu chưa rõ thì hãy bắt đầu với 100GB rồi xem có phù hợp với use case của bạn không

6 bình luận

wlsdk318 2024-01-30

Mình đang dùng Runpod, rẻ, dễ dùng và rất tuyệt! Cảm ơn bạn vì thông tin hữu ích.

geekbini 2023-08-24

Thông tin rất hữu ích!

ninebow 2023-08-24

Mình thấy tuy nhỏ nhưng có vẻ phía dưới đang thiếu khoảng 2 mục, nên mình thử bổ sung. :)

Có cần SXM, PCIe hay NVLink không?

Nếu bạn chưa chắc, trước hết hãy coi như điều đó không quan trọng
Nếu muốn tìm hiểu kỹ hơn: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

Còn InfiniBand thì sao?

Nếu chỉ dùng 1~2 GPU thì không cần. Nếu dùng cụm hàng nghìn GPU thì cần.