Hướng dẫn Cloud GPU - Nên dùng GPU nào cho AI và dùng ở đâu?
(gpus.llm-utils.org)- Nếu bạn tạo các công cụ AI dùng StableDiffusion, Whisper, các LLM mã nguồn mở, v.v. thì chúng cần phải được chạy liên tục ở đâu đó
Nên dùng GPU nào?
Nếu dùng Cloud GPU:
- Falcon-40B, Falcon-40B-Uncensored, hoặc Falcon-40B-Instruct
- Nếu muốn hiệu năng tốt nhất bất kể chi phí: 2 H100
- Nếu muốn cân bằng giữa chi phí và hiệu năng: 2 RTX 6000 Ada (không phải A6000 hay RTX6000)
- Nếu muốn rẻ: 2 A6000
- MPT-30B
- Hiệu năng tốt nhất hoặc đáng tiền nhất: 1 H100
- Rẻ: 1 A100 80GB
- Stable Diffusion
- Hiệu năng tốt nhất: 1 H100
- Giá/hiệu năng tốt: 1 4090
- Rẻ: 1 3090
- Whisper
- Giống Stable Diffusion
- Whisper-Large có thể chạy với VRAM thấp hơn, nhưng phần lớn cloud không có các card như vậy
- 4090/3090 cũng chạy tốt, và có thể chạy trên CPU
- Nếu bạn muốn fine-tune LLM quy mô lớn
- Cụm H100 hoặc cụm A100
- Nếu bạn muốn huấn luyện LLM quy mô lớn
- Cụm H100 quy mô lớn
Nếu dùng GPU cục bộ:
- Cụm H100 quy mô lớn
- Gần như tương tự bên trên, nhưng không thể huấn luyện và fine-tune LLM
- Phần lớn LLM có các phiên bản có thể chạy với VRAM nhỏ hơn (Falcon trên 40GB)
Nên chạy các mô hình cục bộ hay trên cloud GPU?
- Cả hai đều là lựa chọn hợp lý
- Nếu muốn chạy mô hình trên cloud, lựa chọn dễ nhất là template của Runpod
- Lựa chọn dễ nhất là dùng các instance được host sẵn: DreamStudio, RunDiffusion, Playground AI cho stable diffusion, v.v.
RTX 6000, A6000, 6000 Ada khác nhau thế nào?
Ba cái này hoàn toàn khác nhau
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, phát hành 2018/08/13)
- RTX A6000 (48 GB VRAM, phát hành 2020/10/05)
- RTX 6000 Ada (48 GB VRAM, phát hành 2022/12/03)
DGX GH200, GH200, H100?
- 1 DGX GH200 bao gồm 256 GH200
- 1 GH200 bao gồm 1 H100 và 1 CPU Grace
H100 có phải là bản nâng cấp lớn từ A100 không?
- Chắc chắn rồi. Tốc độ tăng rất lớn. H100 cũng có thể mở rộng lên số lượng GPU nhiều hơn so với A100
- Nói cách khác, nhiều H100 là lựa chọn tốt nhất để huấn luyện LLM
Còn AMD, Intel, Cerebras thì sao?
- Ở thời điểm hiện tại, Nvidia là lựa chọn dễ nhất
Nên dùng cloud GPU nào?
- Nếu cần nhiều A100/H100: hãy liên hệ Oracle, FluidStack, Lambda Labs, v.v.
- Nếu cần vài chiếc A100: FluidStack hoặc Runpod
- Nếu cần 1 H100: FluidStack hoặc Lambda Labs
- 3090, 4090, A6000 giá rẻ: Tensordock
- Nếu chỉ cần suy luận Stable Diffusion: Salad
- Nếu cần nhiều loại GPU khác nhau: Runpod hoặc FluidStack
- Nếu muốn dùng template hoặc làm vì sở thích: Runpod
- Các cloud lớn thì đắt và phức tạp
Cloud GPU dễ bắt đầu nhất
- Dùng template trên RunPod
- Lưu ý rằng pod của RunPod không phải là VM đầy đủ tính năng mà là container Docker trên máy host
Cần bao nhiêu VRAM, RAM hệ thống và bao nhiêu vCPU?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: nên từ 16GB+ trở lên
- Whisper: 12GB+. (nếu dùng bản OpenAI thì mức này là đủ, còn bản cộng đồng thì có thể chạy trên CPU)
- RAM hệ thống
- Gấp 1~2 lần VRAM
- vCPU
- 8-16 vCPU là đủ, trừ khi bạn chạy workload GPU quy mô lớn
- Dung lượng đĩa
- Tùy vào use case. Nếu chưa rõ thì hãy bắt đầu với 100GB rồi xem có phù hợp với use case của bạn không
6 bình luận
Mình đang dùng Runpod, rẻ, dễ dùng và rất tuyệt! Cảm ơn bạn vì thông tin hữu ích.
Thông tin rất hữu ích!
Mình thấy tuy nhỏ nhưng có vẻ phía dưới đang thiếu khoảng 2 mục, nên mình thử bổ sung. :)
Có cần SXM, PCIe hay NVLink không?
Còn InfiniBand thì sao?
Cảm ơn vì bài viết hay!
Đây hẳn là thông tin thực sự quý giá với những người có liên quan.
Ồ, đây đúng là một tài liệu rất hữu ích.