37 điểm bởi xguru 2023-08-23 | 6 bình luận | Chia sẻ qua WhatsApp
  • Nếu bạn tạo các công cụ AI dùng StableDiffusion, Whisper, các LLM mã nguồn mở, v.v. thì chúng cần phải được chạy liên tục ở đâu đó

Nên dùng GPU nào?

Nếu dùng Cloud GPU:

  • Falcon-40B, Falcon-40B-Uncensored, hoặc Falcon-40B-Instruct
    • Nếu muốn hiệu năng tốt nhất bất kể chi phí: 2 H100
    • Nếu muốn cân bằng giữa chi phí và hiệu năng: 2 RTX 6000 Ada (không phải A6000 hay RTX6000)
    • Nếu muốn rẻ: 2 A6000
  • MPT-30B
    • Hiệu năng tốt nhất hoặc đáng tiền nhất: 1 H100
    • Rẻ: 1 A100 80GB
  • Stable Diffusion
    • Hiệu năng tốt nhất: 1 H100
    • Giá/hiệu năng tốt: 1 4090
    • Rẻ: 1 3090
  • Whisper
    • Giống Stable Diffusion
    • Whisper-Large có thể chạy với VRAM thấp hơn, nhưng phần lớn cloud không có các card như vậy
    • 4090/3090 cũng chạy tốt, và có thể chạy trên CPU
  • Nếu bạn muốn fine-tune LLM quy mô lớn
    • Cụm H100 hoặc cụm A100
  • Nếu bạn muốn huấn luyện LLM quy mô lớn
    • Cụm H100 quy mô lớn
      Nếu dùng GPU cục bộ:
  • Gần như tương tự bên trên, nhưng không thể huấn luyện và fine-tune LLM
  • Phần lớn LLM có các phiên bản có thể chạy với VRAM nhỏ hơn (Falcon trên 40GB)

Nên chạy các mô hình cục bộ hay trên cloud GPU?

  • Cả hai đều là lựa chọn hợp lý
  • Nếu muốn chạy mô hình trên cloud, lựa chọn dễ nhất là template của Runpod
  • Lựa chọn dễ nhất là dùng các instance được host sẵn: DreamStudio, RunDiffusion, Playground AI cho stable diffusion, v.v.

RTX 6000, A6000, 6000 Ada khác nhau thế nào?

Ba cái này hoàn toàn khác nhau

  • RTX 6000 (Quadro RTX 6000, 24 GB VRAM, phát hành 2018/08/13)
  • RTX A6000 (48 GB VRAM, phát hành 2020/10/05)
  • RTX 6000 Ada (48 GB VRAM, phát hành 2022/12/03)

DGX GH200, GH200, H100?

  • 1 DGX GH200 bao gồm 256 GH200
  • 1 GH200 bao gồm 1 H100 và 1 CPU Grace

H100 có phải là bản nâng cấp lớn từ A100 không?

  • Chắc chắn rồi. Tốc độ tăng rất lớn. H100 cũng có thể mở rộng lên số lượng GPU nhiều hơn so với A100
  • Nói cách khác, nhiều H100 là lựa chọn tốt nhất để huấn luyện LLM

Còn AMD, Intel, Cerebras thì sao?

  • Ở thời điểm hiện tại, Nvidia là lựa chọn dễ nhất

Nên dùng cloud GPU nào?

  • Nếu cần nhiều A100/H100: hãy liên hệ Oracle, FluidStack, Lambda Labs, v.v.
  • Nếu cần vài chiếc A100: FluidStack hoặc Runpod
  • Nếu cần 1 H100: FluidStack hoặc Lambda Labs
  • 3090, 4090, A6000 giá rẻ: Tensordock
  • Nếu chỉ cần suy luận Stable Diffusion: Salad
  • Nếu cần nhiều loại GPU khác nhau: Runpod hoặc FluidStack
  • Nếu muốn dùng template hoặc làm vì sở thích: Runpod
  • Các cloud lớn thì đắt và phức tạp

Cloud GPU dễ bắt đầu nhất

  • Dùng template trên RunPod
  • Lưu ý rằng pod của RunPod không phải là VM đầy đủ tính năng mà là container Docker trên máy host

Cần bao nhiêu VRAM, RAM hệ thống và bao nhiêu vCPU?

  • VRAM (Video RAM / GPU RAM)
    • Falcon-40B: 85-100GB
    • MPT-30B: 80GB
    • Stable Diffusion: nên từ 16GB+ trở lên
    • Whisper: 12GB+. (nếu dùng bản OpenAI thì mức này là đủ, còn bản cộng đồng thì có thể chạy trên CPU)
  • RAM hệ thống
    • Gấp 1~2 lần VRAM
  • vCPU
    • 8-16 vCPU là đủ, trừ khi bạn chạy workload GPU quy mô lớn
  • Dung lượng đĩa
  • Tùy vào use case. Nếu chưa rõ thì hãy bắt đầu với 100GB rồi xem có phù hợp với use case của bạn không

6 bình luận

 
wlsdk318 2024-01-30

Mình đang dùng Runpod, rẻ, dễ dùng và rất tuyệt! Cảm ơn bạn vì thông tin hữu ích.

 
geekbini 2023-08-24

Thông tin rất hữu ích!

 
ninebow 2023-08-24

Mình thấy tuy nhỏ nhưng có vẻ phía dưới đang thiếu khoảng 2 mục, nên mình thử bổ sung. :)


Có cần SXM, PCIe hay NVLink không?

Còn InfiniBand thì sao?

  • Nếu chỉ dùng 1~2 GPU thì không cần. Nếu dùng cụm hàng nghìn GPU thì cần.
 
ninebow 2023-08-24

Cảm ơn vì bài viết hay!

 
nicewook 2023-08-23

Đây hẳn là thông tin thực sự quý giá với những người có liên quan.

 
ragingwind 2023-08-23

Ồ, đây đúng là một tài liệu rất hữu ích.