AI phục vụ từ tầng hầm – 192GB + 8x RTX 3090
(ahmadosman.com)- Khi quy mô thử nghiệm LLM cá nhân ngày càng lớn, tác giả đã tự xây dựng tại nhà một máy chủ AI chuyên dụng với 8x RTX 3090 và tổng 192GB VRAM
- Môi trường 48GB VRAM trước đây không còn đủ để theo kịp các thử nghiệm, nên hệ thống được mở rộng thành một node đa GPU với mục tiêu xa hơn là chạy Llama-3.1 405B của Meta
- Cấu hình xoay quanh Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512GB DDR4-3200 RDIMM, 3 bộ nguồn 1600W và 8 RTX 3090 được ghép bằng 4x NVLink
- NVLink cung cấp băng thông 112GB/s cho mỗi cặp GPU, còn các nút thắt như lane PCIe, riser, engine suy luận và fine-tuning sẽ là chủ đề chính của các bài tiếp theo
- Việc dựng một máy chủ LLM cỡ lớn tại nhà là khả thi, nhưng độ khó khi lắp ráp và chi phí khiến sai lầm trở nên rất đắt, nên quá trình chọn và kiểm chứng phần cứng quyết định thành bại
Mục tiêu của máy chủ LLM dưới tầng hầm
- Dự án phụ mới nhất AI from The Basement là một máy chủ LLM chuyên dụng, trang bị 8x RTX 3090 và tổng 192GB VRAM
- Một trong những mục tiêu là chạy Llama-3.1 405B của Meta
- Trước đây tác giả dùng 48GB VRAM cho các thử nghiệm LLM, nhưng vào khoảng tháng 3 năm 2024 đã nhận ra dung lượng đó không còn đủ để theo kịp tốc độ thử nghiệm
- Trong quá trình chọn phần cứng, tác giả cân nhắc đồng thời CPU và nền tảng, tốc độ bộ nhớ, số lane PCIe, cấu hình GPU theo 2^n, tensor parallelism và lựa chọn engine suy luận
Cấu hình phần cứng và các vấn đề trong quá trình lắp dựng
- Nền tảng cuối cùng gồm bo mạch chủ cấp máy chủ, CPU EPYC, bộ nhớ dung lượng lớn, nhiều bộ nguồn và 8 GPU
- Asrock Rack ROMED8-2T: bo mạch chủ với 7 khe PCIe 4.0 x16, 128 lane PCIe
- AMD Epyc Milan 7713 CPU: 2.00GHz, boost 3.675GHz, 64 nhân/128 luồng
- 512GB DDR4-3200 3DS RDIMM
- 3 bộ nguồn 1600W
- 8x RTX 3090 GPU và 4x NVLink
- NVLink cung cấp tốc độ truyền dữ liệu 112GB/s giữa mỗi cặp GPU
- Trong quá trình lắp ráp thực tế đã phát sinh các vấn đề vật lý như gia công lỗ trên khung kim loại, bổ sung aptomat 30A 240V và chân socket CPU bị cong
- Bài viết cũng đề cập tầm quan trọng của SAS Device Adapter, Redriver và Retimer để xử lý vấn đề PCIe riser và đảm bảo kết nối PCIe không lỗi
- Ở các bài tiếp theo, tác giả sẽ bàn về tốc độ NVLink, băng thông lane PCIe, tốc độ truyền VRAM và quyết định của Nvidia khi chặn băng thông PCIe native P2P ở cấp phần mềm
- Benchmark các engine suy luận hỗ trợ tensor parallelism như TensorRT-LLM, vLLM, Aphrodite Engine, cùng việc huấn luyện và fine-tuning LLM riêng cũng là chủ đề tiếp theo
- So với kỷ niệm vui mừng khi có ổ cứng 60GB vào năm 2004, tác giả xem việc 20 năm sau một cỗ máy có riêng card đồ họa với dung lượng gấp hơn ba lần như vậy là ví dụ cho tiến bộ công nghệ
- Mục tiêu của dự án là góp phần tạo ra những thứ tuyệt vời sẽ xuất hiện trong tương lai, và tác giả tin rằng một ngày nào đó người ta có thể nhìn lại và thấy 192GB VRAM cũng không còn là nhiều
- Part II of this Blogpost Series là bài viết tiếp theo trong chuỗi
1 bình luận
Chỉ biết ghen tị thôi..