- Máy chủ LLM chuyên dụng chạy bằng 8 card đồ họa RTX 3090. Tổng cộng 192GB VRAM
- Được xây dựng với mục tiêu chạy Llama-3.1 405B của Meta
Câu chuyện phía sau
- Vào tháng 3, tác giả đã gặp khó khăn khi thử nghiệm LLM với 48GB VRAM
- Cảm thấy cần nhiều VRAM hơn nên quyết định xây dựng một hệ thống mới
- Nảy sinh nhiều câu hỏi như chọn CPU/nền tảng nào, tầm quan trọng của tốc độ bộ nhớ và sự cần thiết của các làn PCIe
- Sau nhiều giờ nghiên cứu, tác giả đã chọn nền tảng như sau
- Bo mạch chủ Asrock Rack ROMED8-2T (7 khe PCIe 4.0x16, 128 làn PCIe)
- CPU AMD Epyc Milan 7713 (2.00 GHz/3.675GHz boost, 64 lõi/128 luồng)
- Bộ nhớ 512GB DDR4-3200 3DS RDIMM
- 3 bộ nguồn 1600 watt
- 8x GPU RTX 3090 (4x NVLink, tốc độ truyền dữ liệu 112GB/s cho mỗi cặp)
Giới thiệu loạt bài blog
- Những thách thức trong quá trình lắp ráp hệ thống này
- Khoan lỗ trên khung kim loại và thêm aptomat 30 amp 240 volt
- Làm cong chân socket CPU (đừng thử ở nhà)
- Các vấn đề của PCIe riser và tầm quan trọng của bộ chuyển đổi thiết bị SAS, re-driver và re-timer
- Tốc độ NVLink, băng thông làn PCIe, tốc độ truyền VRAM, và việc Nvidia chặn băng thông PCIe native P2P ở cấp phần mềm
- Benchmark các engine suy luận như TensorRT-LLM, vLLM và Aphrodite Engine
- Huấn luyện và tinh chỉnh LLM riêng
Kết luận
- Khi nhìn vào sự phát triển của công nghệ, tác giả nhớ lại cảm giác phấn khích khi có được ổ cứng 60GB vào năm 2004
- Có thể 20 năm nữa chúng ta sẽ hồi tưởng về thời từng nghĩ rằng 192GB VRAM là rất lớn
- Tác giả muốn đóng góp vào việc tạo ra những công nghệ tuyệt vời của tương lai thông qua dự án này
Tóm tắt của GN⁺
- Bài viết này nói về quá trình xây dựng một máy chủ hiệu năng cao cho các mô hình AI
- Giải thích cách xây dựng máy chủ LLM bằng GPU đời mới và CPU hiệu năng cao
- Thể hiện tốc độ phát triển công nghệ và sự kỳ vọng vào tương lai
- Những dự án có chức năng tương tự gồm có hệ thống DGX của Nvidia hoặc TPU của Google
2 bình luận
Chỉ biết ghen tị thôi..
Ý kiến trên Hacker News
Bình luận thứ nhất: Đã tự dựng máy chủ riêng để bảo vệ dữ liệu cá nhân. Gần đây chất lượng đầu ra của các nền tảng giảm sút nên không hề hối hận vì đã bỏ tiền cho thiết lập này
Bình luận thứ hai: Có lẽ rồi sẽ có ngày chúng ta nhìn lại thời từng nghĩ 192GB VRAM là nhiều
Bình luận thứ ba: Một dự án dùng 8 GPU để biến màn hình 4K thành một bức tường pixel mini không viền
Bình luận thứ tư: Tò mò không biết NVLink giúp ích được bao nhiêu
Bình luận thứ năm: Rất ngầu, nhưng nếu không khai thác hiệu quả 24/7 thì chi phí sẽ khá đắt
Bình luận thứ sáu: Tò mò về so sánh chi phí với Tinybox
Bình luận thứ bảy: Cũng có một thiết lập tương tự trong tầng hầm
Bình luận thứ tám: Tò mò không biết với bo mạch chủ có 7 khe PCIe thì kết nối 8 GPU bằng cách nào
Bình luận thứ chín: Tò mò không biết nếu có 7 khe PCIe 4.0 x16 thì gắn card thứ 8 bằng cách nào
Bình luận thứ mười: Đang mong chờ được đọc loạt bài này