3 điểm bởi GN⁺ 2024-09-09 | 2 bình luận | Chia sẻ qua WhatsApp
  • Máy chủ LLM chuyên dụng chạy bằng 8 card đồ họa RTX 3090. Tổng cộng 192GB VRAM
  • Được xây dựng với mục tiêu chạy Llama-3.1 405B của Meta

Câu chuyện phía sau

  • Vào tháng 3, tác giả đã gặp khó khăn khi thử nghiệm LLM với 48GB VRAM
  • Cảm thấy cần nhiều VRAM hơn nên quyết định xây dựng một hệ thống mới
  • Nảy sinh nhiều câu hỏi như chọn CPU/nền tảng nào, tầm quan trọng của tốc độ bộ nhớ và sự cần thiết của các làn PCIe
  • Sau nhiều giờ nghiên cứu, tác giả đã chọn nền tảng như sau
    • Bo mạch chủ Asrock Rack ROMED8-2T (7 khe PCIe 4.0x16, 128 làn PCIe)
    • CPU AMD Epyc Milan 7713 (2.00 GHz/3.675GHz boost, 64 lõi/128 luồng)
    • Bộ nhớ 512GB DDR4-3200 3DS RDIMM
    • 3 bộ nguồn 1600 watt
    • 8x GPU RTX 3090 (4x NVLink, tốc độ truyền dữ liệu 112GB/s cho mỗi cặp)

Giới thiệu loạt bài blog

  • Những thách thức trong quá trình lắp ráp hệ thống này
    • Khoan lỗ trên khung kim loại và thêm aptomat 30 amp 240 volt
    • Làm cong chân socket CPU (đừng thử ở nhà)
  • Các vấn đề của PCIe riser và tầm quan trọng của bộ chuyển đổi thiết bị SAS, re-driver và re-timer
  • Tốc độ NVLink, băng thông làn PCIe, tốc độ truyền VRAM, và việc Nvidia chặn băng thông PCIe native P2P ở cấp phần mềm
  • Benchmark các engine suy luận như TensorRT-LLM, vLLM và Aphrodite Engine
  • Huấn luyện và tinh chỉnh LLM riêng

Kết luận

  • Khi nhìn vào sự phát triển của công nghệ, tác giả nhớ lại cảm giác phấn khích khi có được ổ cứng 60GB vào năm 2004
  • Có thể 20 năm nữa chúng ta sẽ hồi tưởng về thời từng nghĩ rằng 192GB VRAM là rất lớn
  • Tác giả muốn đóng góp vào việc tạo ra những công nghệ tuyệt vời của tương lai thông qua dự án này

Tóm tắt của GN⁺

  • Bài viết này nói về quá trình xây dựng một máy chủ hiệu năng cao cho các mô hình AI
  • Giải thích cách xây dựng máy chủ LLM bằng GPU đời mới và CPU hiệu năng cao
  • Thể hiện tốc độ phát triển công nghệ và sự kỳ vọng vào tương lai
  • Những dự án có chức năng tương tự gồm có hệ thống DGX của Nvidia hoặc TPU của Google

2 bình luận

 
brainer 2024-09-09

Chỉ biết ghen tị thôi..

 
GN⁺ 2024-09-09
Ý kiến trên Hacker News
  • Bình luận thứ nhất: Đã tự dựng máy chủ riêng để bảo vệ dữ liệu cá nhân. Gần đây chất lượng đầu ra của các nền tảng giảm sút nên không hề hối hận vì đã bỏ tiền cho thiết lập này

    • Thực hiện được nhiều việc ấn tượng nhờ tận dụng tensor parallelism và batch inference
    • Tinh chỉnh mô hình bằng dữ liệu cá nhân và tạo dữ liệu tổng hợp
    • Hiện đang xây dựng mô hình từ đầu như một dự án học tập, và dự định sẽ viết hướng dẫn khi giải quyết xong các vấn đề
    • Đã bắt đầu một blog và đang lên kế hoạch cho loạt bài viết về quá trình học hỏi và những điều khám phá được
    • Sẵn sàng chia sẻ nếu ai có chủ đề hoặc ý tưởng muốn thử nghiệm
  • Bình luận thứ hai: Có lẽ rồi sẽ có ngày chúng ta nhìn lại thời từng nghĩ 192GB VRAM là nhiều

    • Việc mua HDD dung lượng lớn cho NAS đã trở nên khó khăn hơn, và giá đã tăng mạnh
    • Dự đoán điều tương tự cũng sẽ xảy ra với AI
    • Các nhà cung cấp đám mây lớn không quan tâm đến phần cứng gia dụng giá rẻ, mà muốn khai thác dữ liệu thông qua dịch vụ đám mây
  • Bình luận thứ ba: Một dự án dùng 8 GPU để biến màn hình 4K thành một bức tường pixel mini không viền

    • Đây là dự án dành cho cấu hình video cục bộ và phông nền do AI tạo ra
    • Nhắc đến ví dụ của "The Mandalorian", cung cấp phông nền chân thực theo thời gian thực
  • Bình luận thứ tư: Tò mò không biết NVLink giúp ích được bao nhiêu

    • Đã xây dựng một rig 2 chiếc 3090 và đang tự hỏi liệu với EPYC có thể dùng thêm nhiều card hơn không
    • Tổng chi phí khoảng $3500, và dự đoán thiết lập này sẽ gần mức $12-15k
  • Bình luận thứ năm: Rất ngầu, nhưng nếu không khai thác hiệu quả 24/7 thì chi phí sẽ khá đắt

  • Bình luận thứ sáu: Tò mò về so sánh chi phí với Tinybox

    • Dùng 6 chiếc 4090 thì là $25k, còn 6 chiếc 7900XTX thì là $15k
    • Đây là gói đầy đủ gồm bộ nguồn, CPU, lưu trữ, tản nhiệt, lắp ráp, vận chuyển, v.v.
  • Bình luận thứ bảy: Cũng có một thiết lập tương tự trong tầng hầm

    • Gồm nhiều node, tổng cộng sử dụng 16 chiếc 3090
    • Đã phải lắp mạch điện 30A 240V
  • Bình luận thứ tám: Tò mò không biết với bo mạch chủ có 7 khe PCIe thì kết nối 8 GPU bằng cách nào

    • Tự hỏi liệu có dùng hai GPU chung một khe để đánh đổi băng thông hay không
  • Bình luận thứ chín: Tò mò không biết nếu có 7 khe PCIe 4.0 x16 thì gắn card thứ 8 bằng cách nào

  • Bình luận thứ mười: Đang mong chờ được đọc loạt bài này

    • Muốn tìm biểu đồ/dữ liệu về tỷ lệ hiệu năng trên chi phí của các mô hình mã nguồn mở
    • Muốn tìm giá trị $/ELO (chỉ số thể hiện chi phí xây dựng và vận hành máy so với hiệu năng trung bình của mô hình)