1 điểm bởi GN⁺ 2025-12-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Một thử nghiệm cải tạo máy chủ Nvidia Grace-Hopper GH200 thành desktop AI cá nhân, đạt hiệu năng đủ để chạy cục bộ mô hình 235B tham số
  • Mua một hệ thống GH200 cũ trên Reddit với giá 7.500 euro, sau đó lắp ráp lại máy chủ tản nhiệt nước cho datacenter thành desktop tản nhiệt khí
  • Đã thực hiện nhiều bước troubleshooting phần cứng như lỗi làm mát, nguồn điện, cảm biến... gồm cả việc nhiệt độ GPU hiển thị 16,77 triệu°C, mạch quạt bị hỏng và phục hồi bằng hàn tay
  • Cuối cùng hoàn thiện được hệ thống ổn định bằng cách kết hợp 4 bộ tản nhiệt nước, adapter gia công CNClinh kiện in 3D
  • Với tổng chi phí khoảng 9.000 euro, đã dựng được một workstation AI hiệu năng cực cao rẻ hơn giá của một GPU H100 đơn lẻ

Mua máy chủ Grace-Hopper và cấu hình

  • Trên diễn đàn r/LocalLLaMA của Reddit, tác giả phát hiện một tin rao máy chủ GH200 giá 10.000 euro và sau khi thương lượng đã mua với giá 7.500 euro
    • Cấu hình: 2× Grace-Hopper Superchip, 2× CPU Grace 72 lõi, 2× GPU H100, 480GB LPDDR5X, 96GB HBM3, tổng cộng 1.152GB bộ nhớ tốc độ cao
    • Băng thông NVLink-C2C 900GB/s, điện năng 1.000~2.000W, kèm PSU 3.000W
  • Người bán là GPTshop.ai, một đơn vị chuyên cải tạo máy chủ Nvidia thành desktop để bán
    • Hệ thống ban đầu có dạng “Franken-system”, tức máy chủ tản nhiệt nước đã được chuyển sang tản nhiệt khí
    • Ngoại hình thô kệch, không thể gắn rack, có gắn bộ cấp nguồn 48V

Tháo rời và vệ sinh máy chủ

  • Máy chủ ở trạng thái bám bụi nghiêm trọng, với 8 quạt công suất cao phát ra độ ồn cỡ máy hút bụi
    • Ồn tới mức không thể dùng trong nhà, nên đã được tháo rời, vệ sinh rồi lắp ráp lại
  • Dùng vài lít isopropanol để rửa toàn bộ mainboard, sau đó phơi khô một tuần trên sàn gia nhiệt
  • Cũng tháo rời để kiểm tra tình trạng bên trong mô-đun Grace-Hopper và khám phá cấu trúc nội bộ

Cấu hình lại hệ thống tản nhiệt nước

  • Do lo ngại nguy cơ rò rỉ, thay vì dùng block tùy chỉnh, tác giả dùng 4 bộ tản nhiệt AIO Arctic Liquid Freezer III 420
    • Sau khi đo kích thước die GPU và CPU, tác giả thiết kế block adapter bằng Fusion 360
    • Tạo prototype bằng máy in 3D Bambu X1, sau đó hoàn thiện linh kiện cuối cùng bằng gia công CNC
  • Sau gia công, đã loại bỏ dầu còn sót lại và hoàn tất lắp đặt, đảm bảo hiệu năng làm mát

Lắp ráp desktop

  • Khung máy được làm từ profile nhôm ProfilAlu, thiết kế bằng Fusion 360
    • Hàng chục linh kiện gắn PCB và giá đỡ bộ lọc được in 3D
    • Dùng vài kilogram filament để gia cố độ ổn định cho cấu trúc

Các sự cố chính phát sinh

  • Trong lúc nối nguồn cho quạt đã xuất hiện tiếng “pop” và khói, làm hỏng một phần mạch header quạt
    • Nguyên nhân được suy đoán là MOSFET hỏng do tính sai dòng điện
    • Nguồn quạt sau đó được thay bằng adapter 12V-5A riêng
  • Lỗi quạt khiến BMC (Baseboard Management Controller) chặn quá trình khởi động
    • Đã vượt qua bước kiểm tra quạt bằng cách vô hiệu hóa phosphor-sensor-monitor.service

Lỗi nhiệt độ GPU và sửa mạch

  • Trong lúc khởi động, nhiệt độ GPU hiển thị 16.777.214°C, khiến hệ thống tự động tắt
    • Đây là giá trị cực đại của số nguyên 24-bit (2²⁴-2), có nghĩa là lỗi tín hiệu cảm biến
  • Kiểm tra dưới kính hiển vi cho thấy một tụ điện 100nF và một điện trở 4.7kΩ bị hỏng
    • Mạch được phục hồi bằng hàn vi mô, cố định bằng UV mask
    • Sau khi lắp lại, hệ thống khởi động bình thường

Cấu hình cuối cùng và hiệu năng

  • Các linh kiện chế tạo thêm gồm:
    • Giá đỡ SSD E1.S 8TB, panel sau cho PSU 3kW, lưới bảo vệ radiator
  • Vấn đề khởi tạo GPU được giải quyết bằng thiết lập tắt NVLink
    • Thêm NVreg_NvLinkDisable=1 vào /etc/modprobe.d/nvidia-disable-nvlink.conf

Kết quả benchmark

  • Build Llama.cpp bằng 144 lõi mất 90 giây, kết quả thử nghiệm với các mô hình lớn như sau:
    • gpt-oss-120b-Q4_K_M: prompt 2974.79, token 195.84
    • GLM-4.5-Air-Q4_K_M: prompt 1936.65, token 100.71
    • Qwen3-235B-A22B-Instruct: prompt 1022.79, token 65.90
  • Mỗi GPU tiêu thụ khoảng 300W, vẫn còn dư khá nhiều so với mức tối đa (900W)

Chi phí

  • Máy chủ Grace-Hopper €7.500, SSD €250, adapter CNC €700, bộ tản nhiệt nước €180
  • Khung máy €200, panel kính €40, vật liệu in 3D €40, linh kiện khác €50
  • Isopropanol dùng để vệ sinh €20, nguồn 12V €10, đèn LED €10
  • Tổng chi phí khoảng €9.000, rẻ hơn một GPU H100 đơn lẻ

Kết luận

  • Đã hoàn thiện một desktop có thể chạy cục bộ mô hình 235B tham số
  • Trong quá trình chuyển phần cứng cấp datacenter sang dùng cá nhân, tác giả đã vượt qua nhiều trở ngại như lỗi cảm biến, hỏng mạch, vấn đề làm mát
  • Kết quả là một ví dụ về việc xây dựng workstation nghiên cứu AI hiệu năng cao với chi phí thấp

1 bình luận

 
GN⁺ 2025-12-12
Ý kiến trên Hacker News
  • Tôi đã mua phần cứng AI cấp trung tâm dữ liệu rồi cải hoán từ làm mát bằng chất lỏng → làm mát bằng không khí → lại quay về làm mát bằng chất lỏng; sau vô số sự cố như nhiệt độ GPU hiện lên tới 16 triệu độ, cuối cùng tôi cũng hoàn thành một máy desktop có thể chạy mô hình 235B tham số tại nhà
    Đây là câu chuyện về những quyết định liều lĩnh, cách giải quyết vấn đề đầy sáng tạo, và nỗ lực biến thiết bị trung tâm dữ liệu thành đồ dùng hằng ngày

    • Tôi phát hiện ra rằng nếu yêu cầu driver bỏ qua hoàn toàn NVLINK thì các GPU sẽ được khởi tạo độc lập qua PCIe
      Mất cả tuần mới tìm ra điều này, và là nhờ Reddit mà giải quyết được. Tôi tự hỏi liệu vấn đề như thế này có thể xảy ra ở mọi trung tâm dữ liệu hay không
    • Tôi cũng thấy bài đó trên Reddit và đã cân nhắc mua, nhưng vì sống ở Mỹ nên bỏ cuộc. May là không phải lừa đảo
    • Họ nói đã trả 7.500 euro bằng tiền mặt, nên tôi tò mò không biết có phải rút toàn bộ bằng tiền giấy không. Muốn biết họ đã lấy được số tiền lớn như vậy từ ngân hàng bằng cách nào
    • Việc cố định linh kiện hàn bằng epoxy làm tôi ấn tượng. Chắc phải rất tự tin vào tay nghề hàn mới dám làm vậy. Không biết có súng bắn keo không
  • Tôi cũng có trải nghiệm tương tự. Trong 3 năm, tôi muốn làm một server game dạng rack để dùng cùng con trai, nhưng nhà chật và vợ không cho phép, nên tôi tận dụng hệ thống điện mặt trời PV (90kWp) và rack server ở nhà bố mẹ
    Hai tháng trước tôi mua một Supermicro SYS-7049GP-TRT trên eBay với giá 1.400 euro, mở ra thì thấy bên trong có Nvidia V100S 32GB. Tôi bán nó với giá 1.600 euro rồi mua hai CPU Xeon 6254 để thay vào. Sau đó mua thêm hai Blackwell RTX 4000 Pro nên giờ có thể vừa chơi game với con trai vừa thử nghiệm LLM
    Case này có thể gắn 4 bộ GPU kép, nên biết đâu sau này tôi có thể nâng cấp lên 4 chiếc RTX 6000 (tổng cộng 384GB VRAM). Thiết bị enterprise đã qua sử dụng rất bền và có hiệu năng/giá thành tốt, đúng là một thú vui tuyệt vời

  • Thật buồn cười khi đặt một server 20kg giá 7,5k euro lên chiếc bàn IKEA LACK giá 5 euro. LACK chỉ chịu tải tối đa 25kg nên trông khá nguy hiểm

    • Thực ra case gốc nặng 20kg, còn bây giờ sau khi thêm khung nhôm và tấm kính thì chắc khoảng 40kg rồi. Nghĩ lại thì đúng là không nên để trên LACK
    • Nhưng bàn LACK lại bền một cách đáng ngạc nhiên. Rất nhiều người dùng nó cho server hay thiết bị mạng, và wiki LackRack cũng có nhiều ví dụ. Tôi từng chất hơn 100kg lên đó
    • Nhưng chắc vẫn có biên độ an toàn 25% chứ, chỉ là đùa thôi
  • Câu “tôi lái xe hai tiếng để tự tới lấy” thật buồn cười. Đúng kiểu Your mileage may vary theo nghĩa đen

  • Tôi thấy ấn tượng khi anh ấy nói quá trình làm cho GPU hoạt động khổ sở đến mức đã để lại lệnh cài đặt cho những người đi sau
    Phải cài driver NVIDIA-Linux-aarch64, và mỗi lần gõ những câu lệnh khó hiểu kiểu này lại có cảm giác “mình cũng từng ở đó”

  • Nói nghiêm túc thì tôi tò mò không biết loại thiết bị này có cho hiệu năng gaming tốt không. Nó được tối ưu cho AI/ML nên có khi lại không chạy game thông thường tốt lắm
    Và đoạn “đi tới một nông trại trong rừng” cũng khiến tôi tự hỏi liệu có nguy hiểm gì không

    • Lúc người bán nói “server ở phía sau chiếc xe van trắng” rồi chỉ ra đằng sau xe, tôi cũng hơi sợ. May mà sau đó thấy xưởng làm việc nên yên tâm hơn
    • Những GPU này không có cổng xuất HDMI hay DisplayPort, nên nếu muốn chơi game thì phải chạy qua VM
    • Nếu để chơi game thì tổ hợp RTX PRO 6000 Blackwell + AMD 9800X3D + RAM độ trễ thấp + NVMe là tối ưu. Vượt quá mức đó thì hiệu quả trên chi phí bỏ ra giảm mạnh. CPU server nền ARM còn gặp vấn đề DRM
    • Video của LTT cũng từng thử một GPU AI tương tự, và hiệu năng chơi game rất tệ. Một card tiêu dùng tầm trung cho kết quả tốt hơn với chỉ 1/10 giá tiền
  • Những bài như thế này thật sự rất hay. Những câu chuyện DIY thành công như vậy chính là sức hút của Hacker News

    • Đúng vậy. Vừa khiến người ta ghen tị, vừa truyền cảm hứng kiểu “mình cũng có thể làm được”
  • Dĩ nhiên đây vẫn là một món hời, nhưng so với giá H100 mới thì hơi cường điệu. Bây giờ có thể mua RTX 6000 Pro với giá 7–8 nghìn USD, mà hiệu năng cũng tương tự. Hơn nữa còn có thể lắp vào workstation thông thường. Khấu hao của thiết bị enterprise cũ là cực lớn

    • Nhưng dù vậy thì đây vẫn là một món quá hời. Lý do nằm ở khác biệt tinh tế giữa RAM/VRAM
      Blackwell nhanh gấp đôi H100 ở FP8, nhưng ở đây đang so FP4 nên thực tế khác. Băng thông VRAM của nó cũng là 4,9TB/s theo HBM3, cao gấp 2,5 lần mức 1,8TB/s của RTX 6000 Pro
      NVLink-C2C đạt 900GB/s giữa các card, tức khoảng gấp 5 lần PCIe5, nên với LLM lớn thì điều này giúp giảm nghẽn cổ chai
      Ví dụ trong benchmark GPT-OSS-120B, RTX 6000 Pro tạo được 145 token/giây, còn GH200 là 195 token/giây
    • Hơn nữa anh ấy có tới hai chiếc H100. Nếu mua hai RTX 6000 Pro thì sẽ cần 15.000–16.000 USD, còn riêng số RAM đi kèm đã đáng giá hơn 7.000 USD rồi
  • Cảm giác như đang sống giấc mơ cyberpunk ngoài đời thật. Thật đáng nể khi dám thử những việc như thế này

  • Tôi muốn xin gợi ý cửa hàng nào có thể mua thiết bị enterprise cũ. Có vẻ đa số ở California, nên tôi cũng tò mò không biết khu vực NY/NJ có chỗ nào không

    • Chỉ cần lần theo những người bán đăng nhiều món trên eBay. Trên khắp nước Mỹ có khá nhiều người bán như vậy