4 điểm bởi GN⁺ 2025-08-26 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Làm mát bằng chất lỏng đang lan rộng nhanh chóng để giải quyết vấn đề nhiệt của các chip công suất cao trong trung tâm dữ liệu
  • Với độ dẫn nhiệt cao hơn khoảng 4.000 lần so với không khí, Google đang tích cực áp dụng giải pháp này, đặc biệt để đáp ứng nhu cầu làm mát TPU do làn sóng AI thúc đẩy
  • Google vận hành vòng lặp làm mát bằng chất lỏng theo từng rack dựa trên CDU (Coolant Distribution Unit) để tăng khả năng bảo trì và mở rộng
  • Công ty áp dụng các kỹ thuật của thị trường PC hiệu năng cao ở quy mô trung tâm dữ liệu, như cold plate split-flowlàm mát bare-die (TPUv4)
  • Làm mát bằng chất lỏng hiệu quả hơn khi chỉ tiêu thụ dưới 5% điện năng so với quạt, và để đối phó với các vấn đề như rò rỉ hay vi sinh phát triển, Google kết hợp kiểm định nghiêm ngặt, hệ thống cảnh báo và bảo trì phòng ngừa
  • NVIDIA, Rebellions AI và các công ty khác cũng đang áp dụng làm mát bằng chất lỏng, đẩy nhanh xu hướng tiêu chuẩn hóa làm mát trung tâm dữ liệu

Sự cần thiết và bối cảnh của làm mát bằng chất lỏng

  • Làm mát bằng chất lỏng vốn quen thuộc với giới đam mê PC và cũng có lịch sử lâu dài trong môi trường điện toán doanh nghiệp
  • Gần đây, do mức tiêu thụ điện của các workload AI và machine learning tăng lên, tầm quan trọng của làm mát bằng chất lỏng trong trung tâm dữ liệu đã tăng mạnh
  • Google chú ý đến việc độ dẫn nhiệt của nước cao hơn khoảng 4.000 lần so với không khí, và đã chọn đây là giải pháp ứng phó với nhiệt lượng cao của các chip hiện đại
  • Tại Hot Chips 2025, Google giới thiệu phương thức làm mát bằng chất lỏng ở quy mô trung tâm dữ liệu liên quan đến việc làm mát TPU, bộ tăng tốc machine learning của hãng

Cấu trúc hệ thống làm mát bằng chất lỏng của Google

  • Google đã áp dụng làm mát bằng chất lỏng cho TPU từ năm 2018 và trải qua nhiều thử nghiệm cũng như cải tiến
  • Giải pháp làm mát mới nhất không chỉ giới hạn trong máy chủ mà mở rộng ra toàn bộ rack với một vòng lặp làm mát bằng chất lỏng
  • Một rack làm mát gồm 6 CDU (Coolant Distribution Unit), đóng vai trò tương tự tổ hợp radiator + pump trong PC
  • Công ty đưa vào sử dụng ống mềmkhớp nối ngắt nhanh để cải thiện sự thuận tiện trong bảo trì và tăng dung sai khi lắp đặt
  • Ngay cả khi chỉ vận hành 5 trong số 6 CDU thì hệ thống vẫn làm mát đủ, nên không cần dừng toàn bộ hệ thống khi bảo trì một thiết bị

Trao đổi nhiệt và bố trí chip

  • CDU chỉ trao đổi nhiệt giữa nước làm mát bên trong và nguồn nước cấp bên ngoài của trung tâm dữ liệu, hai chất lỏng không trộn trực tiếp với nhau
  • Nước làm mát đi ra từ CDU được phân phối tới nhiều máy chủ TPU thông qua manifold
  • Kết nối chip TPU theo cấu trúc tuần tự (series), và tổng ngân sách làm mát được tính dựa trên nhu cầu nhiệt của con chip cuối cùng trong vòng lặp

Tối ưu hóa công nghệ làm mát

  • Cấu trúc cold plate split-flow được áp dụng để đạt hiệu năng làm mát tốt hơn so với thiết kế tuyến tính truyền thống
  • Ngoài ra còn áp dụng làm mát bare-die (TPUv4, trong khi TPUv3 trước đây là lidded), tương tự kỹ thuật “delidding” mà giới đam mê PC cao cấp thường dùng để tăng hiệu quả truyền nhiệt
  • TPUv4 cần các phương thức làm mát bổ sung này do mức tiêu thụ điện cao hơn 1,6 lần so với v3

Hiệu suất điện năng và truyền nhiệt

  • Mức tiêu thụ điện của bơm làm mát bằng chất lỏng được ghi nhận là dưới 5% so với điện năng của quạt làm mát bằng không khí truyền thống
  • Hệ thống của Google sử dụng phương thức trao đổi nhiệt water-to-water, trong đó phần lớn năng lượng làm mát thực tế được đảm nhiệm bởi bơm
  • Trong môi trường của giới đam mê PC, phần lớn vẫn duy trì tổ hợp quạt-radiator nên lợi thế về điện năng không lớn như ở trung tâm dữ liệu

Bảo trì, độ tin cậy và an toàn

  • Ở góc độ bảo trì, các rủi ro phổ biến của hệ thống tản nhiệt nước như vi sinh phát triển hoặc nguy cơ rò rỉ cũng tồn tại ở quy mô trung tâm dữ liệu
  • Thông qua nhiều cơ chế hỗ trợ bảo trì như đầu nối ngắt nhanh, CDU dự phòng và các thành phần khác, hệ thống hướng đến khả năng quản lý quy mô lớn mà không gây downtime
  • Google xây dựng bảo trì phòng ngừa, kiểm tra rò rỉ, phát hiện nhiều loại tín hiệu bất thường và các quy trình ứng phó có hệ thống để bảo đảm tính nhất quán và độ tin cậy trên toàn tổ chức
  • Điều này trái ngược với cách quản lý không chính thức của các cá nhân đam mê PC

Xu hướng ngành và cơn sốt AI

  • NVIDIA, Rebellions AI và các công ty khác cũng giới thiệu nhiều hệ thống làm mát bằng chất lỏng bên ngoài tại triển lãm Hot Chips 2025
    • NVIDIA GB300 server: bố trí đồng thời cổng làm mát bằng chất lỏng bên ngoài và quạt
    • Rebellions AI là một công ty Hàn Quốc, đã trình diễn nguyên mẫu bộ tăng tốc ML mới mang tên ‘REBEL Quad’ theo cách tương tự, kết hợp cooler và chiller
  • Sự gia tăng của workload AI được dự báo sẽ tiếp tục thúc đẩy mạnh hơn nữa nhu cầu và mức độ áp dụng làm mát bằng chất lỏng cho trung tâm dữ liệu

Chưa có bình luận nào.

Chưa có bình luận nào.