Làm mát bằng chất lỏng của Google: Công bố tại Hot Chips 2025
(chipsandcheese.com)- Làm mát bằng chất lỏng đang lan rộng nhanh chóng để giải quyết vấn đề nhiệt của các chip công suất cao trong trung tâm dữ liệu
- Với độ dẫn nhiệt cao hơn khoảng 4.000 lần so với không khí, Google đang tích cực áp dụng giải pháp này, đặc biệt để đáp ứng nhu cầu làm mát TPU do làn sóng AI thúc đẩy
- Google vận hành vòng lặp làm mát bằng chất lỏng theo từng rack dựa trên CDU (Coolant Distribution Unit) để tăng khả năng bảo trì và mở rộng
- Công ty áp dụng các kỹ thuật của thị trường PC hiệu năng cao ở quy mô trung tâm dữ liệu, như cold plate split-flow và làm mát bare-die (TPUv4)
- Làm mát bằng chất lỏng hiệu quả hơn khi chỉ tiêu thụ dưới 5% điện năng so với quạt, và để đối phó với các vấn đề như rò rỉ hay vi sinh phát triển, Google kết hợp kiểm định nghiêm ngặt, hệ thống cảnh báo và bảo trì phòng ngừa
- NVIDIA, Rebellions AI và các công ty khác cũng đang áp dụng làm mát bằng chất lỏng, đẩy nhanh xu hướng tiêu chuẩn hóa làm mát trung tâm dữ liệu
Sự cần thiết và bối cảnh của làm mát bằng chất lỏng
- Làm mát bằng chất lỏng vốn quen thuộc với giới đam mê PC và cũng có lịch sử lâu dài trong môi trường điện toán doanh nghiệp
- Gần đây, do mức tiêu thụ điện của các workload AI và machine learning tăng lên, tầm quan trọng của làm mát bằng chất lỏng trong trung tâm dữ liệu đã tăng mạnh
- Google chú ý đến việc độ dẫn nhiệt của nước cao hơn khoảng 4.000 lần so với không khí, và đã chọn đây là giải pháp ứng phó với nhiệt lượng cao của các chip hiện đại
- Tại Hot Chips 2025, Google giới thiệu phương thức làm mát bằng chất lỏng ở quy mô trung tâm dữ liệu liên quan đến việc làm mát TPU, bộ tăng tốc machine learning của hãng
Cấu trúc hệ thống làm mát bằng chất lỏng của Google
- Google đã áp dụng làm mát bằng chất lỏng cho TPU từ năm 2018 và trải qua nhiều thử nghiệm cũng như cải tiến
- Giải pháp làm mát mới nhất không chỉ giới hạn trong máy chủ mà mở rộng ra toàn bộ rack với một vòng lặp làm mát bằng chất lỏng
- Một rack làm mát gồm 6 CDU (Coolant Distribution Unit), đóng vai trò tương tự tổ hợp radiator + pump trong PC
- Công ty đưa vào sử dụng ống mềm và khớp nối ngắt nhanh để cải thiện sự thuận tiện trong bảo trì và tăng dung sai khi lắp đặt
- Ngay cả khi chỉ vận hành 5 trong số 6 CDU thì hệ thống vẫn làm mát đủ, nên không cần dừng toàn bộ hệ thống khi bảo trì một thiết bị
Trao đổi nhiệt và bố trí chip
- CDU chỉ trao đổi nhiệt giữa nước làm mát bên trong và nguồn nước cấp bên ngoài của trung tâm dữ liệu, hai chất lỏng không trộn trực tiếp với nhau
- Nước làm mát đi ra từ CDU được phân phối tới nhiều máy chủ TPU thông qua manifold
- Kết nối chip TPU theo cấu trúc tuần tự (series), và tổng ngân sách làm mát được tính dựa trên nhu cầu nhiệt của con chip cuối cùng trong vòng lặp
Tối ưu hóa công nghệ làm mát
- Cấu trúc cold plate split-flow được áp dụng để đạt hiệu năng làm mát tốt hơn so với thiết kế tuyến tính truyền thống
- Ngoài ra còn áp dụng làm mát bare-die (TPUv4, trong khi TPUv3 trước đây là lidded), tương tự kỹ thuật “delidding” mà giới đam mê PC cao cấp thường dùng để tăng hiệu quả truyền nhiệt
- TPUv4 cần các phương thức làm mát bổ sung này do mức tiêu thụ điện cao hơn 1,6 lần so với v3
Hiệu suất điện năng và truyền nhiệt
- Mức tiêu thụ điện của bơm làm mát bằng chất lỏng được ghi nhận là dưới 5% so với điện năng của quạt làm mát bằng không khí truyền thống
- Hệ thống của Google sử dụng phương thức trao đổi nhiệt water-to-water, trong đó phần lớn năng lượng làm mát thực tế được đảm nhiệm bởi bơm
- Trong môi trường của giới đam mê PC, phần lớn vẫn duy trì tổ hợp quạt-radiator nên lợi thế về điện năng không lớn như ở trung tâm dữ liệu
Bảo trì, độ tin cậy và an toàn
- Ở góc độ bảo trì, các rủi ro phổ biến của hệ thống tản nhiệt nước như vi sinh phát triển hoặc nguy cơ rò rỉ cũng tồn tại ở quy mô trung tâm dữ liệu
- Thông qua nhiều cơ chế hỗ trợ bảo trì như đầu nối ngắt nhanh, CDU dự phòng và các thành phần khác, hệ thống hướng đến khả năng quản lý quy mô lớn mà không gây downtime
- Google xây dựng bảo trì phòng ngừa, kiểm tra rò rỉ, phát hiện nhiều loại tín hiệu bất thường và các quy trình ứng phó có hệ thống để bảo đảm tính nhất quán và độ tin cậy trên toàn tổ chức
- Điều này trái ngược với cách quản lý không chính thức của các cá nhân đam mê PC
Xu hướng ngành và cơn sốt AI
- NVIDIA, Rebellions AI và các công ty khác cũng giới thiệu nhiều hệ thống làm mát bằng chất lỏng bên ngoài tại triển lãm Hot Chips 2025
- NVIDIA GB300 server: bố trí đồng thời cổng làm mát bằng chất lỏng bên ngoài và quạt
- Rebellions AI là một công ty Hàn Quốc, đã trình diễn nguyên mẫu bộ tăng tốc ML mới mang tên ‘REBEL Quad’ theo cách tương tự, kết hợp cooler và chiller
- Sự gia tăng của workload AI được dự báo sẽ tiếp tục thúc đẩy mạnh hơn nữa nhu cầu và mức độ áp dụng làm mát bằng chất lỏng cho trung tâm dữ liệu
1 bình luận
Ý kiến trên Hacker News
Tôi nhớ từng xem một cuộc phỏng vấn với SVP phụ trách tổng thể việc xây dựng các trung tâm dữ liệu Azure; có một câu của ông ấy khiến tôi ấn tượng: đến một lúc nào đó ông nhận ra mình không còn làm trong ngành máy tính nữa mà là trong ngành điều hòa công nghiệp, và từ đó mọi thứ trở nên dễ hiểu hơn rất nhiều. Đọc bài này tôi lập tức nhớ lại câu chuyện đó.
Mainframe (S/3x0, Cray, v.v.) đã dùng làm mát bằng nước rất rộng rãi suốt hơn 50 năm, và các trung tâm dữ liệu HPC cấp siêu máy tính cũng đã dùng làm mát bằng chất lỏng ít nhất 20 năm nay, nên việc so sánh thiết kế trung tâm dữ liệu cỡ Google với tản nhiệt cho dân chơi PC nghe hơi kỳ; hoặc là quên mất lịch sử, hoặc là chọn ví dụ so sánh hoàn toàn sai.
Về lý thuyết, làm mát trung tâm dữ liệu là việc đơn giản. CPU chạy ở mức 60~70 độ, còn nhiệt độ bên ngoài thường dưới 30 độ, nên chỉ cần một ít trợ giúp từ quạt và bơm là nhiệt sẽ tự nhiên “chảy xuống”. Vấn đề ở làm mát bằng không khí là nhân viên trong cơ sở phải hít chính loại không khí đang được dùng để làm mát máy tính. Nếu tăng nhiệt độ điều hòa lên thì không tốt cho sức khỏe nhân viên (chúng tôi vận hành hot aisle ở khoảng 100F ngay cả vào mùa đông, và cứ 3 rack lại có một heat exchanger làm mát bằng nước chiller bên ngoài). Khi nhiệt độ ngoài trời tăng lên, muốn thải nhiệt ra khỏi tòa nhà hiệu quả thì nhiệt độ chất làm mát phải cao hơn, và khi đó chiller là bắt buộc; lúc trời quá nóng thì mức tiêu thụ năng lượng cũng tăng mạnh. Nếu toàn bộ trung tâm dữ liệu chuyển sang làm mát bằng chất lỏng, có lẽ có thể nâng nhiệt độ coolant hồi ra từ rack lên cao hơn nhiều, và ngay cả lúc nóng nhất cũng vẫn xả nhiệt được mà không cần chiller. Hiện giờ chúng tôi chỉ làm mát bằng chất lỏng cho một phần, và nhiệt độ coolant bị giới hạn theo nhiệt độ của hot aisle; chỉ riêng mức đó thôi cũng đã thấy khá nóng rồi.
Bài báo có nói về việc nối các chip TPU theo kiểu nối tiếp để cho vòng nước làm mát đi qua, rồi tính toán công suất dựa theo nhiệt độ của con chip cuối cùng. Nếu bốn con chip mỗi con tỏa 250W và bơm đẩy 1 lít nước mỗi phút, thì nhiệt độ đầu ra chắc chắn sẽ cao hơn đầu vào 14 độ. Điều này là như nhau dù mắc nối tiếp hay song song (do nhiệt dung riêng của nước).
Tôi không còn kỳ vọng nhiều vào hạ tầng của Google như trước đây. Việc Google tiếp tục có những bước đi xâm phạm tự do Internet đã làm thiện cảm của tôi giảm mạnh, nên giờ ngay cả những thứ như hệ thống làm mát bằng chất lỏng họ áp dụng cũng không còn khiến tôi hứng thú mấy. Tùy chi tiết mà mức độ khó có thể khác nhau, nhưng tôi cũng không thấy nó đặc biệt đột phá. Nếu có nhân viên Google nào đọc được và cảm thấy buồn thì tôi nghĩ vấn đề không nằm ở cá nhân các bạn mà là ở chính Google; có lẽ cũng đáng cân nhắc làm những điều thú vị ở nơi khác.
Tôi chợt nhớ đến một ví dụ thú vị từng xem trên B1M: hồ bơi Olympic ở Paris được làm ấm bằng nhiệt từ Internet: video YouTube
Thỉnh thoảng tôi thấy người ta nói AI đang lãng phí nước; tôi tò mò không biết trường hợp này có như vậy không. Có ai biết liệu CDU có dùng nước trong cơ sở cho làm mát bay hơi hay không?
Tôi tò mò về tính kinh tế của làm mát bằng nước. Có phải chip ngày càng đắt nên cần chạy nhanh hơn, vì thế làm mát bằng chất lỏng trở nên có lợi? Hay là do không gian trung tâm dữ liệu quá đắt nên phải tăng mật độ? Hoặc là vì nếu rút ngắn khoảng cách truyền tín hiệu (1 foot = 1 nanosecond) thì hiệu suất tính toán cũng tăng tương ứng?
Về lý thuyết, người dùng PC cũng có thể cho nước tản nhiệt tuần hoàn qua két nước bồn cầu để mỗi lần xả là làm mát cực hiệu quả. Tương lai chính là đây.
Tôi từng thường xuyên làm việc trong các trung tâm dữ liệu giai đoạn 2006~2012, nhiều lần phải ghé vào lúc đêm muộn. Môi trường trung tâm dữ liệu tệ hơn mọi người tưởng. Giá mà hệ thống làm mát yên tĩnh hơn và bớt cực đoan hơn một chút thì tốt biết mấy. Lý do các cổng kết nối thường nằm ở phía sau là vì đó chính là phía hút gió vào. Tôi từng phải sang phía nóng để sưởi ấm tay của mình.