4 điểm bởi GN⁺ 2025-08-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Làm mát bằng chất lỏng đang lan rộng nhanh chóng để giải quyết vấn đề nhiệt của các chip công suất cao trong trung tâm dữ liệu
  • Với độ dẫn nhiệt cao hơn khoảng 4.000 lần so với không khí, Google đang tích cực áp dụng giải pháp này, đặc biệt để đáp ứng nhu cầu làm mát TPU do làn sóng AI thúc đẩy
  • Google vận hành vòng lặp làm mát bằng chất lỏng theo từng rack dựa trên CDU (Coolant Distribution Unit) để tăng khả năng bảo trì và mở rộng
  • Công ty áp dụng các kỹ thuật của thị trường PC hiệu năng cao ở quy mô trung tâm dữ liệu, như cold plate split-flowlàm mát bare-die (TPUv4)
  • Làm mát bằng chất lỏng hiệu quả hơn khi chỉ tiêu thụ dưới 5% điện năng so với quạt, và để đối phó với các vấn đề như rò rỉ hay vi sinh phát triển, Google kết hợp kiểm định nghiêm ngặt, hệ thống cảnh báo và bảo trì phòng ngừa
  • NVIDIA, Rebellions AI và các công ty khác cũng đang áp dụng làm mát bằng chất lỏng, đẩy nhanh xu hướng tiêu chuẩn hóa làm mát trung tâm dữ liệu

Sự cần thiết và bối cảnh của làm mát bằng chất lỏng

  • Làm mát bằng chất lỏng vốn quen thuộc với giới đam mê PC và cũng có lịch sử lâu dài trong môi trường điện toán doanh nghiệp
  • Gần đây, do mức tiêu thụ điện của các workload AI và machine learning tăng lên, tầm quan trọng của làm mát bằng chất lỏng trong trung tâm dữ liệu đã tăng mạnh
  • Google chú ý đến việc độ dẫn nhiệt của nước cao hơn khoảng 4.000 lần so với không khí, và đã chọn đây là giải pháp ứng phó với nhiệt lượng cao của các chip hiện đại
  • Tại Hot Chips 2025, Google giới thiệu phương thức làm mát bằng chất lỏng ở quy mô trung tâm dữ liệu liên quan đến việc làm mát TPU, bộ tăng tốc machine learning của hãng

Cấu trúc hệ thống làm mát bằng chất lỏng của Google

  • Google đã áp dụng làm mát bằng chất lỏng cho TPU từ năm 2018 và trải qua nhiều thử nghiệm cũng như cải tiến
  • Giải pháp làm mát mới nhất không chỉ giới hạn trong máy chủ mà mở rộng ra toàn bộ rack với một vòng lặp làm mát bằng chất lỏng
  • Một rack làm mát gồm 6 CDU (Coolant Distribution Unit), đóng vai trò tương tự tổ hợp radiator + pump trong PC
  • Công ty đưa vào sử dụng ống mềmkhớp nối ngắt nhanh để cải thiện sự thuận tiện trong bảo trì và tăng dung sai khi lắp đặt
  • Ngay cả khi chỉ vận hành 5 trong số 6 CDU thì hệ thống vẫn làm mát đủ, nên không cần dừng toàn bộ hệ thống khi bảo trì một thiết bị

Trao đổi nhiệt và bố trí chip

  • CDU chỉ trao đổi nhiệt giữa nước làm mát bên trong và nguồn nước cấp bên ngoài của trung tâm dữ liệu, hai chất lỏng không trộn trực tiếp với nhau
  • Nước làm mát đi ra từ CDU được phân phối tới nhiều máy chủ TPU thông qua manifold
  • Kết nối chip TPU theo cấu trúc tuần tự (series), và tổng ngân sách làm mát được tính dựa trên nhu cầu nhiệt của con chip cuối cùng trong vòng lặp

Tối ưu hóa công nghệ làm mát

  • Cấu trúc cold plate split-flow được áp dụng để đạt hiệu năng làm mát tốt hơn so với thiết kế tuyến tính truyền thống
  • Ngoài ra còn áp dụng làm mát bare-die (TPUv4, trong khi TPUv3 trước đây là lidded), tương tự kỹ thuật “delidding” mà giới đam mê PC cao cấp thường dùng để tăng hiệu quả truyền nhiệt
  • TPUv4 cần các phương thức làm mát bổ sung này do mức tiêu thụ điện cao hơn 1,6 lần so với v3
Quảng cáo

Hiệu suất điện năng và truyền nhiệt

  • Mức tiêu thụ điện của bơm làm mát bằng chất lỏng được ghi nhận là dưới 5% so với điện năng của quạt làm mát bằng không khí truyền thống
  • Hệ thống của Google sử dụng phương thức trao đổi nhiệt water-to-water, trong đó phần lớn năng lượng làm mát thực tế được đảm nhiệm bởi bơm
  • Trong môi trường của giới đam mê PC, phần lớn vẫn duy trì tổ hợp quạt-radiator nên lợi thế về điện năng không lớn như ở trung tâm dữ liệu

Bảo trì, độ tin cậy và an toàn

  • Ở góc độ bảo trì, các rủi ro phổ biến của hệ thống tản nhiệt nước như vi sinh phát triển hoặc nguy cơ rò rỉ cũng tồn tại ở quy mô trung tâm dữ liệu
  • Thông qua nhiều cơ chế hỗ trợ bảo trì như đầu nối ngắt nhanh, CDU dự phòng và các thành phần khác, hệ thống hướng đến khả năng quản lý quy mô lớn mà không gây downtime
  • Google xây dựng bảo trì phòng ngừa, kiểm tra rò rỉ, phát hiện nhiều loại tín hiệu bất thường và các quy trình ứng phó có hệ thống để bảo đảm tính nhất quán và độ tin cậy trên toàn tổ chức
  • Điều này trái ngược với cách quản lý không chính thức của các cá nhân đam mê PC

Xu hướng ngành và cơn sốt AI

  • NVIDIA, Rebellions AI và các công ty khác cũng giới thiệu nhiều hệ thống làm mát bằng chất lỏng bên ngoài tại triển lãm Hot Chips 2025
    • NVIDIA GB300 server: bố trí đồng thời cổng làm mát bằng chất lỏng bên ngoài và quạt
    • Rebellions AI là một công ty Hàn Quốc, đã trình diễn nguyên mẫu bộ tăng tốc ML mới mang tên ‘REBEL Quad’ theo cách tương tự, kết hợp cooler và chiller
  • Sự gia tăng của workload AI được dự báo sẽ tiếp tục thúc đẩy mạnh hơn nữa nhu cầu và mức độ áp dụng làm mát bằng chất lỏng cho trung tâm dữ liệu

1 bình luận

 
GN⁺ 2025-08-26
Ý kiến trên Hacker News
  • Tôi nhớ từng xem một cuộc phỏng vấn với SVP phụ trách tổng thể việc xây dựng các trung tâm dữ liệu Azure; có một câu của ông ấy khiến tôi ấn tượng: đến một lúc nào đó ông nhận ra mình không còn làm trong ngành máy tính nữa mà là trong ngành điều hòa công nghiệp, và từ đó mọi thứ trở nên dễ hiểu hơn rất nhiều. Đọc bài này tôi lập tức nhớ lại câu chuyện đó.

  • Mainframe (S/3x0, Cray, v.v.) đã dùng làm mát bằng nước rất rộng rãi suốt hơn 50 năm, và các trung tâm dữ liệu HPC cấp siêu máy tính cũng đã dùng làm mát bằng chất lỏng ít nhất 20 năm nay, nên việc so sánh thiết kế trung tâm dữ liệu cỡ Google với tản nhiệt cho dân chơi PC nghe hơi kỳ; hoặc là quên mất lịch sử, hoặc là chọn ví dụ so sánh hoàn toàn sai.

    • Nhờ điểm bri3d chỉ ra, tôi mới hiểu rằng trường hợp lần này của Google không mới như tôi tưởng ban đầu. Điểm đổi mới không phải là “dùng nước”, mà là bộ chiller làm mát máy chủ được đặt bên ngoài cơ sở. Phần lớn mainframe cũng dùng làm mát bằng nước để đưa nhiệt bên trong ra ngoài, rồi để heatsink hoặc quạt tản nhiệt đẩy nhiệt đi; còn Google thì dùng các chiller khổng lồ cho toàn bộ cơ sở để tuần hoàn trực tiếp nước làm mát đến từng máy chủ, rồi làm nguội lại lượng nước nóng hồi về trong tháp chiller. Trên thực tế, làm mát bằng không khí gần như bị loại bỏ hoàn toàn ngoại trừ ở tháp chiller. Không phải chỉ vài máy chủ hay vài rack, mà là xử lý đồng thời cả trung tâm dữ liệu. Tôi khá tò mò họ xử lý thế nào khi phải bảo trì chiller hoặc khi bơm gặp sự cố; chắc hẳn phải có mức dự phòng rất lớn để không gián đoạn. AWS cũng đã triển khai hệ thống tương tự, và ảnh minh họa trong bài của họ khá rõ nên đáng tham khảo: bài viết về làm mát bằng chất lỏng tại trung tâm dữ liệu AWS
    • Google có lịch sử gắn với phần cứng phổ thông giá rẻ, nên thay đổi như vậy cũng không quá bất ngờ. Nó hơi giống việc máy chủ x86 phải mất hàng chục năm mới hấp thụ được các tính năng của mainframe như ảo hóa: blog liên quan
    • Bài báo có nói rằng “làm mát bằng chất lỏng là thứ quen thuộc với dân chơi PC và cũng là khái niệm lâu đời trong enterprise compute”. Trung tâm dữ liệu cũng đã có xu hướng chuyển sang làm mát thụ động ở cấp máy chủ và chấp nhận mức nhiệt vận hành cao hơn, nhưng lần này là một ví dụ đảo ngược xu hướng đó khá mạnh. Có lẽ làm mát theo hàng (per-row cooling) là một nguyên nhân chính.
    • Bạn nói các trung tâm dữ liệu HPC đã dùng làm mát bằng chất lỏng hơn 20 năm, nhưng chẳng phải chủ yếu là áp dụng ở những chỗ như cửa rack hay sao? Có vẻ chỉ từ thế hệ máy chủ thứ hai gần đây thì mới có làm mát bằng chất lỏng trực tiếp trong máy chủ (DLC) thực sự. Một phần là do CPU Intel cao cấp buộc phải như vậy. Việc đưa nó vào trung tâm dữ liệu sẵn có rất phiền phức, và chúng tôi cũng đã phải mở khá nhiều ticket dịch vụ vì túi làm mát bị rò rỉ (không thể nêu tên nhà sản xuất).
    • Các trung tâm dữ liệu siêu quy mô thường không cần tối đa hóa mật độ điện năng, và khi tăng mật độ lên thì lại phát sinh đủ loại vấn đề nên các nhà thiết kế còn cố tránh. Việc các cụm HPC hiện đại bận tâm đến mật độ có thể thực ra là một góc nhìn sai. Tuy vậy, với workload ML thì việc bố trí gần nhau về mặt vật lý có lợi thế là interconnect hiệu quả hơn.
  • Về lý thuyết, làm mát trung tâm dữ liệu là việc đơn giản. CPU chạy ở mức 60~70 độ, còn nhiệt độ bên ngoài thường dưới 30 độ, nên chỉ cần một ít trợ giúp từ quạt và bơm là nhiệt sẽ tự nhiên “chảy xuống”. Vấn đề ở làm mát bằng không khí là nhân viên trong cơ sở phải hít chính loại không khí đang được dùng để làm mát máy tính. Nếu tăng nhiệt độ điều hòa lên thì không tốt cho sức khỏe nhân viên (chúng tôi vận hành hot aisle ở khoảng 100F ngay cả vào mùa đông, và cứ 3 rack lại có một heat exchanger làm mát bằng nước chiller bên ngoài). Khi nhiệt độ ngoài trời tăng lên, muốn thải nhiệt ra khỏi tòa nhà hiệu quả thì nhiệt độ chất làm mát phải cao hơn, và khi đó chiller là bắt buộc; lúc trời quá nóng thì mức tiêu thụ năng lượng cũng tăng mạnh. Nếu toàn bộ trung tâm dữ liệu chuyển sang làm mát bằng chất lỏng, có lẽ có thể nâng nhiệt độ coolant hồi ra từ rack lên cao hơn nhiều, và ngay cả lúc nóng nhất cũng vẫn xả nhiệt được mà không cần chiller. Hiện giờ chúng tôi chỉ làm mát bằng chất lỏng cho một phần, và nhiệt độ coolant bị giới hạn theo nhiệt độ của hot aisle; chỉ riêng mức đó thôi cũng đã thấy khá nóng rồi.

    • Cách nhìn “CPU ở 60-70 độ, ngoài trời dưới 30 độ nên nhiệt tự chảy xuống” là không đúng. Trên thực tế, nhiệt sinh ra từ công suất hoạt động của CPU phải được truyền ra ngoài, và nếu trở kháng nhiệt (thermal impedance) lớn thì CPU có thể quá nhiệt và hỏng.
    • 15 năm trước, siêu máy tính IBM lắp đặt tại ETH Zurich đã dùng nước nóng 60 độ làm chất làm mát, và còn nối trực tiếp qua bộ tản nhiệt vào hệ thống nước nóng của tòa nhà: giới thiệu Aquasar
    • Tôi tự hỏi rồi sẽ có ngày nào đó, để tối đa hóa hiệu suất làm mát, nhân viên trung tâm dữ liệu phải mặc kiểu heat suit giống đồ tản nhiệt mới vào làm việc hay không.
  • Bài báo có nói về việc nối các chip TPU theo kiểu nối tiếp để cho vòng nước làm mát đi qua, rồi tính toán công suất dựa theo nhiệt độ của con chip cuối cùng. Nếu bốn con chip mỗi con tỏa 250W và bơm đẩy 1 lít nước mỗi phút, thì nhiệt độ đầu ra chắc chắn sẽ cao hơn đầu vào 14 độ. Điều này là như nhau dù mắc nối tiếp hay song song (do nhiệt dung riêng của nước).

    • Nếu mắc nối tiếp, hiệu suất truyền nhiệt ở con chip cuối có thể thấp hơn so với mắc song song, vì nước đến chip cuối đã nóng hơn lúc ban đầu. Chênh lệch nhiệt độ nhỏ hơn nên nhiệt thoát ra chậm hơn.
    • Trên thực tế, với cấu trúc nối tiếp và song song thì phải tính tốc độ dòng chảy khác nhau, nên dưới góc độ kỹ thuật sẽ có khác biệt thực chất.
    • Nếu áp suất đủ cao thì hoàn toàn có thể đạt lưu lượng lớn hơn rất nhiều so với 1 lít/phút. So với mức 18W ở desktop, máy chủ cỡ này vào khoảng gấp 10 lần.
    • Nếu là nối tiếp thì một số chip sẽ bị “làm mát quá mức”, và nếu muốn thiết kế theo con chip nóng nhất thì sẽ cần nhiều coolant hơn.
  • Tôi không còn kỳ vọng nhiều vào hạ tầng của Google như trước đây. Việc Google tiếp tục có những bước đi xâm phạm tự do Internet đã làm thiện cảm của tôi giảm mạnh, nên giờ ngay cả những thứ như hệ thống làm mát bằng chất lỏng họ áp dụng cũng không còn khiến tôi hứng thú mấy. Tùy chi tiết mà mức độ khó có thể khác nhau, nhưng tôi cũng không thấy nó đặc biệt đột phá. Nếu có nhân viên Google nào đọc được và cảm thấy buồn thì tôi nghĩ vấn đề không nằm ở cá nhân các bạn mà là ở chính Google; có lẽ cũng đáng cân nhắc làm những điều thú vị ở nơi khác.

  • Tôi chợt nhớ đến một ví dụ thú vị từng xem trên B1M: hồ bơi Olympic ở Paris được làm ấm bằng nhiệt từ Internet: video YouTube

  • Thỉnh thoảng tôi thấy người ta nói AI đang lãng phí nước; tôi tò mò không biết trường hợp này có như vậy không. Có ai biết liệu CDU có dùng nước trong cơ sở cho làm mát bay hơi hay không?

    • CDU được lắp trong trung tâm dữ liệu và chỉ truyền nhiệt từ coolant của rack sang coolant của cơ sở. Ở ngoài trời sẽ có thiết bị trao đổi nhiệt, và trong quá trình đó người ta thường phun nước lên cooling tower để làm mát bay hơi. Mỗi trung tâm dữ liệu có thể khác nhau, nhưng làm mát ở cấp facility thì chỗ nào cũng có. Tôi thấy các tranh luận kiểu AI đang lãng phí nước cũng hơi gây mệt mỏi; nước chỉ được di chuyển đến vị trí hiệu quả trong một hệ tuần hoàn mà thôi. Nếu chi phí liên quan đến nước và các ngoại tác được phản ánh đúng trong thị trường thì tranh luận đó sẽ có ý nghĩa hơn. Ở Mỹ, vấn đề là giá nước, quyền sử dụng nước và giá trị sử dụng thực tế của nước chưa thực sự gắn với nhau.
    • AWS cũng vừa có một bài tương tự: bài viết về làm mát bằng chất lỏng tại trung tâm dữ liệu AWS. Nhưng tôi vẫn chưa thấy ví dụ nào giải thích rõ họ làm nguội lượng nước nóng thải ra rồi tái sử dụng bằng cách nào; đó mới là phần tôi tò mò nhất.
    • Hầu như tôi chưa thấy con số cụ thể hay cuộc thảo luận rõ ràng nào về việc AI sử dụng nước; chỉ toàn kiểu nói mơ hồ như xe cộ dùng đường. Cách nói đó tạo cảm giác như nước đang thật sự bị lãng phí, nhưng nếu có dữ liệu rõ ràng thì hẳn người ta đã không phải ám chỉ mập mờ như vậy. Nếu nước thực sự bị tiêu hao, thì hoặc là nó bị biến thành trạng thái không còn dùng làm nước uống được, hoặc bốc hơi mất, hoặc bị kẹt trong bùn/sludge và không thể thu hồi. Tôi muốn biết liệu những chuyện đó có thật sự đang xảy ra hay không, và liệu nó có phải vấn đề nghiêm trọng thật không. Việc cứ có những con số vô nghĩa lan truyền mà không có dữ liệu khiến tôi khá bực.
    • Có bài liên quan đây: vấn đề trung tâm dữ liệu AI ở Texas và lãng phí nước
  • Tôi tò mò về tính kinh tế của làm mát bằng nước. Có phải chip ngày càng đắt nên cần chạy nhanh hơn, vì thế làm mát bằng chất lỏng trở nên có lợi? Hay là do không gian trung tâm dữ liệu quá đắt nên phải tăng mật độ? Hoặc là vì nếu rút ngắn khoảng cách truyền tín hiệu (1 foot = 1 nanosecond) thì hiệu suất tính toán cũng tăng tương ứng?

    • Một phần đáng kể điện năng của cả trung tâm dữ liệu được dùng cho làm mát. Chỉ cần tăng hiệu suất làm mát là tiết kiệm chi phí ngay.
    • Ảnh hưởng của khoảng cách dây dẫn thực ra rất nhỏ. Ngay cả interconnect fabric tốt nhất thì thời gian ping-pong (khứ hồi request/response) cũng vào cỡ 1 microsecond, còn chênh lệch chiều dài ở mức foot chỉ khác nhau vài chục nanosecond. Ngay cả khi tăng gấp đôi mật độ trong một cụm lớn thì độ trễ tín hiệu khứ hồi cũng chỉ tăng khoảng 60 nanosecond (chưa tới 6% của tổng 1 microsecond). Với ứng dụng thực tế thì ảnh hưởng không lớn. Tuy nhiên, khi mật độ tăng thì việc nối trực tiếp nhiều chip hơn bằng backplane hoặc đầu nối đồng sẽ thuận lợi hơn.
    • Trên thực tế thì là sự kết hợp giữa lý do 2 và 3. Chip ngày càng nhỏ hơn nhưng tiêu thụ nhiều điện hơn nên nóng hơn, và vô số quạt lại tiêu tốn thêm điện. Làm mát bằng chất lỏng là làm mát trực tiếp chip→liquid nên giảm được chi phí cho quạt, điều hòa và tuần hoàn phụ trợ. Có thể xem bài liên quan của ServeTheHome: phân tích tác động điện năng của làm mát bằng chất lỏng Supermicro
    • Tôi không rõ với các tác vụ điện toán cổ điển, nhưng với kiểu tính toán thiên về bộ nhớ như TPU thì tôi nghĩ khác biệt về khoảng cách dây dẫn khá quan trọng.
    • Các chip phải được kết nối bằng mạng siêu tốc, nên việc tăng mật độ là quan trọng.
  • Về lý thuyết, người dùng PC cũng có thể cho nước tản nhiệt tuần hoàn qua két nước bồn cầu để mỗi lần xả là làm mát cực hiệu quả. Tương lai chính là đây.

  • Tôi từng thường xuyên làm việc trong các trung tâm dữ liệu giai đoạn 2006~2012, nhiều lần phải ghé vào lúc đêm muộn. Môi trường trung tâm dữ liệu tệ hơn mọi người tưởng. Giá mà hệ thống làm mát yên tĩnh hơn và bớt cực đoan hơn một chút thì tốt biết mấy. Lý do các cổng kết nối thường nằm ở phía sau là vì đó chính là phía hút gió vào. Tôi từng phải sang phía nóng để sưởi ấm tay của mình.