Thiết kế làm mát 45°C giúp giảm gần như về 0 lượng nước sử dụng của trung tâm dữ liệu
(blogs.nvidia.com)- Khi mật độ điện năng của máy chủ AI tăng lên, làm mát đã trở thành nút thắt chính về chi phí và sử dụng nước của trung tâm dữ liệu, và NVIDIA đưa ra thiết kế vận hành chất làm mát ở mức tối đa 45°C trong thế hệ Rubin
- Hạ tầng AI thế hệ Rubin có cấu trúc làm mát bằng chất lỏng 100% làm mát không quạt từ chip đến các thành phần mạng, với vòng kín và dry cooler là trọng tâm
- Trong điều kiện khí hậu thuận lợi, có thể giảm gần như về 0 lượng nước khoảng 2,6 triệu gallon mỗi MW mỗi năm mà các hệ thống truyền thống dựa trên tháp giải nhiệt sử dụng, tương đương tiết kiệm tối đa 100%
- Chất làm mát 45°C hấp thụ nhiệt từ chip và đi ra ở khoảng 55°C nhưng vẫn nằm trong giới hạn vận hành đã được kiểm chứng, nên máy chủ ít phụ thuộc hơn vào không khí lạnh
- Làm mát hoàn toàn bằng chất lỏng giúp giảm quạt, lối đi nóng/lạnh và không gian cho hạ tầng làm mát bằng không khí, đồng thời tăng mật độ rack để giảm gánh nặng chi phí làm mát do nhu cầu điện toán AI tăng lên
Làm mát bằng chất lỏng 100% của thế hệ Rubin
- Các máy chủ AI mới nhất của NVIDIA có thể vận hành chất làm mát ở mức tối đa 45°C, tức 113°F
- Hạ tầng AI NVIDIA thế hệ Rubin đạt được làm mát bằng chất lỏng 100% cho mọi chip và thành phần mạng
- Không có quạt ở bất kỳ đâu trong hệ thống
- Việc làm mát diễn ra trong một vòng kín
- Cách tiếp cận này được đưa vào thiết kế tham chiếu nhà máy AI NVIDIA DSX, nơi tập hợp các thực tiễn tốt nhất về thiết kế, xây dựng và vận hành của ngăn xếp hạ tầng AI factory
- Trong khi mỗi thế hệ đều nâng hiệu năng tính toán trên mỗi watt, hạ tầng tính toán AI làm mát hoàn toàn bằng chất lỏng có thể giảm mạnh mức tiêu thụ năng lượng cho làm mát của các trung tâm dữ liệu hyperscale
Cấu trúc giúp giảm sử dụng nước và điện
- Thiết kế tham chiếu AI factory NVIDIA DSX hướng tới mục tiêu 0 tiêu thụ nước, theo hướng cắt giảm mức dùng điện lớn và gần như toàn bộ lượng nước sử dụng
- Thiết kế dựa trên dry cooler là hệ thống vòng kín nên không dùng làm mát nước bay hơi
- Ở một số khí hậu, chiller có thể chỉ cần hoạt động khoảng 1% thời gian trong năm
- Trong lịch sử, làm mát đã chiếm tới 40% điện năng tiêu thụ của trung tâm dữ liệu
- Theo ước tính của ngành, tăng nhiệt độ của hệ thống chiller thêm 1°C có thể giảm khoảng 4% chi phí năng lượng làm mát
- Một cơ sở hyperscale cỡ 50MW có thể tiết kiệm hơn 4 triệu USD mỗi năm chi phí năng lượng và nước liên quan đến làm mát khi chuyển sang hạ tầng làm mát bằng chất lỏng
- Trong khí hậu thuận lợi, kiến trúc làm mát bằng chất lỏng 45°C cho phép vận hành không cần chiller và có thể đưa mức sử dụng nước khoảng 2,6 triệu gallon mỗi MW mỗi năm của hệ thống truyền thống dựa trên tháp giải nhiệt xuống gần như bằng 0
Trung tâm dữ liệu lạnh không phải lúc nào cũng hiệu quả
- Trong ngành từ lâu đã tồn tại nhận thức rằng trung tâm dữ liệu lạnh là hiệu quả
- Thực tế, chip có thể hoạt động trong môi trường ấm hơn nhiều so với trực giác
- Khi chất làm mát 45°C đi vào chip làm mát hoàn toàn bằng chất lỏng, nó hấp thụ nhiệt ở bề mặt chip và đi ra ở khoảng 55°C
- Ngay cả trong quá trình này, hiệu năng cũng không bị suy giảm
- Cold plate làm mát bằng chất lỏng giữ nhiệt độ thiết bị trong giới hạn vận hành đã được kiểm chứng
- Dù chất làm mát đi vào rack ở mức 45°C, bộ xử lý vẫn tiếp tục hoạt động ở hiệu năng tối đa
- Vì máy chủ không phụ thuộc vào không khí lạnh, nhiệt độ không khí xung quanh trong trung tâm dữ liệu có thể được thiết lập linh hoạt hơn
Cấu trúc máy chủ với ít quạt và ít lối đi nóng/lạnh hơn
- Trung tâm dữ liệu truyền thống phụ thuộc nhiều vào tiếng ồn của quạt và việc quản lý lối đi nóng/lạnh
- Quạt làm mát có thể đẩy tổng độ ồn lên trên 85dB
- Đây là mức lớn đến mức cần thiết bị bảo vệ tai
- Kiến trúc Rubin chuyển trọng tâm làm mát từ luồng không khí sang vòng chất lỏng
- Chất làm mát gồm 75% nước và 25% propylene glycol
- Chất làm mát này đi qua các cold plate đặt trực tiếp trên bộ xử lý để hấp thụ nhiệt ngay tại nguồn
- Vận hành chất làm mát ở mức tối đa 45°C cho phép vòng làm mát của cơ sở thải nhiệt mà không cần chiller cơ học và quạt ồn trong nhiều kiểu khí hậu
- Ở những khu vực phù hợp, thiết bị phân phối làm mát thu nhiệt tại nguồn và chuyển đến dry cooler dưới dạng các cuộn tản nhiệt lớn bên ngoài tòa nhà
- Vòng tuần hoàn được nạp đầy một lần rồi vận hành kín trong suốt vòng đời cơ sở
- Không gian mà nó chiếm trong AI factory giảm đáng kể so với hạ tầng làm mát bằng không khí truyền thống
Điều kiện khí hậu và tận dụng nhiệt thải
- Điều kiện địa lý là một ràng buộc quan trọng
- Trung tâm dữ liệu ở Scottish Highlands và trung tâm dữ liệu ở Phoenix, Arizona có thực tế làm mát khác nhau
- Ngay cả ở khí hậu ấm, chất làm mát 45°C cũng giúp tiến gần hơn đến vận hành không cần chiller
- Chiller có thể chỉ bật trong vài ngày cần thiết do nhiệt độ không khí bên ngoài
- Mô hình AI factory mới cũng mở ra khả năng thu hồi nhiệt thải
- Nhiệt dư từ vận hành AI factory có thể được tái sử dụng để sưởi cho các tòa nhà thương mại hoặc nhà ở lân cận
Những thay đổi kỹ thuật để đạt làm mát hoàn toàn bằng chất lỏng
- Các máy chủ làm mát bằng chất lỏng trước đây là cấu trúc lai
- GPU và CPU dùng cold plate
- Phần còn lại của hệ thống dựa vào tản nhiệt dạng fin và làm mát bằng không khí
- Trong máy chủ làm mát hoàn toàn bằng chất lỏng, phương thức làm mát cho các thành phần này phải được thiết kế lại theo nền tảng chất lỏng
- Đội ngũ kỹ thuật nhiệt của NVIDIA đã đơn giản hóa cách cấp chất lỏng cho nhiều chip công suất cao
- Định tuyến chất lỏng tới nhiều chip trên bo mạch bằng một đầu vào và một đầu ra duy nhất
- Từ đó tạo ra kiến trúc làm mát ở cấp tray gọn gàng hơn
- Kiểu dáng máy chủ và mật độ triển khai cũng thay đổi
- Máy chủ Rubin có mặt trước kín, sạch thay cho bezel đục lỗ của máy chủ làm mát bằng không khí
- Máy chủ làm mát hoàn toàn bằng chất lỏng cho phép mật độ rack cao hơn máy chủ làm mát bằng không khí
- Hệ thống trước đây chiếm 6U nay nằm trong 2U, cung cấp nhiều năng lực tính toán hơn trong ít không gian và tiếng ồn hơn
Mở rộng hạ tầng AI và hiệu quả làm mát
- Khối lượng công việc AI không hề nhẹ đi
- Nhu cầu tính toán thúc đẩy việc xây dựng trung tâm dữ liệu đang tăng nhanh hơn gần như mọi hạng mục đầu tư hạ tầng
- Nếu không cải thiện hiệu quả của phương thức làm mát cho tính toán, chi phí năng lượng của các hoạt động AI quy mô lớn sẽ tăng cùng với phần cứng
- Làm mát bằng chất lỏng tới 45°C là công cụ giúp thu hẹp khoảng cách giữa mở rộng phần cứng và chi phí làm mát
1 bình luận
Ý kiến trên Hacker News
Điều kiện “khu vực có không khí ngoài trời mát ổn định” chính là cái bẫy
Nghe như đang nói “hãy xây trung tâm dữ liệu ở nơi lạnh để tiết kiệm tài nguyên làm mát, rồi xả toàn bộ nhiệt thải ra môi trường xung quanh để gây ô nhiễm”
Suýt nữa thì tôi tưởng Nvidia đã làm ra thứ gì đó hay ho
Nhiệt độ thấp, nhiều không gian trống rộng lớn, ít vấn đề môi trường tự nhiên lớn, mà dù có thì cũng không có nhiều người dân để phản đối
Nếu cần thêm nước cho làm mát thì có lẽ cũng có thể dùng đủ từ băng đang tan
Sưởi miễn phí thì chẳng phải rất tuyệt sao
Linus cũng từng dùng nhiệt CPU dư để làm ấm bể bơi
Cốt lõi là đừng sợ hãi mà hãy dùng nó một cách thông minh; AI và trung tâm dữ liệu sẽ còn tồn tại, nên thay vì chống lại thì có thể tận dụng nhiệt thải để tạo doanh thu
Tôi chỉ từng nghe chuyện nhiệt thải của nhà máy điện hạt nhân trở thành vấn đề khi nước làm mát bị xả thẳng ra sông thay vì ra biển
Ví dụ có thể dùng cho sưởi ấm nhà ở
Có một hiệp lực thú vị xuất hiện: sưởi khu vực
45°C là mức thấp, nhưng không phải thấp đến mức không dùng được cho mạng tuần hoàn sưởi khu vực; nếu trung tâm dữ liệu cung cấp nhiệt miễn phí thì đây có thể là một đề nghị khá tốt cho cộng đồng địa phương
Giá trị cộng đồng của một trung tâm dữ liệu gần đó có thể tăng từ gần như bằng 0 lên tới hàng triệu USD mỗi năm
Mùa hè vẫn là vấn đề, nhưng cũng có thể có những lời giải thú vị
Nếu điều kiện địa chất phù hợp, có vẻ có thể làm nóng không gian ngầm vào mùa hè rồi thu hồi lại một phần nhiệt đó vào mùa đông
Ở nhiều vùng khí hậu, trừ khi người ta dùng giếng trời một cách ngớ ngẩn, chi phí sưởi hằng năm lớn hơn rất nhiều so với chi phí làm mát [0]
[0] Tính gần đúng thì tải sưởi/làm mát do dẫn nhiệt và trao đổi không khí tỷ lệ với chênh lệch nhiệt độ trong nhà và ngoài trời
Nhiệt độ ngoài trời mùa đông từ -10°F đến 30°F không phải là hiếm, tức chênh lệch 40~80°F so với mức 70°F trong nhà
Trong khi đó, ở các vùng khí hậu kiểu này, nhiệt độ ngoài trời mùa hè hiếm khi vượt 95°F và thường còn thấp hơn, nên chênh lệch cho làm mát chỉ ở mức 15~25°F
Bơm nhiệt cũng hiệu quả hơn khi chênh lệch nhiệt độ nhỏ hơn
Sưởi bức xạ lại là một câu chuyện hoàn toàn khác
Các công trình mới xây thường có xu hướng dùng bơm nhiệt [1]
Trung tâm dữ liệu 75MW ở Mäntsälä trong 10 năm qua đã cung cấp 2/3 nhu cầu sưởi của thị trấn, tương đương cho 2.500 hộ gia đình [2]
Bơm nhiệt thực sự rất ấn tượng
Lưu trữ nhiệt theo mùa cũng là công nghệ đã được sử dụng; gần Espoo có kho lưu trữ quy mô hàng chục GWh, và một kho hang động mới dung lượng 90GWh cũng đang được triển khai
Tôi không rõ các hệ thống này có được kết nối với nhau hay không
Cũng thú vị khi bài báo nói rằng bài toán kỹ thuật này trước đây chưa từng được giải quyết
Google là bên tiên phong trong việc cho chip chạy nóng hơn trước, và làm mát bằng chất lỏng cũng đã có từ lâu trên PC tiêu dùng
Ít nhất cũng phải 30 năm rồi
Điểm có vẻ mới là họ gắn tất cả chip vào mạch tuần hoàn, nhưng tôi không tìm thấy họ xử lý PSU thế nào
Và nó có thể quay về với cấu trúc ở mức dưới 45°C
Rất có thể phần lớn trung tâm dữ liệu ở Bắc bán cầu có mùa đông lạnh cũng vậy
Có thể là tôi đã bỏ sót điều gì đó, nhưng tôi không thật sự hiểu đột phá ở đây là gì
Tôi hiểu là họ dùng chất lỏng làm mát ở nhiệt độ cao hơn bình thường, nhưng không rõ vì sao trước đây lại không làm được
Bài viết chủ yếu so sánh với các trung tâm dữ liệu làm mát bằng không khí, vậy nếu so với các trung tâm dữ liệu làm mát bằng nước khác thì thế nào
Trong các thiết kế trung tâm dữ liệu trước đây, hẳn cũng đã có người tính toán nhiệt độ vận hành cần thiết, mức tiêu thụ năng lượng, lượng nhiệt phát sinh, v.v.
Chỉnh sửa: tôi vừa thấy đoạn này
“Các máy chủ làm mát bằng nước trước đây là loại lai. GPU và CPU có gắn cold plate, nhưng phần còn lại của hệ thống vẫn làm mát bằng không khí, với các bộ tản nhiệt có cánh được thiết kế để thoát nhiệt nhờ luồng không khí chuyển động. Với máy chủ làm mát hoàn toàn bằng nước, các thành phần này phải được thiết kế lại hoàn toàn theo hướng làm mát bằng chất lỏng.”
Còn lại thì mang tính marketing nhiều hơn
Siêu máy tính Cray đã dùng làm mát bằng chất lỏng từ những năm 1980, với chất lỏng trơ chảy khắp toàn bộ bo mạch
Tăng thêm một chút từ đó có thể không quá hấp dẫn, nhưng vẫn có thể xem là một đổi mới
Có một sự đánh đổi giữa chi phí làm mát với tỷ lệ hỏng hóc và chi phí đầu tư cơ sở vật chất
Những linh kiện này rất dễ nóng vượt 100°C, nên để vòng tuần hoàn giữ ổn định ở 55°C thì phải xử lý rất nhiều vấn đề
Đột phá có thể nằm ở việc kiểm soát nhiệt độ bằng cách bơm nước làm mát qua nhiều phần khác nhau của trung tâm dữ liệu nhanh đến mức nào và với lưu lượng bao nhiêu
Tất nhiên cũng bao gồm cả việc thiết kế lại mọi linh kiện để tương thích với kiến trúc không quạt
Có vẻ đây là điều chỉ khả thi vì Nvidia hiện nay tích hợp theo chiều dọc hơn rất nhiều so với trước
Thế nhưng cách làm hiện đại lại dường như đã bị cố định theo hướng dùng nước rồi xả bỏ
Các trung tâm dữ liệu, cũng như những cơ sở công nghiệp khác, có vẻ chỉ việc tìm đến các thành phố, quận, bang cho phép họ muốn làm gì thì làm, rồi vận hành theo cách thuận tiện nhất và dần coi đó là cách duy nhất
Nhiều cộng đồng địa phương đã phản đối và kêu về thiệt hại môi trường nhưng bị phớt lờ, trong khi nếu là thông số kỹ thuật thì có thể lại được chấp nhận
Họ nói “kiến trúc làm mát bằng chất lỏng 45 độ của Nvidia trong khí hậu thuận lợi...”, nhưng dĩ nhiên ngoài Greenland ra thì tôi muốn biết khí hậu thuận lợi là gì
Bài viết nói quá ít về mối tương quan giữa nhiệt độ ngoài trời với hiệu suất và chi phí
Giá mà có ít nhất một lời giải thích sơ bộ
Thời tiết ở Đức cũng có lúc lên khá nóng, nhưng theo phía kỹ thuật thì chỉ khi lên đến khoảng cuối mức 30°C mới cần làm mát chủ động, tức làm mát kiểu điều hòa
Bản thân công nghệ này khá thú vị
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
Để đảm bảo nhiệt độ nước ra là 45°C, nhiệt độ không khí ngoài trời phải vào khoảng 37°C trở xuống
Ở hầu hết khu vực, vào một số thời điểm vẫn sẽ cần tháp giải nhiệt hoặc máy nén, nên vẫn phải xây đủ hạ tầng liên quan
Dù vậy, chỉ riêng việc giảm mức sử dụng cũng đã có thể tiết kiệm rất nhiều nước hoặc năng lượng
Ví dụ, vùng ven London có thể được xem là khá ôn hòa, nhưng chỉ riêng tuần này thôi cũng rất có thể đã cần làm mát bổ sung
Với các trung tâm dữ liệu ở đây, hệ thống làm mát được thiết kế để chịu được nhiệt độ ngoài trời vượt 40°C, và con số đó giờ không còn là giả định quá thận trọng nữa
Ngoài ra, dù Nvidia có thể hài lòng với mức cấp nước 45°C, phần cứng vẫn có khả năng bền hơn nếu chạy ở nhiệt độ thấp hơn như 35°C
GPU rất đắt, và kéo dài tuổi thọ của chúng có thể đáng giá hơn việc tốn thêm một ít nước hoặc năng lượng
Trên thực tế, rất có thể bên cạnh thiết bị tính toán AI còn có các hệ thống làm mát bằng không khí như máy chủ lưu trữ, thiết bị tính toán CPU bổ sung và switch mạng
Vì vậy có thể vẫn cần không gian riêng và hệ thống làm mát riêng cho chúng
Dù sao thì đây vẫn là một bước tiến lớn
Đọc xong tôi vẫn không hiểu vì sao đây lại là một bước đột phá
Nó trông giống hệt một vòng tuần hoàn làm mát kín vốn đã có trong hầu hết các ứng dụng làm mát thương mại và công nghiệp
Bài viết nói rằng trong khí hậu phù hợp, có thể đặt bộ tản nhiệt bên ngoài để thải nhiệt từ vòng tuần hoàn nước/glycol
Vậy điều đó chẳng phải có nghĩa là ở những nơi không phải Bắc Cực thì vẫn cần một vòng tuần hoàn ngưng tụ sao
Tôi đang bỏ sót điều gì à
Cơ sở Modular Supercomputing Facility của NASA Ames Research Center rất hiệu quả về mặt điện năng và nước sử dụng
Cơ sở này không dùng điều hòa không khí
Các chip được làm mát bằng nước, và theo tôi biết thì nhiệt độ nước vào cũng khá cao, có lẽ khoảng 90 độ F
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
Chẳng phải quân đội Mỹ và NASA giờ cũng dùng hệ mét rồi sao
Tóm tắt cho những ai thất vọng vì bài viết kiểu AI tệ hại này: đây là câu chuyện về thiết kế trung tâm dữ liệu làm mát hoàn toàn bằng chất lỏng
Cách làm mát máy chủ thông thường là gắn bộ tản nhiệt lên phần cứng nóng và làm mát bằng không khí, giống như desktop hay laptop
Phần cứng càng dày đặc và mạnh hơn thì càng cần bộ tản nhiệt lớn hơn và luồng không khí lạnh hơn
Đến một lúc nào đó, do giới hạn không gian, không thể tăng kích thước bộ tản nhiệt thêm nữa, và vì tiếng ồn cùng hiệu suất, cũng không thể thổi không khí nhanh hơn mãi
Khi đó người ta sẽ vận hành thiết bị làm mát dùng bay hơi nước để hạ nhiệt cho không khí đầu vào
Chính ở đây phát sinh mức tiêu thụ nước khổng lồ mà chúng ta muốn tránh
Bước tiếp theo hiển nhiên là làm mát bằng chất lỏng
Cái này cũng tương tự desktop gaming cao cấp
Bên trong nơi không gian hạn chế, nhiệt được truyền rất nhiều sang môi chất lỏng qua bộ trao đổi nhiệt nhỏ, còn ở bên ngoài thì có thể thải nhiệt bằng bộ trao đổi nhiệt khổng lồ ngay cả khi chênh lệch nhiệt độ giữa nước làm mát và không khí ngoài trời là nhỏ
Bài này nói về một hệ thống làm mát hoàn toàn bằng chất lỏng cho toàn bộ CPU, GPU, bộ nhớ và cả mạng
Đó mới là phần thật sự ấn tượng
Ngoài ra, giải pháp này còn được tối ưu để có thể vận hành nước làm mát ở nhiệt độ khá ấm
Điều này hạn chế mật độ dòng nhiệt ở phía phần cứng, nhưng đổi lại cho phép vận hành bộ trao đổi nhiệt bên ngoài theo kiểu “khô”, nhờ đó không phải lãng phí nhiệt ẩn của nước
So với nhiều mục đích sử dụng khác, lượng nước mà trung tâm dữ liệu dùng vốn đã gần như bằng 0
Lúc nào cũng thấy chán nản khi người ta đổ rất nhiều công sức vào việc “giải quyết vấn đề”, kèm chiến dịch quảng bá rầm rộ, trong khi bản chất từ đầu đã gần như chỉ là vấn đề PR hay hình ảnh
Vì sao lại là 45°C, và vì sao lại là làm mát bằng nước
Cảm giác như việc thiết kế mọi thứ quanh mức nhiệt phòng hoặc không khí hơi mát là một lựa chọn kỳ quặc
Vốn dĩ đã ở khoảng 290K~300K rồi, vậy giờ chẳng phải là đang nói nó vẫn chạy tốt ở 320K hay 330K sao
Tôi từng thắc mắc vì sao không đơn giản thiết kế để nó hoạt động ở gần 200°C rồi dùng làm mát tự do bằng cách đẩy không khí môi trường vào
Vì sao trung tâm dữ liệu lại không trông như chuồng gà
Có thứ gì đó bị nóng chảy à
Hay ở nhiệt độ cao thì phát sinh nhiều kiểu lỗi khác hơn
Chỉ cần thêm một chút năng lượng là chúng có thể chuyển từ chất cách điện thành chất dẫn điện
Ngược lại, chất cách điện tốt thì sẽ cháy hoặc thành plasma trước khi bắt đầu dẫn điện
Năng lượng rốt cuộc vẫn là năng lượng, nên nếu nhiệt môi trường đủ cao thì vì vùng cấm nhỏ, electron có thể bị đẩy lên quỹ đạo cao hơn
Điều này vẫn xảy ra ở nhiệt độ môi trường bình thường, nhưng electron không đi được xa và số lượng cũng không nhiều
Ở 200°C, các cổng đóng không thể ngăn chuyển động của electron đủ tốt
Đó là lý do kỹ thuật được giải thích kiểu phác tay cho dễ hiểu; trên YouTube có video của Project in Flight giải thích khá hay về nguyên lý hoạt động của chất bán dẫn
Đặc tính điện của chất bán dẫn thay đổi rất mạnh theo nhiệt độ
Sẽ cần những con chip hoàn toàn khác và cả quy trình chế tạo hoàn toàn khác