- Meta công bố hai cụm GPU 24.576 chiếc như một phần trong khoản đầu tư trọng yếu cho tương lai của AI
- Chia sẻ chi tiết về phần cứng, mạng, lưu trữ, thiết kế, hiệu năng và phần mềm
- Thiết kế cụm này được sử dụng để huấn luyện Llama 3
- Meta cam kết với open compute và mã nguồn mở
- Xây dựng các cụm này dựa trên Grand Teton, OpenRack và PyTorch, đồng thời tiếp tục thúc đẩy đổi mới mở trên toàn ngành
- Thông báo lần này là một bước trong lộ trình hạ tầng đầy tham vọng
- Đặt mục tiêu tiếp tục mở rộng hạ tầng, bao gồm 350.000 GPU NVIDIA H100 như một phần của danh mục có năng lực tính toán tương đương gần 600.000 H100 vào cuối năm 2024
Góc nhìn về các cụm AI quy mô lớn của Meta
- Tầm nhìn dài hạn của Meta là tạo ra trí tuệ nhân tạo tổng quát (AGI) được xây dựng theo hướng mở và có trách nhiệm để mọi người đều có thể hưởng lợi
- Tiến bộ hướng tới AGI sẽ tạo ra sản phẩm mới, các tính năng AI mới trong ứng dụng và những thiết bị điện toán mới lấy AI làm trung tâm
- Meta có lịch sử lâu dài trong việc xây dựng hạ tầng AI, và vào năm 2022 đã lần đầu chia sẻ chi tiết về Research SuperCluster (RSC) dành cho nghiên cứu AI với 16.000 GPU NVIDIA A100
Cấu trúc bên trong
- Các cụm AI mới được xây dựng dựa trên thành công và bài học rút ra từ RSC
- Tập trung vào trải nghiệm và năng suất của nhà nghiên cứu và nhà phát triển, hỗ trợ các mô hình lớn hơn và phức tạp hơn nhờ hiệu quả của network fabric hiệu năng cao và các quyết định lưu trữ chủ chốt
Mạng
- Meta xử lý hàng chục nghìn tỷ lượt thực thi mô hình AI mỗi ngày
- Để cung cấp dịch vụ ở quy mô lớn, cần một hạ tầng linh hoạt và phát triển ở mức cao
- Meta tự thiết kế phần cứng, phần mềm và network fabric để tối ưu trải nghiệm của các nhà nghiên cứu AI và bảo đảm vận hành hiệu quả cho trung tâm dữ liệu
Tính toán
- Hai cụm được xây dựng bằng Grand Teton, nền tảng phần cứng GPU mở do Meta tự thiết kế nội bộ
- Grand Teton tích hợp nguồn điện, điều khiển, tính toán và giao diện fabric vào một chassis duy nhất, giúp cải thiện hiệu năng tổng thể, tính toàn vẹn tín hiệu và hiệu năng nhiệt
Lưu trữ
- Trong huấn luyện AI, lưu trữ đóng vai trò quan trọng nhưng lại là một trong những khía cạnh ít được nhắc đến nhất
- Tối ưu một phiên bản của giải pháp lưu trữ phân tán 'Tectonic' của Meta cho flash media
- Giải quyết các yêu cầu về dữ liệu và checkpointing của cụm AI thông qua API FUSE (Linux Filesystem in Userspace) do họ tự phát triển
- Hàng nghìn GPU có thể lưu và tải checkpoint theo cách đồng bộ, đồng thời cung cấp hệ thống lưu trữ quy mô exabyte linh hoạt và thông lượng cao cần thiết cho việc nạp dữ liệu
- Phối hợp với Hammerspace để đồng phát triển triển khai hệ thống tệp mạng song song (NFS)
Hiệu năng
- Khi xây dựng các cụm AI quy mô lớn, một nguyên tắc quan trọng là tối đa hóa đồng thời hiệu năng và tính dễ sử dụng
- Cách tốt nhất để kiểm tra khả năng mở rộng của thiết kế trong khi vượt qua giới hạn của hệ thống AI là đơn giản xây dựng hệ thống, tối ưu nó và kiểm thử thực tế
- Meta kiểm tra khả năng mở rộng của thiết kế bằng cách xây dựng hệ thống, tối ưu và thử nghiệm thực tế
- Tiếp tục phát triển PyTorch, framework AI cốt lõi hỗ trợ workload AI, để có thể sẵn sàng cho các bài huấn luyện dùng hàng chục, thậm chí hàng trăm nghìn GPU
Cam kết với đổi mới AI mở
- Meta duy trì cam kết với đổi mới mở trong cả phần mềm lẫn phần cứng AI
- Với vai trò thành viên sáng lập của OCP, công ty tiếp tục hỗ trợ đổi mới phần cứng mở và cung cấp cho cộng đồng OCP các thiết kế như Grand Teton và Open Rack
- Đồng thời cũng là bên đóng góp lớn nhất và chủ chốt cho PyTorch, framework phần mềm AI đang hỗ trợ phần lớn ngành
- Phần cứng và phần mềm mã nguồn mở được xem là những công cụ quan trọng giúp giải quyết các vấn đề ở quy mô lớn
Tương lai hạ tầng AI của Meta
- Hai thiết kế cụm huấn luyện AI này là một phần trong lộ trình lớn hơn cho tương lai của AI
- Meta có kế hoạch tiếp tục mở rộng hạ tầng, bao gồm 350.000 NVIDIA H100 như một phần của danh mục có năng lực tính toán tương đương 600.000 H100 vào cuối năm 2024
Ý kiến của GN⁺
- Cụm GPU 24k mà Meta công bố đánh dấu một bước tiến quan trọng trong nghiên cứu và phát triển AI, đặc biệt là cung cấp tài nguyên tính toán mạnh mẽ cần thiết cho việc huấn luyện các mô hình AI quy mô lớn
- Hạ tầng như vậy tạo nền tảng để các nhà nghiên cứu phát triển những giải pháp AI đổi mới hơn khi độ phức tạp và quy mô của các mô hình AI tiếp tục tăng lên
- Cam kết của Meta với mã nguồn mở và open compute có thể thúc đẩy đổi mới trên toàn ngành, đồng thời giúp các tổ chức khác tận dụng các công nghệ này để phát triển giải pháp AI của riêng họ
- Tuy nhiên, các cụm quy mô lớn như vậy cũng cần xem xét tác động môi trường liên quan đến mức tiêu thụ năng lượng khổng lồ, điều này có thể trở thành một yếu tố quan trọng về tính bền vững
- Thông báo này của Meta mang lại một góc nhìn thú vị về tương lai của công nghệ AI, đồng thời mở ra cơ hội để suy nghĩ sâu hơn về tác động mà sự phát triển của AI sẽ mang đến cho xã hội và ngành công nghiệp
1 bình luận
Ý kiến trên Hacker News
Đề cập đến float8 và mức tăng FLOPs
So sánh thời kỳ dot-com và thời đại AI
Mối quan hệ giữa sức mạnh tính toán và thời gian kỹ sư
Sự quan tâm đến công việc tối ưu hóa pipeline
Năng lực kỹ thuật của Meta
Góc nhìn lịch sử về kỹ thuật và hạ tầng
Khả năng Meta cạnh tranh ở mảng AI workload
Chi phí của GPU H100
Thái độ cởi mở của Meta với đổi mới AI
Tầm nhìn dài hạn của Meta và AGI