Xây dựng hạ tầng GenAI của Meta

(engineering.fb.com)

4 điểm bởi GN⁺ 2024-03-13 | 1 bình luận | Chia sẻ qua WhatsApp

Meta công bố hai cụm GPU 24.576 chiếc như một phần trong khoản đầu tư trọng yếu cho tương lai của AI
- Chia sẻ chi tiết về phần cứng, mạng, lưu trữ, thiết kế, hiệu năng và phần mềm
- Thiết kế cụm này được sử dụng để huấn luyện Llama 3
Meta cam kết với open compute và mã nguồn mở
- Xây dựng các cụm này dựa trên Grand Teton, OpenRack và PyTorch, đồng thời tiếp tục thúc đẩy đổi mới mở trên toàn ngành
Thông báo lần này là một bước trong lộ trình hạ tầng đầy tham vọng
- Đặt mục tiêu tiếp tục mở rộng hạ tầng, bao gồm 350.000 GPU NVIDIA H100 như một phần của danh mục có năng lực tính toán tương đương gần 600.000 H100 vào cuối năm 2024

Góc nhìn về các cụm AI quy mô lớn của Meta

Tầm nhìn dài hạn của Meta là tạo ra trí tuệ nhân tạo tổng quát (AGI) được xây dựng theo hướng mở và có trách nhiệm để mọi người đều có thể hưởng lợi
Tiến bộ hướng tới AGI sẽ tạo ra sản phẩm mới, các tính năng AI mới trong ứng dụng và những thiết bị điện toán mới lấy AI làm trung tâm
Meta có lịch sử lâu dài trong việc xây dựng hạ tầng AI, và vào năm 2022 đã lần đầu chia sẻ chi tiết về Research SuperCluster (RSC) dành cho nghiên cứu AI với 16.000 GPU NVIDIA A100

Cấu trúc bên trong

Các cụm AI mới được xây dựng dựa trên thành công và bài học rút ra từ RSC
Tập trung vào trải nghiệm và năng suất của nhà nghiên cứu và nhà phát triển, hỗ trợ các mô hình lớn hơn và phức tạp hơn nhờ hiệu quả của network fabric hiệu năng cao và các quyết định lưu trữ chủ chốt

Mạng

Meta xử lý hàng chục nghìn tỷ lượt thực thi mô hình AI mỗi ngày
Để cung cấp dịch vụ ở quy mô lớn, cần một hạ tầng linh hoạt và phát triển ở mức cao
Meta tự thiết kế phần cứng, phần mềm và network fabric để tối ưu trải nghiệm của các nhà nghiên cứu AI và bảo đảm vận hành hiệu quả cho trung tâm dữ liệu

Tính toán

Hai cụm được xây dựng bằng Grand Teton, nền tảng phần cứng GPU mở do Meta tự thiết kế nội bộ
Grand Teton tích hợp nguồn điện, điều khiển, tính toán và giao diện fabric vào một chassis duy nhất, giúp cải thiện hiệu năng tổng thể, tính toàn vẹn tín hiệu và hiệu năng nhiệt

Lưu trữ

Trong huấn luyện AI, lưu trữ đóng vai trò quan trọng nhưng lại là một trong những khía cạnh ít được nhắc đến nhất
Tối ưu một phiên bản của giải pháp lưu trữ phân tán 'Tectonic' của Meta cho flash media
- Giải quyết các yêu cầu về dữ liệu và checkpointing của cụm AI thông qua API FUSE (Linux Filesystem in Userspace) do họ tự phát triển
- Hàng nghìn GPU có thể lưu và tải checkpoint theo cách đồng bộ, đồng thời cung cấp hệ thống lưu trữ quy mô exabyte linh hoạt và thông lượng cao cần thiết cho việc nạp dữ liệu
Phối hợp với Hammerspace để đồng phát triển triển khai hệ thống tệp mạng song song (NFS)

Hiệu năng

Khi xây dựng các cụm AI quy mô lớn, một nguyên tắc quan trọng là tối đa hóa đồng thời hiệu năng và tính dễ sử dụng
Cách tốt nhất để kiểm tra khả năng mở rộng của thiết kế trong khi vượt qua giới hạn của hệ thống AI là đơn giản xây dựng hệ thống, tối ưu nó và kiểm thử thực tế
Meta kiểm tra khả năng mở rộng của thiết kế bằng cách xây dựng hệ thống, tối ưu và thử nghiệm thực tế
Tiếp tục phát triển PyTorch, framework AI cốt lõi hỗ trợ workload AI, để có thể sẵn sàng cho các bài huấn luyện dùng hàng chục, thậm chí hàng trăm nghìn GPU

Cam kết với đổi mới AI mở

Meta duy trì cam kết với đổi mới mở trong cả phần mềm lẫn phần cứng AI
Với vai trò thành viên sáng lập của OCP, công ty tiếp tục hỗ trợ đổi mới phần cứng mở và cung cấp cho cộng đồng OCP các thiết kế như Grand Teton và Open Rack
Đồng thời cũng là bên đóng góp lớn nhất và chủ chốt cho PyTorch, framework phần mềm AI đang hỗ trợ phần lớn ngành
Phần cứng và phần mềm mã nguồn mở được xem là những công cụ quan trọng giúp giải quyết các vấn đề ở quy mô lớn

Tương lai hạ tầng AI của Meta

Hai thiết kế cụm huấn luyện AI này là một phần trong lộ trình lớn hơn cho tương lai của AI
Meta có kế hoạch tiếp tục mở rộng hạ tầng, bao gồm 350.000 NVIDIA H100 như một phần của danh mục có năng lực tính toán tương đương 600.000 H100 vào cuối năm 2024

Ý kiến của GN⁺

Cụm GPU 24k mà Meta công bố đánh dấu một bước tiến quan trọng trong nghiên cứu và phát triển AI, đặc biệt là cung cấp tài nguyên tính toán mạnh mẽ cần thiết cho việc huấn luyện các mô hình AI quy mô lớn
Hạ tầng như vậy tạo nền tảng để các nhà nghiên cứu phát triển những giải pháp AI đổi mới hơn khi độ phức tạp và quy mô của các mô hình AI tiếp tục tăng lên
Cam kết của Meta với mã nguồn mở và open compute có thể thúc đẩy đổi mới trên toàn ngành, đồng thời giúp các tổ chức khác tận dụng các công nghệ này để phát triển giải pháp AI của riêng họ
Tuy nhiên, các cụm quy mô lớn như vậy cũng cần xem xét tác động môi trường liên quan đến mức tiêu thụ năng lượng khổng lồ, điều này có thể trở thành một yếu tố quan trọng về tính bền vững
Thông báo này của Meta mang lại một góc nhìn thú vị về tương lai của công nghệ AI, đồng thời mở ra cơ hội để suy nghĩ sâu hơn về tác động mà sự phát triển của AI sẽ mang đến cho xã hội và ngành công nghiệp

1 bình luận

GN⁺ 2024-03-13

Ý kiến trên Hacker News

Đề cập đến float8 và mức tăng FLOPs
- float8 đã được đề cập, và vì vậy FLOPs tăng gấp 2 lần.
- xformers hiện hỗ trợ độ thưa 2:4, nên FLOPs có thể tăng thêm 2 lần nữa.
- Llama3 cũng có thể sử dụng float8 và độ thưa 2:4 trong MLP để đạt mức FLOPs gấp 4 lần H100 float16.
- PyTorch đang hỗ trợ fp8 ở mức thử nghiệm, nhưng do vấn đề độ chính xác nên việc chạy attention bằng float8 vẫn còn phức tạp.
- Có lẽ attention sẽ dùng float16, RoPE/layernorms dùng float16/float32, còn mọi thứ khác dùng float8.
So sánh thời kỳ dot-com và thời đại AI
- Một người từng trải qua thời kỳ dot-com cảm thấy hơi nản lòng với thời đại AI vì chi phí vốn khổng lồ để huấn luyện mô hình.
- Ở giai đoạn đầu của thời kỳ dot-com, gần như ai cũng có thể khởi động một trang thương mại điện tử với chi phí hạ tầng tương đối thấp.
- Hiện tại, có vẻ như chỉ những công ty quy mô lớn như Meta, Google, Microsoft và OpenAI mới có thể xây dựng các mô hình AI.
Mối quan hệ giữa sức mạnh tính toán và thời gian kỹ sư
- Có người tò mò rằng nếu Facebook có thể tăng sức mạnh tính toán lên 10 lần thì liệu có cần thiết kế lại toàn bộ stack không, và nếu là 100 lần thì sao.
- Cũng có thắc mắc liệu mỗi lần thiết kế lại như vậy chỉ là thay đổi đơn giản hay là công việc phức tạp hơn rất nhiều.
- Vì hiểu biết kỹ thuật về bên trong cụm máy chủ chỉ ở mức bề mặt, nên họ muốn nghe ý kiến từ người có kinh nghiệm liên quan.
Sự quan tâm đến công việc tối ưu hóa pipeline
- Có câu hỏi về việc nên bắt đầu thế nào nếu muốn tham gia công việc tối ưu hóa pipeline.
- Người ta tò mò liệu đây là kiểu nhà khoa học machine learning có kiến thức C/C++ và hạ tầng rồi "đi xuống" tầng hệ thống khi cần, hay là chuyên gia CUDA/SIMD "đi lên" để làm việc machine learning.
Năng lực kỹ thuật của Meta
- Meta cho thấy thành quả mạnh mẽ trong lĩnh vực kỹ thuật bất chấp các áp lực tiêu cực.
- Có thắc mắc Meta định kiếm tiền từ năng lực kỹ thuật này như thế nào.
Góc nhìn lịch sử về kỹ thuật và hạ tầng
- Có nhắc đến bài báo DLRM cùng các rack disaggregated đời đầu và SDN của Facebook.
- Ngay từ năm 2018, họ đã đặt SSD và DRAM ở các vị trí khác trong rack để chạy hệ thống gợi ý và xếp hạng bằng mạng nơ-ron lớn.
- Có nhắc đến mô hình dự đoán lượt nhấp và sự ngạc nhiên về phương pháp huấn luyện HOGWILD dùng Intel AVX-2.
- Điều này nhấn mạnh rằng Meta vẫn có năng lực hàng đầu trong thiết kế hạ tầng và thiết kế SKU.
Khả năng Meta cạnh tranh ở mảng AI workload
- Có người tò mò liệu Meta có thể cạnh tranh với AWS, MSFT và GOOG trong lĩnh vực AI workload hay không.
Chi phí của GPU H100
- Có ước tính về số tiền Meta phải trả cho GPU H100.
- Nếu mua 350.000 NVIDIA H100 với giá $10k mỗi chiếc thì tổng chi phí sẽ là $3.5b.
Thái độ cởi mở của Meta với đổi mới AI
- Có nhận định rằng Meta đang thể hiện thái độ cởi mở đối với đổi mới AI.
Tầm nhìn dài hạn của Meta và AGI
- Tầm nhìn dài hạn của Meta là xây dựng trí tuệ nhân tạo tổng quát (AGI).

Xây dựng hạ tầng GenAI của Meta

Góc nhìn về các cụm AI quy mô lớn của Meta

Cấu trúc bên trong

Mạng

Tính toán

Lưu trữ

Hiệu năng

Cam kết với đổi mới AI mở

Tương lai hạ tầng AI của Meta

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News