6 điểm bởi GN⁺ 2024-10-18 | 1 bình luận | Chia sẻ qua WhatsApp

Meta công bố các thiết kế phần cứng AI mới nhất tại Open Compute Project (OCP) Global Summit 2024

  • Trình diễn các đổi mới như nền tảng AI mới, thiết kế rack mở tiên tiến, network fabric và các thành phần cao cấp
  • Mục tiêu là khuyến khích hợp tác và thúc đẩy đổi mới bằng cách chia sẻ các thiết kế

Đổi mới mô hình AI và sự phát triển hạ tầng của Meta

  • Trong nhiều năm, Meta đã tối ưu hóa và cải thiện các chức năng như feed và hệ thống quảng cáo thông qua đổi mới trong mô hình AI
  • Khi phát triển và phát hành các mô hình AI mới, tiên tiến hơn, Meta cũng tập trung nâng cấp hạ tầng để hỗ trợ các workload AI mới
  • Ví dụ, để huấn luyện mô hình Llama 3.1 405B, công ty đã thực hiện những tối ưu hóa đáng kể trên toàn bộ training stack, cho phép vận hành trên hơn 16.000 GPU NVIDIA H100
  • Trong năm 2023, Meta đã nhanh chóng mở rộng cụm huấn luyện từ 1K lên 16K GPU, và hiện đang huấn luyện mô hình trên cụm 24K-GPU
  • Lượng năng lực tính toán cần cho huấn luyện AI được dự báo sẽ còn tăng mạnh trong tương lai

Tầm quan trọng của networking và băng thông trong việc xây dựng cụm AI

  • Bên cạnh GPU, networking và băng thông đóng vai trò quan trọng trong việc đảm bảo hiệu năng của cụm
  • Hệ thống của Meta gồm các mạng tính toán băng thông cao kết nối hệ thống điện toán HPC với GPU và các bộ tăng tốc chuyên biệt theo miền
  • Trong tương lai, băng thông injection trên mỗi bộ tăng tốc được dự báo sẽ tăng lên mức terabyte mỗi giây, tương đương mức tăng hơn 10 lần so với mạng hiện nay
  • Để hỗ trợ điều này, cần có network fabric hiệu năng cao, đa tầng, non-blocking để khai thác tối đa tiềm năng của các cụm AI

Bảo đảm khả năng mở rộng AI bằng phần cứng mở

  • Để mở rộng AI với tốc độ này, cần có các giải pháp phần cứng mở
  • Việc phát triển kiến trúc mới, network fabric và thiết kế hệ thống dựa trên nguyên tắc cởi mở là cách hiệu quả và có tác động lớn nhất
  • Đầu tư vào phần cứng mở có thể giúp phát huy tối đa tiềm năng của AI và thúc đẩy đổi mới liên tục trong lĩnh vực này

Giới thiệu kiến trúc mở "Catalina" cho hạ tầng AI

  • Meta đã công bố với cộng đồng OCP kế hoạch ra mắt Catalina, một rack hiệu năng cao dành cho workload AI
  • Catalina dựa trên giải pháp full-rack của nền tảng NVIDIA Blackwell và tập trung vào tính mô-đun cùng sự linh hoạt
  • Nó được thiết kế để hỗ trợ siêu chip NVIDIA GB200 Grace Blackwell mới nhất, đáp ứng nhu cầu ngày càng tăng của hạ tầng AI hiện đại
  • Do nhu cầu điện năng của GPU tăng lên, các giải pháp open rack cần hỗ trợ công suất cao hơn
  • Với Catalina, Meta giới thiệu rack công suất cao Orv3 (HPR) có thể hỗ trợ tối đa 140kW
  • Giải pháp này được làm mát hoàn toàn bằng chất lỏng và gồm nhiều thành phần khác nhau
  • Thiết kế mô-đun của Catalina cho phép tùy biến rack theo từng workload AI cụ thể

Hỗ trợ bộ tăng tốc AMD trên nền tảng Grand Teton

  • Grand Teton là nền tảng AI thế hệ tiếp theo của Meta, được thiết kế để hỗ trợ cả nhu cầu của workload bị ràng buộc bởi băng thông bộ nhớ lẫn workload bị ràng buộc bởi năng lực tính toán
  • Hiện nền tảng Grand Teton đã được mở rộng để hỗ trợ AMD Instinct MI300X, và Meta dự định đóng góp phiên bản mới này cho OCP
  • Cũng như phiên bản trước, Grand Teton có thiết kế hệ thống monolithic đơn, với nguồn điện, điều khiển, tính toán và giao diện fabric được tích hợp hoàn toàn
  • Ngoài việc hỗ trợ nhiều thiết kế bộ tăng tốc như AMD Instinct MI300x, nền tảng này còn cung cấp năng lực tính toán lớn hơn, bộ nhớ mở rộng hơn và băng thông mạng tăng lên

Open Disaggregated Scheduled Fabric (DSF)

  • Để tiếp tục cải thiện hiệu năng của các cụm huấn luyện AI, việc phát triển backend networking mở và trung lập với nhà cung cấp sẽ đóng vai trò quan trọng
  • Tách rời mạng giúp có thể hợp tác với các nhà cung cấp trên toàn ngành để thiết kế các hệ thống đổi mới, có thể mở rộng, linh hoạt và hiệu quả
  • DSF mới của Meta cho cụm AI thế hệ tiếp theo mang lại nhiều ưu điểm so với switch truyền thống
  • DSF được vận hành dựa trên chuẩn OCP-SAI mở và hệ điều hành mạng nội bộ của Meta là FBOSS
  • Nó hỗ trợ giao diện RoCE mở, tiêu chuẩn, dựa trên Ethernet cho endpoint và bộ tăng tốc trên nhiều GPU và NIC từ nhiều nhà cung cấp như NVIDIA, Broadcom và AMD
  • Bên cạnh DSF, Meta cũng đã phát triển và triển khai fabric switch 51T mới dựa trên ASIC của Broadcom và Cisco, đồng thời chia sẻ mô-đun NIC mới mang tên FBNIC với ASIC mạng tự thiết kế đầu tiên của Meta

Hợp tác giữa Meta và Microsoft để thúc đẩy đổi mới mở

  • Meta và Microsoft có quan hệ đối tác lâu năm trong OCP, bắt đầu từ việc phát triển Switch Abstraction Interface (SAI) cho data center vào năm 2018
  • Hai bên đã đóng góp cho các sáng kiến lớn như chuẩn Open Accelerator Module (OAM) và chuẩn hóa SSD
  • Hiện nay, sự hợp tác giữa hai công ty tập trung vào Mount Diablo, một rack nguồn điện tách rời mới
  • Mount Diablo là giải pháp tiên tiến với thiết bị 400VDC có khả năng mở rộng, giúp nâng cao hiệu suất và khả năng mở rộng, từ đó thúc đẩy mạnh mẽ hạ tầng AI

Tương lai mở của hạ tầng AI

  • Meta cam kết với AI mã nguồn mở và tin rằng mã nguồn mở sẽ mang lại lợi ích cũng như cơ hội của AI đến tay mọi người trên toàn thế giới
  • Nếu không có hợp tác, AI sẽ không thể hiện thực hóa được toàn bộ tiềm năng của mình
  • Cần có các framework phần mềm mở để thúc đẩy đổi mới mô hình, bảo đảm tính di động và tăng cường tính minh bạch trong phát triển AI
  • Cần ưu tiên các mô hình mở và được tiêu chuẩn hóa để tận dụng chuyên môn tập thể, giúp AI dễ tiếp cận hơn và giảm thiểu thiên lệch của hệ thống
  • Cũng cần các hệ thống phần cứng AI mở để cung cấp hạ tầng hiệu năng cao, tiết kiệm chi phí và có khả năng thích ứng cho sự phát triển của AI
  • Meta khuyến khích bất kỳ ai muốn đóng góp vào sự phát triển tương lai của các hệ thống phần cứng AI tham gia cộng đồng OCP
  • Cùng nhau giải quyết các yêu cầu hạ tầng của AI có thể hiện thực hóa lời hứa đích thực của AI mở cho tất cả mọi người

Ý kiến của GN⁺

  • Công nghệ mạng mở bao trùm nhiều nhà cung cấp GPU và NIC có thể giúp vượt qua sự phụ thuộc vào vendor, đồng thời tăng khả năng mở rộng và tính linh hoạt của các cụm huấn luyện AI
  • Sự hợp tác giữa Meta và Microsoft có thể đóng vai trò quan trọng trong việc tăng tốc đổi mới hạ tầng AI mở. Dựa trên quan hệ đối tác lâu năm được xây dựng thông qua OCP, có thể kỳ vọng hai công ty sẽ đẩy nhanh việc phát triển các tiêu chuẩn và giải pháp mới
  • Sự ủng hộ mạnh mẽ của Meta dành cho AI mã nguồn mở là điều đáng khích lệ. Mã nguồn mở chính là con đường để dân chủ hóa tiềm năng của AI và mở rộng cơ hội AI trong toàn xã hội
  • Trong quá trình xây dựng hạ tầng AI mở, các yếu tố như tính minh bạch, khả năng giải thích và các cân nhắc đạo đức cũng cần được xử lý song song. Việc xây dựng niềm tin xã hội đối với AI quan trọng không kém tiến bộ công nghệ
  • Để hệ sinh thái phần cứng và phần mềm AI cùng phát triển, ngoài hợp tác trong toàn ngành còn cần sự tham gia của nhiều bên liên quan như giới học thuật và nhà hoạch định chính sách. Hy vọng OCP sẽ trở thành nền tảng cốt lõi cho điều này

1 bình luận

 
GN⁺ 2024-10-18
Ý kiến trên Hacker News
  • Có ý kiến xem cuộc cạnh tranh giữa OpenAI và Meta AI như cuộc cạnh tranh nền tảng kiểu macOS vs Windows, iOS vs Android

    • Quan sát rằng Meta có xu hướng mở nền tảng để giành thị phần
    • Đặt câu hỏi liệu Meta có tiếp tục giữ nền tảng mở nếu họ chiến thắng hay không
  • Zuckerberg và Facebook nhận nhiều chỉ trích, nhưng vẫn đầu tư mạnh vào kỹ thuật và mã nguồn mở

  • Meta đã sử dụng hơn 16.000 GPU NVIDIA H100 để huấn luyện mô hình Llama 3.1 405B, cho thấy mức đầu tư rất lớn

    • Đề cập rằng giá cổ phiếu của Meta đã tăng mạnh sau khi phát hành mô hình mã nguồn mở
  • Có ý kiến cho rằng LLM mã nguồn mở của Meta sẽ hấp dẫn với rất nhiều người dùng

    • OpenAI và Anthropic có thể sẽ thảo luận về các mô hình mở
  • Có người thắc mắc liệu Meta, Microsoft và OpenAI có thể hợp tác về thiết kế chip mở để cạnh tranh với NVIDIA hay không

  • Đề cập khả năng Meta xây dựng các trung tâm dữ liệu AI cạnh các địa điểm sản xuất năng lượng như nhà máy điện nhiệt hạch

    • Trích dẫn ý kiến của Yann LeCun để giải thích rằng việc sử dụng điện bền vững với chi phí thấp là một lợi thế
  • Đặt câu hỏi liệu Meta, sau OpenAI, có đang nhắm tới NVIDIA hay không

  • Nhận xét rằng khái niệm "Open" giờ đã trở thành một meme