Cách Meta huấn luyện mô hình ngôn ngữ quy mô lớn

(engineering.fb.com)

6 điểm bởi GN⁺ 2024-06-13 | 1 bình luận | Chia sẻ qua WhatsApp

Meta cần năng lực tính toán quy mô lớn để huấn luyện mô hình ngôn ngữ lớn (LLM)
Việc huấn luyện mô hình AI truyền thống từng huấn luyện nhiều mô hình, nhưng chỉ cần số lượng GPU tương đối ít
Với sự xuất hiện của AI tạo sinh (GenAI), số lượng tác vụ giảm đi nhưng lại cần những tác vụ cực lớn

Độ tin cậy phần cứng: Cần kiểm thử nghiêm ngặt và quản lý chất lượng để giảm thiểu việc gián đoạn huấn luyện do lỗi phần cứng.
Khôi phục nhanh khi sự cố xảy ra: Khi phần cứng gặp lỗi, hệ thống phải có khả năng phục hồi nhanh. Cần giảm overhead tái lập lịch và nhanh chóng khởi tạo lại quá trình huấn luyện.
Lưu giữ trạng thái huấn luyện hiệu quả: Khi xảy ra lỗi, cần có khả năng lưu và khôi phục trạng thái huấn luyện một cách hiệu quả.
Kết nối tối ưu giữa các GPU: Huấn luyện mô hình quy mô lớn phụ thuộc nhiều vào truyền dữ liệu giữa các GPU. Vì vậy cần hạ tầng mạng tốc độ cao và giao thức truyền dữ liệu hiệu quả.

Hỗ trợ để các nhà nghiên cứu có thể dùng mã nguồn mở như PyTorch và nhanh chóng chuyển từ nghiên cứu sang sản xuất.
Phát triển các thuật toán và kỹ thuật mới cho huấn luyện quy mô lớn, đồng thời tích hợp các công cụ và framework phần mềm mới.

Sử dụng các thuật toán phức tạp để tối ưu tài nguyên, phân bổ tài nguyên theo nhu cầu của tác vụ và lập lịch động.

Cần phần cứng hiệu năng cao để xử lý việc huấn luyện mô hình quy mô lớn.
Tối ưu phần cứng hiện có, đồng thời điều chỉnh nền tảng Grand Teton dùng GPU NVIDIA H100 để tăng TDP của GPU lên 700W và chuyển sang HBM3.

Bố trí tối ưu GPU và hệ thống trong trung tâm dữ liệu để tối ưu các tài nguyên như điện năng, làm mát và mạng.
Đặt được nhiều rack GPU nhất có thể để đạt mật độ tính toán tối đa.

Lập kế hoạch phát hiện và khôi phục để giảm thiểu downtime khi phần cứng gặp lỗi.
Các chế độ lỗi thường gặp: không nhận GPU, UCE của DRAM & SRAM, vấn đề cáp mạng phần cứng.

Cần hạ tầng mạng tốc độ cao và giao thức truyền dữ liệu hiệu quả cho việc huấn luyện mô hình quy mô lớn.
Xây dựng và vận hành hai cụm mạng RoCE và InfiniBand để tích lũy kinh nghiệm thực tế.

Đầu tư vào công nghệ lưu trữ dung lượng lớn, tốc độ cao để lưu trữ dữ liệu quy mô lớn, đồng thời phát triển các giải pháp lưu trữ dữ liệu mới phù hợp với từng tác vụ cụ thể.

Sẽ sử dụng hàng trăm nghìn GPU để xử lý nhiều dữ liệu hơn và đối phó với khoảng cách xa hơn cùng độ trễ lớn hơn.
Có kế hoạch áp dụng công nghệ phần cứng mới, kiến trúc GPU mới và tiếp tục phát triển hạ tầng.
Sẽ tiếp tục khám phá bối cảnh AI đang tiến hóa và nỗ lực vượt qua những giới hạn của điều có thể.

1 bình luận

GN⁺ 2024-06-13

Vấn đề kết nối GPU: Đề cập đến việc GPU không được nhận diện trên bus PCIe.
Hạ tầng làm mát: Phải thay đổi thiết kế cơ khí và nhiệt trong khi vẫn duy trì môi trường làm mát bằng không khí hiện có.
Hạn chế về thời gian: Hạn chế về thời gian đã ảnh hưởng đến chất lượng tổng thể của mô hình.
Tính năng tìm kiếm của Meta: Có ý kiến cho rằng Meta nên cải thiện tính năng tìm kiếm thay vì huấn luyện một LLM mới.
Phương pháp thu thập dữ liệu: Bày tỏ sự tò mò về cách Meta thu thập và chuẩn bị dữ liệu, đặc biệt là cách xử lý PII (thông tin nhận dạng cá nhân).
Vấn đề chi phí: Nhận xét rằng LLM có thể không thực tế đối với các ứng dụng ngoài đám mây do vấn đề chi phí.
Xây dựng cụm: Nỗ lực xây dựng hai cụm 24k để rút kinh nghiệm vận hành được xem là ấn tượng.
Lập lịch tác vụ: Thiếu thông tin cụ thể về cách lập lịch tác vụ trên các dãy máy quy mô lớn.
Tạo doanh thu: Chưa rõ Meta sẽ tạo doanh thu như thế nào khi triển khai LLM ở quy mô lớn.
Lợi thế AI của Google: Có ý kiến cho rằng Google đang chiếm ưu thế trong lĩnh vực AI nhờ silicon tùy biến.
Tên miền: Thật thú vị khi tên miền của Meta vẫn là engineering.fb.com.