- Meta cần năng lực tính toán quy mô lớn để huấn luyện mô hình ngôn ngữ lớn (LLM)
- Việc huấn luyện mô hình AI truyền thống từng huấn luyện nhiều mô hình, nhưng chỉ cần số lượng GPU tương đối ít
- Với sự xuất hiện của AI tạo sinh (GenAI), số lượng tác vụ giảm đi nhưng lại cần những tác vụ cực lớn
Thách thức của việc huấn luyện mô hình quy mô lớn
- Độ tin cậy phần cứng: Cần kiểm thử nghiêm ngặt và quản lý chất lượng để giảm thiểu việc gián đoạn huấn luyện do lỗi phần cứng.
- Khôi phục nhanh khi sự cố xảy ra: Khi phần cứng gặp lỗi, hệ thống phải có khả năng phục hồi nhanh. Cần giảm overhead tái lập lịch và nhanh chóng khởi tạo lại quá trình huấn luyện.
- Lưu giữ trạng thái huấn luyện hiệu quả: Khi xảy ra lỗi, cần có khả năng lưu và khôi phục trạng thái huấn luyện một cách hiệu quả.
- Kết nối tối ưu giữa các GPU: Huấn luyện mô hình quy mô lớn phụ thuộc nhiều vào truyền dữ liệu giữa các GPU. Vì vậy cần hạ tầng mạng tốc độ cao và giao thức truyền dữ liệu hiệu quả.
Điều quan trọng là phải cải thiện mọi lớp trong ngăn xếp hạ tầng
Phần mềm huấn luyện
- Hỗ trợ để các nhà nghiên cứu có thể dùng mã nguồn mở như PyTorch và nhanh chóng chuyển từ nghiên cứu sang sản xuất.
- Phát triển các thuật toán và kỹ thuật mới cho huấn luyện quy mô lớn, đồng thời tích hợp các công cụ và framework phần mềm mới.
Lập lịch
- Sử dụng các thuật toán phức tạp để tối ưu tài nguyên, phân bổ tài nguyên theo nhu cầu của tác vụ và lập lịch động.
Phần cứng
- Cần phần cứng hiệu năng cao để xử lý việc huấn luyện mô hình quy mô lớn.
- Tối ưu phần cứng hiện có, đồng thời điều chỉnh nền tảng Grand Teton dùng GPU NVIDIA H100 để tăng TDP của GPU lên 700W và chuyển sang HBM3.
Bố trí trung tâm dữ liệu
- Bố trí tối ưu GPU và hệ thống trong trung tâm dữ liệu để tối ưu các tài nguyên như điện năng, làm mát và mạng.
- Đặt được nhiều rack GPU nhất có thể để đạt mật độ tính toán tối đa.
Độ tin cậy
- Lập kế hoạch phát hiện và khôi phục để giảm thiểu downtime khi phần cứng gặp lỗi.
- Các chế độ lỗi thường gặp: không nhận GPU, UCE của DRAM & SRAM, vấn đề cáp mạng phần cứng.
Mạng
- Cần hạ tầng mạng tốc độ cao và giao thức truyền dữ liệu hiệu quả cho việc huấn luyện mô hình quy mô lớn.
- Xây dựng và vận hành hai cụm mạng RoCE và InfiniBand để tích lũy kinh nghiệm thực tế.
Lưu trữ
- Đầu tư vào công nghệ lưu trữ dung lượng lớn, tốc độ cao để lưu trữ dữ liệu quy mô lớn, đồng thời phát triển các giải pháp lưu trữ dữ liệu mới phù hợp với từng tác vụ cụ thể.
Triển vọng tương lai
- Sẽ sử dụng hàng trăm nghìn GPU để xử lý nhiều dữ liệu hơn và đối phó với khoảng cách xa hơn cùng độ trễ lớn hơn.
- Có kế hoạch áp dụng công nghệ phần cứng mới, kiến trúc GPU mới và tiếp tục phát triển hạ tầng.
- Sẽ tiếp tục khám phá bối cảnh AI đang tiến hóa và nỗ lực vượt qua những giới hạn của điều có thể.
1 bình luận
Ý kiến trên Hacker News