Mở rộng Kubernetes lên 7.500 node

(openai.com)

4 điểm bởi xguru 2021-01-27 | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI chia sẻ kinh nghiệm mở rộng k8s để phục vụ GPT-3, DALL·E, v.v.
Thông thường không mở rộng một cụm đơn lẻ lên tới 7.500 node, nên cần quản lý đặc biệt, nhưng đổi lại có được cấu trúc hạ tầng đơn giản và có thể mở rộng thuận tiện mà không cần thay đổi mã
Môi trường ứng dụng/phần cứng có phần khác với môi trường của các công ty thông thường

→ GPU phải sử dụng toàn bộ phần cứng của node thông qua NVLink/GPUDirect, v.v.

→ Vì vậy thường một Pod sẽ chiếm trọn cả node

→ Tức là số lượng node nhiều nhưng gánh nặng lên scheduler lại tương đối thấp

→ Do số lượng pod/node tăng lên nên đã chuyển sang Native Pod Networking

→ Chuyển sang xử lý địa chỉ IP dựa trên alias nên có thể sử dụng 200.000 IP bất cứ lúc nào

→ Sử dụng dashboard Grafana do kube-prometheus cung cấp

→ Hữu ích khi cảnh báo HTTP 429 (Too Many Requests) và 5xx (Server Error) như các tín hiệu vấn đề ở cấp độ cao

→ API server luôn chạy bên ngoài cụm

1 bình luận

xguru 2021-01-27

Bài khá dài.. nhưng có lẽ sẽ không có dịp phải cấu hình một cụm ở quy mô như thế này nên tôi chỉ chuyển ngắn gọn thôi.