4 điểm bởi xguru 2021-01-27 | 1 bình luận | Chia sẻ qua WhatsApp
  • OpenAI chia sẻ kinh nghiệm mở rộng k8s để phục vụ GPT-3, DALL·E, v.v.

  • Thông thường không mở rộng một cụm đơn lẻ lên tới 7.500 node, nên cần quản lý đặc biệt, nhưng đổi lại có được cấu trúc hạ tầng đơn giản và có thể mở rộng thuận tiện mà không cần thay đổi mã

  • Môi trường ứng dụng/phần cứng có phần khác với môi trường của các công ty thông thường

→ GPU phải sử dụng toàn bộ phần cứng của node thông qua NVLink/GPUDirect, v.v.

→ Vì vậy thường một Pod sẽ chiếm trọn cả node

→ Tức là số lượng node nhiều nhưng gánh nặng lên scheduler lại tương đối thấp

  • Mạng

→ Do số lượng pod/node tăng lên nên đã chuyển sang Native Pod Networking

→ Chuyển sang xử lý địa chỉ IP dựa trên alias nên có thể sử dụng 200.000 IP bất cứ lúc nào

  • API Server

→ Sử dụng dashboard Grafana do kube-prometheus cung cấp

→ Hữu ích khi cảnh báo HTTP 429 (Too Many Requests) và 5xx (Server Error) như các tín hiệu vấn đề ở cấp độ cao

→ API server luôn chạy bên ngoài cụm

1 bình luận

 
xguru 2021-01-27

Bài khá dài.. nhưng có lẽ sẽ không có dịp phải cấu hình một cụm ở quy mô như thế này nên tôi chỉ chuyển ngắn gọn thôi.