8 điểm bởi xguru 2022-05-25 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Shopify đang sử dụng cho trích xuất dữ liệu, huấn luyện mô hình machine learning, bảo trì bảng Apache Iceberg, mô hình hóa dữ liệu dựa trên DBT, v.v.

  1. Khi dùng cloud storage, việc truy cập tệp có thể chậm
    → Cải thiện hiệu năng bằng GCS + NFS
  2. Khi khối lượng metadata tăng lớn, vận hành Airflow có thể chậm lại
    → Sử dụng chính sách retention và đặt thành 28 ngày
  3. Có thể khó liên kết các DAG với người dùng và đội nhóm
    → Sử dụng kho metadata tập trung
  4. Người viết DAG có quá nhiều quyền hạn
    → Sử dụng DAG policy
  5. Khó đảm bảo cân bằng tải nhất quán
    → Tạo lịch chuẩn hóa để giảm traffic burst
  6. Có nhiều điểm tranh chấp tài nguyên
    → Sử dụng Pools, Priority Weight, Celerey Queue và Isolated Workers

Chưa có bình luận nào.

Chưa có bình luận nào.