3 điểm bởi xguru 2020-02-18 | 2 bình luận | Chia sẻ qua WhatsApp

Cách Here Mobility xây dựng Database CI/CD dành cho các kỹ sư dữ liệu và nhà phân tích.

  • Trước đây, nhóm phân tích đưa dữ liệu từ data lake trên S3 vào RedShift bằng PySpark ETL. Các script SQL phục vụ việc này cũng thuộc phạm vi quản lý của nhóm phân tích

  • Mã PySpark không có vấn đề vì đi theo quy trình CI/CD của ứng dụng, nhưng mã SQL cho RedShift lại khó kiểm thử/lập phiên bản/theo dõi

  • Đã phát triển redCI, một công cụ CI/CD chuyên cho RedShift, có hỗ trợ version control, validation mã, tích hợp vào pipeline Jenkins và tự động triển khai lên RedShift

  • redCI - có thể kết nối tới Redshift và Postgres bằng mã Python, đọc và thực thi các file script tương thích PSQL. Chuyển đổi cú pháp Redshift sang PSQL. Nhờ đó có thể chạy unit test

  • Vấn đề phát sinh khi triển khai thực tế: RedShift dựa trên Postgres 8, nhưng các hàm được hỗ trợ khác nhau nên có thể gây lỗi; điều này được giải quyết bằng cách chuyển đổi rồi chạy thử trên Postgres khởi chạy bằng Docker.

2 bình luận

 
xguru 2020-02-18

Here trước đây là Navteq, sau đó được Nokia mua lại, và hiện nay là công ty dịch vụ bản đồ/thông tin vị trí đã được liên minh Audi/BMW/Daimler AG của Đức thâu tóm.

 
xguru 2020-02-18

Sẽ rất hay nếu họ mở mã nguồn chính bản thân redCI, nhưng có vẻ vẫn chưa đến mức đó.