15 điểm bởi xguru 2021-02-02 | 2 bình luận | Chia sẻ qua WhatsApp
  1. Sự hợp nhất giữa data lake và data warehouse, Data Lakehouse

  2. "Ngăn xếp dữ liệu hiện đại" trở thành xu hướng chủ đạo: tích hợp các công cụ chính dựa trên đám mây

→ Data Ingestion : Fivetran, Stitch, Hevodata

→ Data Warehouse : Snowflake, BigQuery

→ Data Lake : Amazon S3

→ Data Lake Processing : Presto, Dremio, Databricks, Starburst

→ Data Transformation : dbt, Matillion

→ Metadata Management : Atlan

→ BI Tools : Looker

  1. Metadata 3.0: sự tái sinh của quản lý metadata

→ Các công cụ để xử lý data discovery, data catalog, data lineage, observability... sẽ nổi lên

  1. Sự xuất hiện của các nghề nghiệp mới

→ Data Platform Leader : người lãnh đạo giúp áp dụng nền tảng dữ liệu vào công việc trong tổ chức

→ Analytics Engineer : với sự xuất hiện của các công cụ như dbt, kỹ sư phân tích có thể không chỉ phân tích mà còn vận hành ngăn xếp dữ liệu

  1. Sự nổi lên của các framework chất lượng dữ liệu

→ Data profiling : rà soát dữ liệu, kiểm tra chất lượng, xác định cách sử dụng trong tương lai

→ Định nghĩa các quy tắc chất lượng dữ liệu theo hướng kinh doanh

→ Áp dụng kiểm thử chất lượng trên data pipeline : Amazon Deequ, Great Expectations

2 bình luận

 
xguru 2021-02-02

Mục 2 về "modern data stack", hãy tham khảo series "Tìm hiểu hạ tầng dữ liệu hiện đại" trên YouTube của GeekNews ;)

https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

Có vẻ mục 3 và 5 cũng sẽ được đề cập ở phần sau của series.

 
kwangyeol 2021-02-06

Mỗi khi loạt bài "Hiểu về hạ tầng dữ liệu hiện đại" được đăng, tôi đều đọc rất kỹ.

Vì hằng ngày chỉ dùng những thứ mình vẫn dùng nên rất khó tiếp cận các xu hướng mới, cảm ơn vì anh/chị đã giải thích rất rõ ràng.