25 điểm bởi xguru 2022-04-25 | 4 bình luận | Chia sẻ qua WhatsApp

Bản cập nhật 2.0 cho bài viết ra mắt năm 2020

Changelog

  • 2 lĩnh vực mới tăng trưởng rất nhanh
    • Các công cụ hỗ trợ những quy trình và workflow dữ liệu cốt lõi như khám phá dữ liệu, quan sát dữ liệu, kiểm toán mô hình ML
    • Các ứng dụng mới như data workspace, reverse ETL, framework ứng dụng ML giúp đội dữ liệu và người dùng nghiệp vụ tạo ra giá trị từ dữ liệu
  • Những phần được bổ sung vào BI
    • Metrics Layer: các công cụ thuần mới như Transfrom, Supergrain. Đồng thời dbt cũng mở rộng sang hướng này
    • Reverse ETL: Hightouch, Census
    • Data Workspace: Hex, Mode, Deepnote
    • Data Discovery & Observability: Monte Carlo, Big Eye huy động được nguồn vốn lớn. Cũng có nhiều công ty ở giai đoạn seed như Select Star, Metaphor, Stemma, Secoda, Castor
  • Những phần được bổ sung vào Multimodal Data Processing
    • Cách tiếp cận với kiến trúc Lakehouse
    • Lớp lưu trữ được nâng cấp: Delta/Iceberg/Hudi được áp dụng và thương mại hóa nhiều hơn
    • Việc áp dụng stream processing đang tăng lên: xử lý dữ liệu phân tích thời gian thực. Materialize/Upsolver
  • Những phần được bổ sung vào AI & ML
    • Đang được hợp nhất theo cách tiếp cận lấy dữ liệu làm trung tâm
      • Gán nhãn dữ liệu: Scale, Labelbox. Mối quan tâm tới Closed-loop Data Engine đang tăng
      • Việc áp dụng feature store tăng lên: Tecton, Feast, Databricks
      • Các giải pháp ML low-code: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • Việc sử dụng mô hình pre-trained đang dần trở thành mặc định, đặc biệt là NLP. OpenAI & Hugging Face
    • MLOps đang trưởng thành hơn, và các use case cùng ngân sách tập trung vào ML Monitoring đang tăng
    • Sự quan tâm cũng đang dồn vào cách tích hợp mô hình ML vào ứng dụng, như API dựng sẵn (OpenAI), vector database (Pinecone) v.v.

Giả thuyết nền tảng dữ liệu

  • Trong 1 năm qua, stack hạ tầng dữ liệu đã chứng kiến các hệ thống cốt lõi và công cụ hỗ trợ lan rộng rất nhanh; để giải thích vì sao điều này xảy ra, bài viết giới thiệu ý tưởng về "nền tảng dữ liệu"
  • Nền tảng là gì?
    • Trong hệ sinh thái dữ liệu, khái niệm "nền tảng" đang bị dùng quá tải. Nó được dùng bởi các đội nội bộ để chỉ toàn bộ tech stack, hoặc bởi các vendor bán bộ sản phẩm liên kết lỏng lẻo
    • Trong phần mềm, nền tảng là thứ cho phép các nhà phát triển khác xây dựng thứ gì đó trên đó
    • Đặc tính định nghĩa một nền tảng, xét theo góc độ công nghiệp, là "sự phụ thuộc lẫn nhau" giữa nhà cung cấp nền tảng có ảnh hưởng (về kỹ thuật lẫn kinh tế) và tập hợp các nhà phát triển bên thứ ba
  • Nền tảng dữ liệu là gì?
    • Trong lịch sử, data stack không phù hợp với định nghĩa về nền tảng
    • Giữa các vendor ETL, data warehouse và reporting có sự phụ thuộc lẫn nhau, nhưng mô hình tích hợp thường nghiêng về 1:1 hơn là 1:nhiều. Chủ yếu được bù đắp bởi các dịch vụ chuyên nghiệp
    • Theo trao đổi với nhiều chuyên gia dữ liệu, điều này có thể đang bắt đầu thay đổi
    • Giả thuyết nền tảng cho rằng phần "backend" của data stack (trải dài từ data ingestion, lưu trữ, xử lý đến transformation) đang bắt đầu được tích hợp bởi một số vendor nền tảng đám mây
    • Kết quả là các bộ dữ liệu khách hàng được thu thập trong một tập hợp hệ thống tiêu chuẩn, và các vendor đang giúp dữ liệu này dễ dàng được các nhà phát triển khác truy cập hơn (thông qua các nguyên tắc thiết kế cốt lõi của Databricks, các API như chuẩn SQL và Snowpark của Snowflake)
    • Tương tự cách các nhà phát triển frontend hưởng lợi từ tích hợp tại một điểm duy nhất, giờ đây họ có thể truy cập dữ liệu đã được tích hợp mà không cần quan tâm đến cấu trúc phía dưới
    • Ngay cả các hệ thống doanh nghiệp truyền thống như tài chính hay phân tích sản phẩm cũng đang bắt đầu được xây dựng lại theo kiến trúc "Warehouse-native"
    • Điều này không có nghĩa là DB OLTP hay các công nghệ backend quan trọng khác sẽ sớm biến mất
    • Nhưng tích hợp native với các hệ thống OLAP có thể trở thành một thành phần cốt lõi của phát triển ứng dụng
    • Ngày càng nhiều logic nghiệp vụ và tính năng ứng dụng có thể chuyển sang mô hình này
  • Sự xuất hiện của các data app?
    • Giả thuyết nền tảng dữ liệu này vẫn còn nhiều điểm cần thảo luận
    • Dù vậy, chúng ta đang thấy các giải pháp SaaS vertical phức tạp tăng lên như một lớp ngang trên các nền tảng dữ liệu
    • Những công ty như Snowflake và Databricks sẽ trở thành các mảnh ghép ổn định của data stack này
      • Nhờ sản phẩm xuất sắc, đội ngũ bán hàng có năng lực và mô hình triển khai ít ma sát
      • Vì khi khách hàng xây dựng hoặc tích hợp ứng dụng dữ liệu trên các hệ thống này, việc chuyển sang thứ khác sẽ không còn hợp lý
    • Việc nhiều sản phẩm hạ tầng dữ liệu đã được tạo ra trong vài năm qua và vẫn tiếp tục xuất hiện có lẽ có liên quan đến nền tảng
    • Giả thuyết nền tảng có sức mạnh giúp dự đoán động lực cạnh tranh
      • Ở quy mô lớn, nền tảng có giá trị cực kỳ cao
      • Các vendor hệ thống dữ liệu cốt lõi có thể đang cạnh tranh quyết liệt không chỉ cho ngân sách hiện tại mà còn để giành vị thế nền tảng dài hạn
    • Mức định giá cao của các công ty data ingestion & transformation, hay trong các mảng Metrics Layer hoặc Reverse ETL, có thể hợp lý hơn nếu coi họ là phần cốt lõi của nền tảng dữ liệu mới
  • Nhìn về phía trước
    • Chúng ta vẫn đang ở giai đoạn đầu trong việc xác định nền tảng dữ liệu phân tích & vận hành, và các mảnh ghép cấu thành nền tảng đó vẫn tiếp tục thay đổi
    • Vì vậy, dùng nó như một phép ẩn dụ có lẽ hữu ích hơn là một định nghĩa cứng nhắc
    • Tuy nhiên, giả thuyết này cũng hữu ích như một công cụ để lọc Signal khỏi Noise và giúp hiểu vì sao thị trường vận động theo cách này
    • Các đội dữ liệu hiện có nhiều công cụ, tài nguyên và động lực tổ chức hơn bất kỳ thời điểm nào kể từ khi DB được phát minh
    • Việc theo dõi xem lớp ứng dụng có tiến hóa trên nền tảng mới này hay không là điều rất đáng hào hứng

4 bình luận

 
sungwoo 2023-01-10

Những video bài giảng trên YouTube mà trước đây anh/chị vẫn đăng cũng sẽ được cập nhật chứ ạ..? ^^;
https://youtube.com/watch/…

Luôn cảm ơn anh/chị~

 
xguru 2023-01-10

Vì từng làm video rồi lại dừng nên giờ càng khó làm tiếp hơn T_T
Chắc là trong thời gian gần sẽ khó có bản cập nhật.

 
sungwoo 2023-01-10

Vâng. Chỉ với những nội dung anh/chị đã đăng trước đó thôi cũng đã giúp ích cho tôi rất nhiều.
Nhân đây xin được gửi lời cảm ơn.

 
xguru 2022-04-25

Đây là phiên bản cập nhật của bài viết Kiến trúc mới cho hạ tầng dữ liệu hiện đại.

Định sắp xếp lại rồi mới đăng, nhưng hóa ra bên Techit cũng đã có bản dịch đầy đủ của bài 2.0 này rồi. Mời xem thêm cùng với bài đó.
Kiến trúc dữ liệu hiện đại và kỷ nguyên của kiến trúc mới