8 điểm bởi GN⁺ 2025-04-01 | 2 bình luận | Chia sẻ qua WhatsApp
  • Hạ tầng dữ liệu của doanh nghiệp đang cùng tiến hóa theo đà phát triển công nghệ, qua đó mở ra các sản phẩm và dịch vụ mới
  • Hạ tầng dữ liệu đã phát triển từ kho dữ liệu on-premise truyền thống sang kho dữ liệu trên nền tảng đám mây và data lake
  • Gần đây, cùng với sự phát triển bùng nổ của AI, một kiến trúc mới là data lakehouse đang nổi lên, đưa chúng ta bước vào kỷ nguyên Data 3.0
  • Lakehouse là một nền tảng hợp nhất hiệu năng cao, có khả năng tương tác, hỗ trợ nhiều mục đích sử dụng như phân tích và workload AI, qua đó tái định hình cốt lõi của hạ tầng dữ liệu doanh nghiệp
  • Vì vậy, khả năng xuất hiện các công ty hạ tầng dữ liệu mới trị giá hàng chục tỷ USD đang ngày càng cao

Bối cảnh của cuộc cách mạng lakehouse

  • Từ năm 2019 đến 2024, quy mô đầu tư vào hạ tầng dữ liệu doanh nghiệp đã tăng gấp đôi, từ khoảng 180 tỷ USD lên 350 tỷ USD
  • Data warehouse và data lake truyền thống không còn đáp ứng đầy đủ các yêu cầu của AI
  • Workload lấy AI làm trung tâm có các yêu cầu sau:
    • Phải xử lý được cả dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc
    • Phải hỗ trợ xử lý dữ liệu thời gian thực, đa phương thức và có thể kết hợp linh hoạt
    • Cần khả năng tương tác giữa cơ sở dữ liệu hiện có và cơ sở dữ liệu vector
  • Sự thay đổi trong nhu cầu của khách hàng doanh nghiệp:
    • Nhu cầu loại bỏ trùng lặp dữ liệu
    • Độ phức tạp của data governance ngày càng tăng
    • Nhu cầu thoát khỏi sự phụ thuộc vào nhà cung cấp và tăng tính linh hoạt
    • Khó khăn trong việc tìm kiếm các giải pháp phù hợp với AI

Open table format giúp lakehouse trở thành hiện thực

  • Các open table format (OTF) như Delta Lake, Iceberg, Hudi tạo thành nền tảng của lakehouse
  • Các chức năng chính:
    • Hỗ trợ giao dịch ACID: đảm bảo tính nhất quán và độ ổn định của dữ liệu
    • Hỗ trợ xử lý batch và streaming
    • Cung cấp tính linh hoạt về schema và partition
    • Tính năng time travel cho phép khôi phục về trạng thái trước đó
    • Quản lý metadata có khả năng mở rộng

Sự xuất hiện của mô hình lakehouse

  • Data lakehouse là một kiến trúc mới kết hợp hiệu năng của data warehouse với tính linh hoạt của data lake
  • Đang nổi lên như hạ tầng thế hệ tiếp theo cho các ứng dụng AI, phân tích thời gian thực và business intelligence
  • Các tập đoàn lớn và startup đang đẩy nhanh quá trình chuyển đổi sang lakehouse, đồng thời một thị trường mới liên quan đến xu hướng này cũng đang hình thành

Thesis 1: Hiện thực hóa pipeline thông minh thời gian thực bằng thu thập và chuyển đổi lấy AI làm trung tâm

  • Các công cụ ETL truyền thống kém hiệu quả ở quy mô AI
  • Prefect, Windmill, dltHub hỗ trợ pipeline dữ liệu và orchestration dựa trên code
  • Các công cụ như Tobiko cung cấp tự động hóa SQL, data lineage, theo dõi phụ thuộc, v.v.
  • Model Context Protocol (MCP) của Anthropic cung cấp giao diện tiêu chuẩn hóa để duy trì ngữ cảnh trong workflow AI
  • Apache Kafka và Flink cung cấp khả năng messaging và xử lý streaming thiết yếu cho huấn luyện mô hình và suy luận theo thời gian thực
  • Chalk AI cung cấp nền tảng suy luận thời gian thực, góp phần vào việc ra quyết định nhanh chóng
  • Lớp metadata đang nổi lên như nguồn chân lý duy nhất (source of truth) quan trọng trong kỷ nguyên AI

Thesis 2: Tầm quan trọng chiến lược ngày càng tăng của lớp metadata

  • Metadata giờ đây không còn chỉ là thông tin đơn thuần mà đã trở thành lớp trung tâm dẫn dắt hành động
  • Các open table format như Iceberg, Delta Lake, Hudi đang thúc đẩy đổi mới metadata
  • Các catalog native cho lakehouse như Datastrato, Vakamo đang xuất hiện
  • DataHub của Acryl Data hỗ trợ truy cập dữ liệu và governance cho con người lẫn AI agent
  • OpenHouse, Apache Amoro, Ryft cung cấp control plane lấy metadata làm trung tâm
  • Flarion.io, Greybeam đang phát triển công cụ tối ưu hiệu năng ở các lớp ngoài storage

Thesis 3: Sự thay đổi của compute và query engine

  • Sự lan rộng của lakehouse đang thúc đẩy chuyển đổi sang kiến trúc mô-đun từ mô hình truyền thống xoay quanh một nền tảng duy nhất
  • Bên cạnh Snowflake và Databricks, các giải pháp chuyên biệt như DuckDB, ClickHouse, Druid cũng đang tăng trưởng
  • Daft, typedef, Mooncake, Bauplan đang phát triển các framework compute mới để tối ưu cho AI
  • Sự xuất hiện của query engine tối ưu cho AI và nền tảng compute liên kết đang hình thành tiêu chuẩn mới cho xử lý dữ liệu

Thesis 4: Ranh giới giữa data engineering và software engineering ngày càng mờ đi

  • Các ứng dụng lấy AI làm trung tâm đang thay đổi theo hướng mọi developer đều cần năng lực dữ liệu
  • dbt Labs đã đưa các thực hành software engineering như quản lý phiên bản, kiểm thử, CI/CD vào phát triển dữ liệu
  • Gable hỗ trợ xây dựng pipeline dữ liệu với giao diện thân thiện với người dùng
  • Temporal và Inngest mang lại độ tin cậy và khả năng quan sát cho các workflow phân tán phức tạp
  • Đóng góp cho open source đang tăng mạnh, và tốc độ tăng trưởng của các dự án dữ liệu trên GitHub cao hơn phần mềm nói chung
  • Việc áp dụng open source ngày càng tăng để nhận được hỗ trợ tốt hơn từ LLM
  • Khi AI và kỹ thuật lấy dữ liệu làm trung tâm hội tụ, cấu trúc đội ngũ và phương thức phát triển đang thay đổi một cách căn bản

2 bình luận

 
halfenif 2025-04-01

Tiếp theo sau Lakehouse là gì?

Có phải là Dataland không?

 
yangeok 2025-04-01

Mong là chi phí sẽ giảm để ngay cả các startup cũng có thể thử được haha