24 điểm bởi zzsza 2024-10-27 | 2 bình luận | Chia sẻ qua WhatsApp

Đây là bài viết tổng hợp cách sử dụng DuckDB, một dự án OLAP mã nguồn mở đang được chú ý gần đây.

Bài cũng đề cập đến cách có thể tận dụng DuckDB trong Jupyter Lab, đồng thời bổ sung thêm một số extension ấn tượng.

Có thể truy vấn trực tiếp các tệp Parquet trên S3 để sử dụng dễ dàng, và có vẻ như hoàn toàn có thể thay thế Athena. Những mảng đang dùng Pandas cũng đều có thể được thay thế.


Mục lục

  • Giới thiệu DuckDB, DuckDB là gì?
    • BIG DATA IS DEAD
  • Mục tiêu của DuckDB & ưu điểm của DuckDB
      1. Simple
      1. Portable
      1. Feature Rich
      1. Fast
      1. Extensible
      1. Free
      1. Thorough Testing
    • Benchmark hiệu năng DuckDB
    • Cài đặt DuckDB
  • Chạy DuckDB
    • Chạy đơn giản (DuckDB Python)
    • Tải dữ liệu
    • Chạy thuận tiện hơn với jupysql
    • Cú pháp SQL
    • Secrets Manager
  • DuckDB Extension
    • bigquery
    • h3
    • pg_duckdb
    • vss(Vector Similarity Search)
  • Cách ứng dụng DuckDB
    • Ví dụ sử dụng trong BigQuery
    • Dùng như kho dữ liệu cục bộ (thay thế Pandas)
    • Dùng làm engine phân tích nhẹ khi cần
    • Dùng ở bước Transform trong pipeline ETL, ELT
    • Truy vấn Parquet trên GCS
  • Tổng kết
  • Tài liệu tham khảo

2 bình luận

 
nottiger 2024-10-28

Cảm ơn vì tài liệu hữu ích.

 
zzsza 2024-10-31

Cảm ơn bạn đã đọc bài!!