Cách sử dụng DuckDB (DuckDB Python + Jupyter Lab)
(zzsza.github.io)Đây là bài viết tổng hợp cách sử dụng DuckDB, một dự án OLAP mã nguồn mở đang được chú ý gần đây.
Bài cũng đề cập đến cách có thể tận dụng DuckDB trong Jupyter Lab, đồng thời bổ sung thêm một số extension ấn tượng.
Có thể truy vấn trực tiếp các tệp Parquet trên S3 để sử dụng dễ dàng, và có vẻ như hoàn toàn có thể thay thế Athena. Những mảng đang dùng Pandas cũng đều có thể được thay thế.
Mục lục
- Giới thiệu DuckDB, DuckDB là gì?
- BIG DATA IS DEAD
- Mục tiêu của DuckDB & ưu điểm của DuckDB
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- Benchmark hiệu năng DuckDB
- Cài đặt DuckDB
-
- Chạy DuckDB
- Chạy đơn giản (DuckDB Python)
- Tải dữ liệu
- Chạy thuận tiện hơn với jupysql
- Cú pháp SQL
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- Cách ứng dụng DuckDB
- Ví dụ sử dụng trong BigQuery
- Dùng như kho dữ liệu cục bộ (thay thế Pandas)
- Dùng làm engine phân tích nhẹ khi cần
- Dùng ở bước Transform trong pipeline ETL, ELT
- Truy vấn Parquet trên GCS
- Tổng kết
- Tài liệu tham khảo
2 bình luận
Cảm ơn vì tài liệu hữu ích.
Cảm ơn bạn đã đọc bài!!