8 điểm bởi xguru 2022-06-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Chuyển đổi tệp Web ARChive (.warc) sang định dạng Apache Parquet dạng cột
  • Có thể nạp Parquet vào DuckDB để truy vấn thuận tiện
  • Mã nguồn mở Rust

1 bình luận

 
xguru 2022-06-30

DuckDB - mã nguồn mở OLAP DB nhúng

Khá giống với WarcDB - Web crawl data as SQLite DB mới được đăng cách đây không lâu.
Tuy vậy, ở những nơi đã có sẵn hạ tầng sử dụng Parquet thì có vẻ sẽ thuận tiện hơn để dùng.