- Định dạng tệp dựa trên SQLite DB giúp dữ liệu được crawl từ web dễ truy vấn bằng SQL
- Có thể import tệp chuẩn Web ARChive (.warc) được dùng trong
wget và WebRecorder sang .warcdb
- Dùng nguyên các lệnh
sqlite-utils
wget --warc-file tselai "https://tselai.com"
warcdb import archive.warcdb tselai.warc.gz
// Lấy toàn bộ response header
sqlite3 archive.warcdb <<SQL
select json_extract(h.value, '$.header') as header,
json_extract(h.value, '$.value') as value
from response,
json_each(http_headers) h
SQL
Chưa có bình luận nào.