14 điểm bởi xguru 2022-06-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Định dạng tệp dựa trên SQLite DB giúp dữ liệu được crawl từ web dễ truy vấn bằng SQL
  • Có thể import tệp chuẩn Web ARChive (.warc) được dùng trong wget và WebRecorder sang .warcdb
  • Dùng nguyên các lệnh sqlite-utils
wget --warc-file tselai "https://tselai.com";  
warcdb import archive.warcdb tselai.warc.gz  
  
// Lấy toàn bộ response header  
sqlite3 archive.warcdb <<SQL  
select  json_extract(h.value, '$.header') as header,   
        json_extract(h.value, '$.value') as value  
from response,  
     json_each(http_headers) h  
SQL  

Chưa có bình luận nào.

Chưa có bình luận nào.