Scrapeghost - Thư viện scraping web sử dụng GPT
(jamesturk.github.io)- Một thư viện thử nghiệm giúp trích xuất dữ liệu từ HTML mà không cần viết bất kỳ đoạn mã nào liên quan đến trang
- Chỉ cần chỉ định dạng dữ liệu muốn trích xuất rồi truyền URL vào, thư viện sẽ tự động thực hiện
- Bên trong, thư viện xử lý việc làm sạch HTML, chia nhỏ nội dung để giảm chi phí, đồng thời cũng kiểm tra hallucination để xác minh dữ liệu trích xuất có thực sự là giá trị chính xác tồn tại trên trang hay không
- Cung cấp tính năng thiết lập ngân sách cho chi phí gọi API GPT
Chưa có bình luận nào.