Firecrawl - công cụ biến toàn bộ website thành dữ liệu có thể dùng trong LLM
(github.com/mendableai)- Crawl website và chuyển đổi thành Markdown hoặc dữ liệu có cấu trúc có thể dùng trong LLM
- Khi gửi URL qua API, công cụ sẽ crawl tất cả các trang con và cung cấp dữ liệu sạch cho từng trang con
- Cung cấp SDK cho Python, Node, Go, Rust
- Hỗ trợ tích hợp với LangChain, Llama Index, Dify, Langflow, Zapier, v.v.
2 bình luận
Không hỗ trợ thu thập dữ liệu theo cấp con, nhưng tôi xin giới thiệu một trình chuyển đổi định dạng tài liệu có mục đích tương tự.
https://github.com/DS4SD/docling
Không hoạt động tốt như mong muốn.