- Thư viện mã nguồn mở Python cho web scraping dựa trên AI
- Tạo pipeline scraping cho website, tài liệu và tệp XML bằng LLM và logic đồ thị trực tiếp
- Chỉ cần chỉ định loại thông tin muốn trích xuất, thư viện sẽ tự động hoạt động
- Có thể sử dụng nhiều mô hình khác nhau như Ollama, OpenAI, Groq, Azure, Gemini
- Các node được cung cấp
- Node cơ sở, node lấy HTML, node Image_to_text, node Text_To-Speech, node tìm kiếm Internet
- Node điều kiện: quyết định node tiếp theo của đồ thị
- Node tạo câu trả lời: dùng LLM để tạo câu trả lời cho câu hỏi
- Node
generate_scraper: trích xuất thông tin mong muốn từ nội dung theo đầu vào của người dùng
- Node
Get_probable_tags: tìm các thẻ HTML chứa thông tin mong muốn trong nội dung
- Node
Parse: trích xuất thông tin từ tài liệu HTML
- Node
Rag: trích xuất thông tin liên quan từ tài liệu dung lượng lớn
- Node
Robots: kiểm tra khả năng truy cập của robot
1 bình luận
Có cảm giác hơi đáng tiếc vì dường như công cụ này không lấy dữ liệu từ web app CSR được tốt lắm.
Ngược lại, với SSR thì tôi khá hài lòng.