Scrapegraph-ai - Web scraping bằng LLM và logic đồ thị trực tiếp

xguru · 2024-05-10T09:51:01+09:00

Thư viện mã nguồn mở Python cho web scraping dựa trên AI Tạo pipeline scraping cho website, tài liệu và tệp XML bằng LLM và logic đồ thị trực tiếp Chỉ cần chỉ định loại thông tin muốn trích xuất, thư viện sẽ tự động hoạt động Có thể sử dụng nhiều mô hình khác nhau như Ollama, OpenAI, Groq, Azure, Gemini Các node được cung cấp Node cơ sở, node lấy HTML, node Image_to_text, node Text_To-Speech, node tìm kiếm Internet Node điều kiện: quyết định node tiếp theo của đồ thị Node tạo câu trả lời: dùng LLM để tạo câu trả lời cho câu hỏi Node generate_scraper: trích xuất thông tin mong muốn từ nội dung theo đầu vào của người dùng Node Get_probable_tags: tìm các thẻ HTML chứa thông tin mong muốn trong nội dung Node Parse: trích xuất thông tin từ tài liệu HTML Node Rag: trích xuất thông tin liên quan từ tài liệu dung lượng lớn Node Robots: kiểm tra khả năng truy cập của robot

(github.com/VinciGit00)

20 điểm bởi xguru 2024-05-10 | 1 bình luận | Chia sẻ qua WhatsApp

Thư viện mã nguồn mở Python cho web scraping dựa trên AI
- Tạo pipeline scraping cho website, tài liệu và tệp XML bằng LLM và logic đồ thị trực tiếp
Chỉ cần chỉ định loại thông tin muốn trích xuất, thư viện sẽ tự động hoạt động
Có thể sử dụng nhiều mô hình khác nhau như Ollama, OpenAI, Groq, Azure, Gemini
Các node được cung cấp
- Node cơ sở, node lấy HTML, node Image_to_text, node Text_To-Speech, node tìm kiếm Internet
- Node điều kiện: quyết định node tiếp theo của đồ thị
- Node tạo câu trả lời: dùng LLM để tạo câu trả lời cho câu hỏi
- Node generate_scraper: trích xuất thông tin mong muốn từ nội dung theo đầu vào của người dùng
- Node Get_probable_tags: tìm các thẻ HTML chứa thông tin mong muốn trong nội dung
- Node Parse: trích xuất thông tin từ tài liệu HTML
- Node Rag: trích xuất thông tin liên quan từ tài liệu dung lượng lớn
- Node Robots: kiểm tra khả năng truy cập của robot

1 bình luận

ng0301 2024-05-13

Có cảm giác hơi đáng tiếc vì dường như công cụ này không lấy dữ liệu từ web app CSR được tốt lắm.
Ngược lại, với SSR thì tôi khá hài lòng.

Scrapegraph-ai - Web scraping bằng LLM và logic đồ thị trực tiếp

Bài viết liên quan

1 bình luận