- Framework web scraping hiệu năng cao triển khai native kiến trúc của Python Scrapy bằng cách tận dụng hiệu năng của ngôn ngữ Go
- Chỉ với một lệnh
goscrapy startproject, có thể tự động scaffold toàn bộ cấu trúc dự án, khởi tạo Go module và xử lý dependency
- Scraping song song thông lượng cao dựa trên mô hình đồng thời của Go; framework tự động quản lý retry, cookie và xử lý concurrency
- Tự động retry với exponential back-off khi thất bại
- Kiến trúc luồng dữ liệu rõ ràng: Spider → Engine → Scheduler → Worker → Middleware → HTTP Client
- Spider chuyển request tới Engine, và Engine lên lịch bằng Scheduler
- Scheduler lấy worker khả dụng từ Worker Queue rồi chuyển tác vụ cho Worker
- Worker kích hoạt Executor, và Executor gửi request tới HTTP Client thông qua Middlewares
- Response được trả ngược theo thứ tự Middlewares → Executor → callback của Spider
- Khi Spider yield record, Engine thực hiện xuất dữ liệu sang DB, CSV, file, v.v. thông qua PipelineManager
- Tích hợp sẵn nhiều pipeline xuất dữ liệu như CSV, JSON, MongoDB, Google Sheets, Firebase
- Cung cấp middleware built-in như Azure TLS, Dupefilter; được thiết kế để có thể thay thế và mở rộng gần như mọi tầng
- Phân tích HTML linh hoạt với CSS/XPath selector có thể chaining
- Cấu trúc gọn gàng: cấu hình middleware và pipeline tập trung trong
settings.go, còn spider.go chỉ tập trung vào logic parsing
- Cung cấp các ví dụ thực chiến như Google Maps scraper, Fingerprint Spoofing (vượt phát hiện bot), giám sát thời gian thực bằng TUI
- Hiện đang ở giai đoạn phát triển v0.x, Core API vẫn đang được cải tiến liên tục hướng tới v1.0 ổn định
- Business Source License (BSL): có thể tự do dùng trong sản phẩm thương mại, nhưng bị hạn chế việc bán lại chính framework như một dịch vụ cạnh tranh
Chưa có bình luận nào.