4 điểm bởi xguru 3 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Framework web scraping hiệu năng cao triển khai native kiến trúc của Python Scrapy bằng cách tận dụng hiệu năng của ngôn ngữ Go
  • Chỉ với một lệnh goscrapy startproject, có thể tự động scaffold toàn bộ cấu trúc dự án, khởi tạo Go module và xử lý dependency
  • Scraping song song thông lượng cao dựa trên mô hình đồng thời của Go; framework tự động quản lý retry, cookie và xử lý concurrency
  • Tự động retry với exponential back-off khi thất bại
  • Kiến trúc luồng dữ liệu rõ ràng: Spider → Engine → Scheduler → Worker → Middleware → HTTP Client
    • Spider chuyển request tới Engine, và Engine lên lịch bằng Scheduler
    • Scheduler lấy worker khả dụng từ Worker Queue rồi chuyển tác vụ cho Worker
    • Worker kích hoạt Executor, và Executor gửi request tới HTTP Client thông qua Middlewares
    • Response được trả ngược theo thứ tự Middlewares → Executor → callback của Spider
    • Khi Spider yield record, Engine thực hiện xuất dữ liệu sang DB, CSV, file, v.v. thông qua PipelineManager
  • Tích hợp sẵn nhiều pipeline xuất dữ liệu như CSV, JSON, MongoDB, Google Sheets, Firebase
  • Cung cấp middleware built-in như Azure TLS, Dupefilter; được thiết kế để có thể thay thế và mở rộng gần như mọi tầng
  • Phân tích HTML linh hoạt với CSS/XPath selector có thể chaining
  • Cấu trúc gọn gàng: cấu hình middleware và pipeline tập trung trong settings.go, còn spider.go chỉ tập trung vào logic parsing
  • Cung cấp các ví dụ thực chiến như Google Maps scraper, Fingerprint Spoofing (vượt phát hiện bot), giám sát thời gian thực bằng TUI
  • Hiện đang ở giai đoạn phát triển v0.x, Core API vẫn đang được cải tiến liên tục hướng tới v1.0 ổn định
  • Business Source License (BSL): có thể tự do dùng trong sản phẩm thương mại, nhưng bị hạn chế việc bán lại chính framework như một dịch vụ cạnh tranh

Chưa có bình luận nào.

Chưa có bình luận nào.