52 điểm bởi xguru 2026-03-10 | 3 bình luận | Chia sẻ qua WhatsApp
  • Vượt qua cấu trúc phức tạp của web hiện đại và các hệ thống chống bot để xử lý từ một yêu cầu đơn lẻ đến crawl quy mô lớn
  • Tích hợp parser thông minh tự động dò tìm lại phần tử khi cấu trúc website thay đổi
  • Tích hợp mô-đun Fetcher có thể vượt qua mặc định các hệ thống bảo mật chính như Cloudflare Turnstile
  • Hỗ trợ các tính năng crawl quy mô lớn như đồng thời, quản lý phiên, tạm dừng/tiếp tục, xoay proxy thông qua framework Spider
    • API tương tự Scrapy: sử dụng start_urls, callback parse bất đồng bộ, và các đối tượng Request/Response
    • Crawl đồng thời và tách biệt phiên: có thể chạy song song nhiều phiên trình duyệt
    • Tính năng tạm dừng và tiếp tục dựa trên checkpoint: ổn định ngay cả với các tác vụ crawl kéo dài
    • Chế độ streaming thời gian thực: có thể xử lý dữ liệu thu thập được ngay lập tức hoặc phản ánh lên UI
    • Tự động nhận diện các yêu cầu bị chặn và có thể thử lại bằng logic tùy chỉnh
    • Có thể xuất kết quả sang pipeline riêng bằng Hook (JSON/JSONL)
  • Fetching website nâng cao có hỗ trợ phiên
    • Lớp Fetcher hỗ trợ các tính năng request nâng cao như HTTP/3, giả mạo dấu vân tay TLS, ngụy trang header
    • Thực hiện tự động hóa trình duyệt dựa trên Playwright/Chrome thông qua DynamicFetcher
    • StealthyFetcher tự động vượt qua các cơ chế chống bot như Cloudflare Turnstile
    • ProxyRotator cho phép thay proxy theo từng request và kiểm soát chặn theo domain
    • Tất cả Fetcher hoạt động theo kiểu bất đồng bộ (async) và cung cấp các lớp phiên (FetcherSession, DynamicSession, v.v.)
  • Với scraping thích ứng (Adaptive Scraping), tự động dò tìm lại phần tử ngay cả sau khi website thay đổi
    • Thuật toán theo dõi phần tử dựa trên độ tương đồng: cho phép thu thập dữ liệu bền vững trước thay đổi cấu trúc
    • Hỗ trợ đầy đủ selector dựa trên CSS/XPath/văn bản/biểu thức chính quy
    • Tích hợp máy chủ MCP cho tích hợp AI: liên kết với Claude, Cursor, v.v. để thực hiện trích xuất dữ liệu có AI hỗ trợ
      • Trước khi gọi AI, Scrapling sẽ chọn lọc nội dung đích để giảm lượng token sử dụng và tăng tốc độ
  • Kiến trúc hiệu năng cao
    • Cung cấp tốc độ xử lý nhanh hơn phần lớn các thư viện scraping Python
    • Thực thi gọn nhẹ nhờ cấu trúc tiết kiệm bộ nhớlazy loading
    • Tốc độ tuần tự hóa JSON nhanh hơn 10 lần, độ bao phủ kiểm thử 92%đầy đủ static type hints
    • Đã được kiểm chứng thực chiến (battle-tested) trong nhiều cộng đồng web scraper
  • Mang lại trải nghiệm thân thiện với developer/web scraper
    • Tích hợp Web Scraping Shell tương tác: hỗ trợ khám phá thời gian thực và chuyển đổi request dựa trên IPython
    • Có thể scrape URL và trích xuất tệp qua lệnh CLI mà không cần viết mã
    • Cung cấp DOM traversal API để khám phá quan hệ cha/anh em/con và tính năng tìm phần tử tương tự
    • Trình tạo selector tự động tạo CSS/XPath selector ổn định
    • API tương tự Scrapy/BeautifulSoup: mang lại trải nghiệm phát triển quen thuộc cho người dùng hiện có
    • Tăng tiện lợi triển khai với phân tích tĩnh dựa trên PyRight/MyPytự động build Docker image
  • Benchmark hiệu năng
    • Parser của Scrapling nhanh hơn một chút so với Parsel/Scrapy,
      và ghi nhận tốc độ xử lý nhanh hơn tối đa hơn 700 lần so với BeautifulSoup4 (bs4)
    • Hiệu năng tìm kiếm độ tương đồng phần tử cũng đạt kết quả nhanh hơn hơn 5 lần so với AutoScraper
  • Có thể cài đặt bằng pip install scrapling hoặc
    sử dụng Docker image để thiết lập môi trường chạy hoàn chỉnh có kèm trình duyệt: docker pull pyd4vinci/scrapling
  • Giấy phép BSD-3-Clause

3 bình luận

 
eyelove 2026-03-11

Về mặt pháp lý thì có vấn đề gì không vậy??? Tôi có thấy nói rằng việc lấy thông tin trực tuyến thì không thành vấn đề..
Tôi tò mò không biết nếu vượt qua nội dung mà trang web chặn không cho crawl để đọc thì có ổn không.

Chỉ những nội dung xem sau khi đăng nhập mới là rủi ro thôi sao?

 
crawler 2026-03-10

> with FetcherSession(impersonate='chrome') as session: # Use latest version of Chrome's TLS fingerprint

Thú vị thật, trước giờ lúc nào tôi cũng phải tìm kiếm rồi tự chèn thủ công, đây là lần đầu tôi thấy một thư viện như thế này. Có vẻ sẽ khá tiện.

 
crawler 2026-03-10

Nhưng tôi khá tò mò không biết họ vượt qua Cloudflare bằng cách nào. Có lẽ phải xem mã nguồn thì mới rõ.