17 điểm bởi xguru 8 giờ trước | 4 bình luận | Chia sẻ qua WhatsApp
  • Công cụ trình duyệt headless được tối ưu cho web scraping và tự động hóa AI agent
  • Tích hợp sẵn engine V8 để chạy JavaScript thực sự, đồng thời triển khai Chrome DevTools Protocol(CDP) nên có thể tái sử dụng nguyên trạng mã Puppeteer·Playwright
  • Nhẹ hơn rất nhiều so với headless Chrome: bộ nhớ 30MB (so với 200MB+), binary 70MB (so với 300MB+), tải trang 85ms (so với ~500ms)
  • Với mức tải trang khoảng 85ms, khi crawl quy mô lớn có thể giảm thời gian chờ 5~10 lần so với Chrome
  • Phân phối dưới dạng một binary duy nhất nên không có phụ thuộc bên ngoài, như Chrome hay Node.js
  • Tích hợp sẵn --stealth chế độ stealth:
    • Tự động áp dụng thiết lập vượt anti-bot như ẩn navigator.webdriver, ngụy trang hàm native, v.v.
    • Ngẫu nhiên hóa fingerprint theo từng session (GPU, canvas, audio, v.v.)
  • Tự động chặn tracker quảng cáo, analytics và telemetry trên 3.520 domain, nhờ đó cải thiện cả tốc độ render trang
  • Trên CLI, dùng obscura fetch để render một trang đơn, và obscura serve để khởi chạy máy chủ CDP WebSocket
  • obscura scrape url1 url2 ... --concurrency 25 cho phép scraping song song dễ dàng
  • Có thể chạy trực tiếp biểu thức JS từ CLI như --eval "document.title" để chỉ lấy kết quả, rất hữu ích cho các tác vụ trích xuất dữ liệu đơn giản
  • Qua CDP API, hỗ trợ các domain chính như Target, Page, Runtime, DOM, Network, Fetch, Input, đồng thời bao gồm cả chuyển đổi DOM→Markdown (LP.getMarkdown)
  • Khi gửi form hoặc đăng nhập, hệ thống tự động xử lý POST, chuyển hướng 302 và duy trì cookie, nên không cần tự triển khai luồng xác thực
  • Giấy phép Apache 2.0

4 bình luận

 

Đây là một trình duyệt headless đang rất được chú ý dạo gần đây.
Không chỉ nhẹ, mà còn nổi tiếng vì chế độ stealth hoạt động rất tốt.

 

GitHub mới được tạo tài khoản cách đây một tháng

Trước mắt thì khi chỉ tìm kiếm đơn giản trên Google, hầu như không thấy phản ứng hay đánh giá gì.
Cũng khó xác nhận trên Hacker News, Reddit, v.v..
Không biết là do tôi không tìm ra hay sao..
Nhưng số sao thì đã hơn 6 nghìn.

Có thể kiểm tra ở đâu để biết thứ gì đang thật sự nổi lên không?
Có vẻ là phần mềm cực kỳ nguy hiểm..

 

Tôi chủ yếu thấy nó khá nhiều trên Twitter. Nghe nói là tiện để tự động hóa.
Thực tế thì tôi chưa thử kiểm tra chế độ stealth nên cũng khó mà đánh giá chính xác.

 

Có vẻ không phải là chuyện phổ biến lắm. (Dạo này có khá nhiều dự án kiểu này nên cũng có cảm giác phải xem đó là phổ biến..)

Đây là chương trình có khả năng cao sẽ được dùng với thông tin nhạy cảm, nên có lẽ cần quan sát thêm một thời gian rồi mới dùng.