Cách tránh kiểm tra Bot khi web crawling
(piprogramming.org)Áp dụng theo tiêu chí Selenium nhưng cũng có thể dùng ở nơi khác
-
Gỡ cờ
navigator.webdriver -
Xóa một số chuỗi nhất định trong ChromeDriver / GeckoDriver
-
Thay đổi độ phân giải, User-Agent, v.v.
-
Dùng luồng URL thực. Tránh truy cập các liên kết không hiển thị
-
Dùng proxy để thay đổi IP
-
Sử dụng độ trễ ngẫu nhiên
-
Không dùng trình duyệt headless (có thể kiểm tra bằng cách kiểm tra quyền Notification)
2 bình luận
Trong trường hợp 1, với Puppeteer thì có những nơi chỉ đặt
true/falsethôi vẫn bị phát hiện là bot.Vì vậy tốt hơn là xóa hẳn thuộc tính như bên dưới.
const newProto = navigator.proto;
delete newProto.webdriver;
navigator.proto = newProto;
Đó là một ý hay :) Tôi đã thay thế đoạn mã