- Phần mềm dùng để bắt các trình thu thập web, đặc biệt nhắm đến những crawler cào dữ liệu để phục vụ các mô hình ngôn ngữ lớn (LLM).
- Tạo ra chuỗi trang vô hạn để crawler không thể thoát ra.
- Thêm độ trễ có chủ đích để crawler không làm quá tải máy chủ, đồng thời có thể dùng Markov-babble để dụ crawler thu thập dữ liệu.
- Phần mềm này được thiết kế cho mục đích gây hại, vì vậy cần thận trọng khi sử dụng.
- Cảnh báo
- Các crawler LLM rất dai dẳng, và khi dùng phần mềm này, bạn sẽ tiếp tục cung cấp dữ liệu mà crawler mong muốn.
- Không có cách nào để phân biệt crawler cho công cụ tìm kiếm với crawler huấn luyện mô hình AI, và nếu dùng phần mềm này thì khả năng cao trang web sẽ biến mất khỏi kết quả tìm kiếm.
- Cách dùng
- Nên ẩn tarpit phía sau Nginx hoặc Apache.
- Cấu hình tarpit bằng HTTP header, và có cung cấp ví dụ snippet cấu hình nginx.
- Cài đặt
- Có thể cài bằng Docker hoặc cài thủ công.
- Cần Lua, SQLite, OpenSSL và nhiều mô-đun Lua.
- Sau khi cài đặt, có thể chỉnh file
config.yml để bắt đầu.
- Khởi tạo Markov Babbler
- Tính năng Markov cần một corpus đã được huấn luyện, và có thể huấn luyện bằng nhiều nguồn văn bản khác nhau.
- Có thể thêm dữ liệu huấn luyện bằng cách gửi tới endpoint POST.
- Thống kê
- Cung cấp nhiều endpoint thống kê ở định dạng JSON, và có thể kiểm tra địa chỉ IP cùng chuỗi user-agent.
- Cách dùng Nepenthes theo hướng phòng thủ
- Thông qua các liên kết từ trang web tới vị trí của Nepenthes để crawler không thể truy cập nội dung thực tế.
- Có thể dùng danh sách địa chỉ IP đã thu thập để chặn crawler.
- Cách dùng Nepenthes theo hướng tấn công
- Không chặn crawler mà cung cấp nhiều dữ liệu nhất có thể để gây nhiễu mô hình AI.
- Tệp cấu hình
- Mô tả toàn bộ các chỉ thị có thể có trong file
config.yaml.
- Có thể điều chỉnh cách hoạt động của Nepenthes thông qua nhiều thiết lập khác nhau.
1 bình luận
Ý kiến trên Hacker News
Có ý kiến về cách kiểm thử lỗ hổng DDOS phản xạ của trình thu thập dữ liệu ChatGPT. Lỗ hổng này có thể khiến một yêu cầu HTTP duy nhất tạo ra 5000 yêu cầu HTTP
Chia sẻ kinh nghiệm từng vận hành một bot motel trong quá khứ, nhắc đến các trường hợp trình thu thập dữ liệu bị mắc kẹt trong nhiều ngày
Chia sẻ trải nghiệm một trang web phi lợi nhuận từng phải tạm thời đóng cửa vì việc thu thập dữ liệu quá hung hăng của bot Amazon
Có ý kiến cho rằng tarpit có thể làm chậm việc thu thập dữ liệu, nhưng sẽ không có nhiều tác dụng nếu không có nhiều trang cùng sử dụng
Có ý kiến cho rằng trình tạo văn bản ngẫu nhiên dựa trên chuỗi Markov sẽ không gây vấn đề lớn cho các trình thu thập phục vụ huấn luyện LLM
Có ý kiến cho biết hiện đang xảy ra lỗi 502 Bad Gateway, và không rõ là do bị phân loại là trình thu thập web AI hay do quá tải
Có ý kiến cho rằng chừng nào khái niệm này chưa trở nên phổ biến thì vẫn dễ lọc bỏ
Trên Internet đã có những trang web "vô hạn", và các trình thu thập dữ liệu đều đặt giới hạn số trang sẽ thu thập theo từng tên miền
Một cách tiếp cận đơn giản đang được cân nhắc là với mỗi yêu cầu HTTP sai, gửi lại 100 yêu cầu HTTP sai
Có ý kiến cho rằng các trang web áp dụng phần mềm này rất có thể sẽ biến mất khỏi mọi kết quả tìm kiếm