5 điểm bởi GN⁺ 2025-01-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Phần mềm dùng để bắt các trình thu thập web, đặc biệt nhắm đến những crawler cào dữ liệu để phục vụ các mô hình ngôn ngữ lớn (LLM).
    • Tạo ra chuỗi trang vô hạn để crawler không thể thoát ra.
    • Thêm độ trễ có chủ đích để crawler không làm quá tải máy chủ, đồng thời có thể dùng Markov-babble để dụ crawler thu thập dữ liệu.
    • Phần mềm này được thiết kế cho mục đích gây hại, vì vậy cần thận trọng khi sử dụng.
  • Cảnh báo
    • Các crawler LLM rất dai dẳng, và khi dùng phần mềm này, bạn sẽ tiếp tục cung cấp dữ liệu mà crawler mong muốn.
    • Không có cách nào để phân biệt crawler cho công cụ tìm kiếm với crawler huấn luyện mô hình AI, và nếu dùng phần mềm này thì khả năng cao trang web sẽ biến mất khỏi kết quả tìm kiếm.
  • Cách dùng
    • Nên ẩn tarpit phía sau Nginx hoặc Apache.
    • Cấu hình tarpit bằng HTTP header, và có cung cấp ví dụ snippet cấu hình nginx.
  • Cài đặt
    • Có thể cài bằng Docker hoặc cài thủ công.
    • Cần Lua, SQLite, OpenSSL và nhiều mô-đun Lua.
    • Sau khi cài đặt, có thể chỉnh file config.yml để bắt đầu.
  • Khởi tạo Markov Babbler
    • Tính năng Markov cần một corpus đã được huấn luyện, và có thể huấn luyện bằng nhiều nguồn văn bản khác nhau.
    • Có thể thêm dữ liệu huấn luyện bằng cách gửi tới endpoint POST.
  • Thống kê
    • Cung cấp nhiều endpoint thống kê ở định dạng JSON, và có thể kiểm tra địa chỉ IP cùng chuỗi user-agent.
  • Cách dùng Nepenthes theo hướng phòng thủ
    • Thông qua các liên kết từ trang web tới vị trí của Nepenthes để crawler không thể truy cập nội dung thực tế.
    • Có thể dùng danh sách địa chỉ IP đã thu thập để chặn crawler.
  • Cách dùng Nepenthes theo hướng tấn công
    • Không chặn crawler mà cung cấp nhiều dữ liệu nhất có thể để gây nhiễu mô hình AI.
  • Tệp cấu hình
    • Mô tả toàn bộ các chỉ thị có thể có trong file config.yaml.
    • Có thể điều chỉnh cách hoạt động của Nepenthes thông qua nhiều thiết lập khác nhau.

1 bình luận

 
GN⁺ 2025-01-17
Ý kiến trên Hacker News
  • Có ý kiến về cách kiểm thử lỗ hổng DDOS phản xạ của trình thu thập dữ liệu ChatGPT. Lỗ hổng này có thể khiến một yêu cầu HTTP duy nhất tạo ra 5000 yêu cầu HTTP

    • OpenAI và Microsoft đã phớt lờ lỗ hổng này, và quá trình báo cáo rất khó khăn
    • Khuyến cáo không nên khai thác lỗ hổng này vì lý do pháp lý
  • Chia sẻ kinh nghiệm từng vận hành một bot motel trong quá khứ, nhắc đến các trường hợp trình thu thập dữ liệu bị mắc kẹt trong nhiều ngày

    • Bảo mật thường chỉ được xem xét sau cùng, và cuộc chiến với các trình thu thập dữ liệu là một cuộc chạy đua không hồi kết
  • Chia sẻ trải nghiệm một trang web phi lợi nhuận từng phải tạm thời đóng cửa vì việc thu thập dữ liệu quá hung hăng của bot Amazon

    • Siteground đã khôi phục trang web, và sau đó bot Amazon đã được thêm vào robots.txt
    • Bày tỏ sự bất mãn với tình hình hiện tại, đồng thời đặt câu hỏi liệu tarpit hay luật pháp có thể là giải pháp hay không
  • Có ý kiến cho rằng tarpit có thể làm chậm việc thu thập dữ liệu, nhưng sẽ không có nhiều tác dụng nếu không có nhiều trang cùng sử dụng

    • Việc xác định bot xấu là khó, và có nguy cơ bị loại khỏi kết quả tìm kiếm
  • Có ý kiến cho rằng trình tạo văn bản ngẫu nhiên dựa trên chuỗi Markov sẽ không gây vấn đề lớn cho các trình thu thập phục vụ huấn luyện LLM

    • So với việc gây nhiễu ngẫu nhiên, dùng văn bản vô nghĩa lặp đi lặp lại có thể hiệu quả hơn
  • Có ý kiến cho biết hiện đang xảy ra lỗi 502 Bad Gateway, và không rõ là do bị phân loại là trình thu thập web AI hay do quá tải

  • Có ý kiến cho rằng chừng nào khái niệm này chưa trở nên phổ biến thì vẫn dễ lọc bỏ

    • Các tập đoàn lớn có thể lập đội ngũ để ngăn chặn loại phần mềm này
  • Trên Internet đã có những trang web "vô hạn", và các trình thu thập dữ liệu đều đặt giới hạn số trang sẽ thu thập theo từng tên miền

    • Các trang phổ biến bị thu thập rất nhiều, còn các trang ít được biết đến thì bị thu thập ít hơn
  • Một cách tiếp cận đơn giản đang được cân nhắc là với mỗi yêu cầu HTTP sai, gửi lại 100 yêu cầu HTTP sai

  • Có ý kiến cho rằng các trang web áp dụng phần mềm này rất có thể sẽ biến mất khỏi mọi kết quả tìm kiếm

    • Đây có thể là lỗi, hoặc cũng có thể là tính năng