- auto-identity-remove là công cụ tìm kiếm các trang data broker bằng tên và thông tin khu vực, rồi tự động gửi biểu mẫu opt-out để giúp xóa thông tin cá nhân khỏi hơn 500 trang tìm kiếm con người và cơ sở dữ liệu data broker mỗi tháng
- Luồng chạy bao gồm tìm kiếm theo từng broker, phát hiện danh sách hồ sơ cụ thể, gửi biểu mẫu opt-out, xử lý CAPTCHA khi cần, bỏ qua các mục vừa hoàn tất gần đây, thông báo kết quả và mở trình duyệt cho các trang cần xử lý thủ công
- Theo dõi trạng thái lưu thời điểm thành công gần nhất và lịch sử chạy trong
state.json, với chu kỳ kiểm tra lại mặc định là 90 ngày nên không gửi lại cùng một yêu cầu opt-out đã hoàn tất ở mọi lần chạy
- Các biểu mẫu có CAPTCHA có thể được xử lý qua CapSolver, với chi phí khoảng $0.001 cho mỗi lần giải; nếu không cấu hình, các trang đó sẽ được chuyển vào danh sách xử lý thủ công
- Yêu cầu gồm Node.js 18+, macOS·Linux·Windows và trình duyệt Playwright;
setup.js sẽ hướng dẫn nhập thông tin cá nhân, bí danh, khóa CapSolver, tài khoản dùng một lần, thông báo và đăng ký lịch chạy hàng tháng
- Tác vụ hàng tháng được đăng ký để chạy vào 9 giờ sáng ngày 1 hằng tháng, và sẽ tự động phát hiện rồi sử dụng launchd, systemd, crontab hoặc schtasks tùy theo nền tảng
- Cũng hỗ trợ chạy bằng Docker, dùng image Playwright chính thức để bao gồm Chromium và các phụ thuộc hệ thống; để giữ lại lịch sử hoàn tất giữa các container, cần mount
state.json
- Thông báo hỗ trợ phần tóm tắt kết quả qua iMessage trên macOS, và trong môi trường headless hoặc Docker có thể POST
{"text": "<summary>"} tới ntfy.sh, Slack incoming webhook hoặc Discord webhook bằng notify.webhook
- Hỗ trợ broker được chia thành 2 tầng; 42 broker tường minh được liệt kê trong STATUS.md được ánh xạ bằng selector riêng, còn khoảng 490 broker được xử lý theo phương pháp heuristic lần lượt thử nút Do Not Sell, OneTrust·TrustArc·Osano, biểu mẫu chung và tìm liên kết DSAR
✅ Submitted chỉ có nghĩa là broker đã tiếp nhận biểu mẫu, không phải bảo đảm đã xóa; node watcher.js --verify sẽ tìm lại các mục đã ghi nhận thành công và phân loại thành VERIFIED CLEAR, STILL LISTED, UNVERIFIABLE
- Các mục tiêu tiêu biểu được tự động xử lý gồm Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo, Clearbit; còn Google Results About You và Google Outdated Content sẽ được mở để xử lý thủ công
- Người dùng ngoài Mỹ được hỗ trợ mã quốc gia, Province/Region, Postal code, lưu số điện thoại gốc và nhập trường chọn quốc gia; tuy nhiên các broker chỉ dành cho Mỹ như Spokeo·WhitePages·FastPeopleSearch sẽ tự động bị bỏ qua nếu quốc gia cấu hình không phải
US
--dry-run chỉ thực hiện duyệt trang và điền biểu mẫu mà không gửi đi, còn tính năng thử nghiệm --pollute N sẽ gửi bản ghi giả tới một số broker được đánh dấu acceptsBogus: true, nhưng được nêu rõ là có thể vi phạm điều khoản và tiềm ẩn rủi ro pháp lý nên mặc định bị tắt
config.json chứa thông tin cá nhân, state.json lưu lịch sử opt-out và các log chạy đều nằm trong .gitignore, và giấy phép của kho lưu trữ là MIT
1 bình luận
Ý kiến trên Hacker News
Phần tôi cần trợ giúp là cách tiếp cận heuristic bỏ sót khá nhiều. Mỗi site thường có luồng riêng, nên không thể bao phủ chỉ bằng bốn chiến lược chung
Cần người kiểm chứng những site phổ biến nào thực sự thành công và site nào âm thầm thất bại, bổ sung định nghĩa broker tường minh cho các site giá trị cao, thử nghiệm trên môi trường ngoài macOS, và xử lý luồng xác thực email
Repo: https://github.com/stephenlthorn/auto-identity-remove
Trong repo không có dữ liệu cá nhân; script thiết lập sẽ nhận thông tin cục bộ và đã được đưa vào gitignore
Với xác thực email, tạm thời có vẻ cũng có thể chỉ cần báo cho người dùng kiểu “hãy bấm liên kết xác nhận trong email từ người gửi này”. Việc đọc hộp thư thật một cách ổn định trên nhiều nhà cung cấp có lẽ khó, vì gần như sẽ cần một email client
Và có thể tôi nói trật, nhưng ngay cả chính bình luận này cũng trông như do AI tạo ra. Nếu vậy thì vi phạm guideline của site
Ý tưởng thì hay, nhưng để hữu ích rộng rãi thì còn rất nhiều chỗ phải chỉnh. Có vẻ mã bưu chính không phải dạng số và địa chỉ ngoài nước Mỹ làm hỏng khá nhiều phần tự động hóa
Tôi và đồng nghiệp thấy form opt-out chỉ cần địa chỉ. Chúng tôi từng nghĩ đến việc gom mọi địa chỉ đã biết trên toàn quốc rồi tự động gửi trong vài tháng để opt-out tất cả, nhưng cuối cùng không làm, và chỉ cười tưởng tượng xem các web developer của Yellow Pages sẽ họp khẩn khi tỷ lệ opt-out lên đến bao nhiêu phần trăm
Mấy người giao hàng không xoay xở nổi nên cuối cùng bắt đầu chất đống rồi đốt danh bạ. Vì chẳng ai nhớ nhung danh bạ điện thoại, nên khá lâu sau họ mới bị phát hiện
Tôi đã khá vất vả để chặn Uline gửi mấy cuốn catalog giấy khổng lồ đến hộp thư bưu điện hai ba lần mỗi năm. Họ có form, nhưng cứ phớt lờ yêu cầu
https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
Không có nghĩa là chuyện đó không còn xảy ra, nhưng nó tạo cơ sở pháp lý để chống lại. noyb.eu / Max Schrems và những người khác đang làm công việc rất quan trọng và tuyệt vời ở mặt trận này
reCAPTCHA v3 Enterprise và MtCaptcha đắt gấp hẳn 3 lần, ở mức $3 cho 1000 lần giải. Vì vậy có vẻ đây là CAPTCHA hấp dẫn để nhắm tới
Hỗ trợ systemd có lẽ khá dễ. Còn Windows thì tôi không rõ dùng gì
Tuy vậy, với Task Scheduler thì có nhiều cách để lên lịch các tác vụ như chạy mỗi tháng một lần
Mô hình đe dọa ở đây khá mơ hồ: công cụ có thể giúp giảm mức độ lộ dữ liệu, nhưng một selector lỗi cũng có thể làm rò rỉ dữ liệu cá nhân sang nơi không mong muốn
Một giải pháp tốt hơn nhiều là thúc đẩy một đạo luật kiểu GDPR tại Mỹ
Với người tiêu dùng thì nó đã mở rồi. Bạn có thể đăng ký cùng 275 nghìn người hàng xóm của mình