1 điểm bởi GN⁺ 1 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • auto-identity-remove là công cụ tìm kiếm các trang data broker bằng tên và thông tin khu vực, rồi tự động gửi biểu mẫu opt-out để giúp xóa thông tin cá nhân khỏi hơn 500 trang tìm kiếm con người và cơ sở dữ liệu data broker mỗi tháng
  • Luồng chạy bao gồm tìm kiếm theo từng broker, phát hiện danh sách hồ sơ cụ thể, gửi biểu mẫu opt-out, xử lý CAPTCHA khi cần, bỏ qua các mục vừa hoàn tất gần đây, thông báo kết quả và mở trình duyệt cho các trang cần xử lý thủ công
  • Theo dõi trạng thái lưu thời điểm thành công gần nhất và lịch sử chạy trong state.json, với chu kỳ kiểm tra lại mặc định là 90 ngày nên không gửi lại cùng một yêu cầu opt-out đã hoàn tất ở mọi lần chạy
  • Các biểu mẫu có CAPTCHA có thể được xử lý qua CapSolver, với chi phí khoảng $0.001 cho mỗi lần giải; nếu không cấu hình, các trang đó sẽ được chuyển vào danh sách xử lý thủ công
  • Yêu cầu gồm Node.js 18+, macOS·Linux·Windows và trình duyệt Playwright; setup.js sẽ hướng dẫn nhập thông tin cá nhân, bí danh, khóa CapSolver, tài khoản dùng một lần, thông báo và đăng ký lịch chạy hàng tháng
  • Tác vụ hàng tháng được đăng ký để chạy vào 9 giờ sáng ngày 1 hằng tháng, và sẽ tự động phát hiện rồi sử dụng launchd, systemd, crontab hoặc schtasks tùy theo nền tảng
  • Cũng hỗ trợ chạy bằng Docker, dùng image Playwright chính thức để bao gồm Chromium và các phụ thuộc hệ thống; để giữ lại lịch sử hoàn tất giữa các container, cần mount state.json
  • Thông báo hỗ trợ phần tóm tắt kết quả qua iMessage trên macOS, và trong môi trường headless hoặc Docker có thể POST {"text": "<summary>"} tới ntfy.sh, Slack incoming webhook hoặc Discord webhook bằng notify.webhook
  • Hỗ trợ broker được chia thành 2 tầng; 42 broker tường minh được liệt kê trong STATUS.md được ánh xạ bằng selector riêng, còn khoảng 490 broker được xử lý theo phương pháp heuristic lần lượt thử nút Do Not Sell, OneTrust·TrustArc·Osano, biểu mẫu chung và tìm liên kết DSAR
  • ✅ Submitted chỉ có nghĩa là broker đã tiếp nhận biểu mẫu, không phải bảo đảm đã xóa; node watcher.js --verify sẽ tìm lại các mục đã ghi nhận thành công và phân loại thành VERIFIED CLEAR, STILL LISTED, UNVERIFIABLE
  • Các mục tiêu tiêu biểu được tự động xử lý gồm Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo, Clearbit; còn Google Results About You và Google Outdated Content sẽ được mở để xử lý thủ công
  • Người dùng ngoài Mỹ được hỗ trợ mã quốc gia, Province/Region, Postal code, lưu số điện thoại gốc và nhập trường chọn quốc gia; tuy nhiên các broker chỉ dành cho Mỹ như Spokeo·WhitePages·FastPeopleSearch sẽ tự động bị bỏ qua nếu quốc gia cấu hình không phải US
  • --dry-run chỉ thực hiện duyệt trang và điền biểu mẫu mà không gửi đi, còn tính năng thử nghiệm --pollute N sẽ gửi bản ghi giả tới một số broker được đánh dấu acceptsBogus: true, nhưng được nêu rõ là có thể vi phạm điều khoản và tiềm ẩn rủi ro pháp lý nên mặc định bị tắt
  • config.json chứa thông tin cá nhân, state.json lưu lịch sử opt-out và các log chạy đều nằm trong .gitignore, và giấy phép của kho lưu trữ là MIT

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi đã quá ngán các cuộc gọi và tin nhắn rác, nên đã tạo một script để tự động hóa quy trình opt-out hằng tháng khỏi hơn 500 data broker
    Phần tôi cần trợ giúp là cách tiếp cận heuristic bỏ sót khá nhiều. Mỗi site thường có luồng riêng, nên không thể bao phủ chỉ bằng bốn chiến lược chung
    Cần người kiểm chứng những site phổ biến nào thực sự thành công và site nào âm thầm thất bại, bổ sung định nghĩa broker tường minh cho các site giá trị cao, thử nghiệm trên môi trường ngoài macOS, và xử lý luồng xác thực email
    Repo: https://github.com/stephenlthorn/auto-identity-remove
    Trong repo không có dữ liệu cá nhân; script thiết lập sẽ nhận thông tin cục bộ và đã được đưa vào gitignore
    • Tôi tò mò không biết cách hiện tại có thành công trên nhiều site hay không. Repo trông rõ ràng là được vibe coding, hoặc ít nhất là dùng AI khá nhiều để viết, nên khó theo dõi xem hiện tại đã làm được đến đâu và còn thiếu gì để chạy đúng
      Với xác thực email, tạm thời có vẻ cũng có thể chỉ cần báo cho người dùng kiểu “hãy bấm liên kết xác nhận trong email từ người gửi này”. Việc đọc hộp thư thật một cách ổn định trên nhiều nhà cung cấp có lẽ khó, vì gần như sẽ cần một email client
      Và có thể tôi nói trật, nhưng ngay cả chính bình luận này cũng trông như do AI tạo ra. Nếu vậy thì vi phạm guideline của site

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • Tôi đã thử ở Canada, nhưng nó lại gợi ý đăng ký các dịch vụ khác như Spokeo, yêu cầu truy cập email qua ứng dụng Apple Mail mà tôi không dùng, gặp khá nhiều lỗi 404, và nhiều site vẫn cần can thiệp thủ công
    Ý tưởng thì hay, nhưng để hữu ích rộng rãi thì còn rất nhiều chỗ phải chỉnh. Có vẻ mã bưu chính không phải dạng số và địa chỉ ngoài nước Mỹ làm hỏng khá nhiều phần tự động hóa
    • Khá ngạc nhiên khi họ mặc định mọi người đều dùng dịch vụ Apple
  • Khoảng năm 2011, Yellow Pages vẫn giao danh bạ giấy tới mọi địa chỉ trong cả bang. Thành phố tôi hôm sau còn cho riêng xe tái chế tạm thời đi thu gom hết, vì ai cũng vứt đi
    Tôi và đồng nghiệp thấy form opt-out chỉ cần địa chỉ. Chúng tôi từng nghĩ đến việc gom mọi địa chỉ đã biết trên toàn quốc rồi tự động gửi trong vài tháng để opt-out tất cả, nhưng cuối cùng không làm, và chỉ cười tưởng tượng xem các web developer của Yellow Pages sẽ họp khẩn khi tỷ lệ opt-out lên đến bao nhiêu phần trăm
    • Cùng thời gian đó, anh trai tôi cho những người làm nghề giao danh bạ điện thoại thuê vài phòng trong nhà. Ở một quốc gia khác, nhưng có vẻ Yellow Pages ở đâu cũng có
      Mấy người giao hàng không xoay xở nổi nên cuối cùng bắt đầu chất đống rồi đốt danh bạ. Vì chẳng ai nhớ nhung danh bạ điện thoại, nên khá lâu sau họ mới bị phát hiện
    • Phía Yellow Pages chắc sẽ giả vờ như không nhận được yêu cầu opt-out. Cũng như một nửa các công ty direct mail và đám spammer vẫn làm
      Tôi đã khá vất vả để chặn Uline gửi mấy cuốn catalog giấy khổng lồ đến hộp thư bưu điện hai ba lần mỗi năm. Họ có form, nhưng cứ phớt lờ yêu cầu
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • Khi bàn về quyền riêng tư dữ liệu của dự án ở Australia Post, tôi không nhịn được mà đùa rằng: “Chẳng phải các anh đang định kỳ phát tán dữ liệu cá nhân của hàng triệu người mỗi năm, rồi để thông tin trước cửa nhà để ai cũng nhìn thấy sao?”
  • Việc họ làm không thực sự cải thiện xã hội, nên trong một xã hội lành mạnh thì phải có khả năng đặt nó ra ngoài vòng pháp luật. Nhưng hiện tại chúng ta không làm vậy nên chưa thể
    • Hoàn toàn có thể cấm bằng luật. Dưới GDPR, việc thu thập và bán dữ liệu cá nhân ở quy mô lớn khó hợp pháp hơn rất nhiều
      Không có nghĩa là chuyện đó không còn xảy ra, nhưng nó tạo cơ sở pháp lý để chống lại. noyb.eu / Max Schrems và những người khác đang làm công việc rất quan trọng và tuyệt vời ở mặt trận này
  • “Giải CAPTCHA bằng CapSolver (dùng AI, khoảng $0.001 mỗi lần giải)”, vậy là tôi nghi đúng. Không lẽ chỉ mình tôi vẫn khó chịu với kiểu CAPTCHA cổ điển này
    • Tùy loại CAPTCHA, nhưng có lý do để Apple, Cloudflare và Google chuyển sang remote attestation như một cách chứng minh là người
      reCAPTCHA v3 Enterprise và MtCaptcha đắt gấp hẳn 3 lần, ở mức $3 cho 1000 lần giải. Vì vậy có vẻ đây là CAPTCHA hấp dẫn để nhắm tới
    • Làm tôi muốn mua một dịch vụ giải CAPTCHA trả phí để cuộc sống dễ thở hơn
    • Có vẻ họ còn có extension cho trình duyệt: https://www.capsolver.com/products/browser-extension
  • Có vẻ phần duy nhất bị ràng buộc với macOS là launchd, và thông tin này nên được thêm vào tài liệu sẽ hữu ích hơn. Tôi không rõ có thể chỉ chạy từ CLI hay không
    Hỗ trợ systemd có lẽ khá dễ. Còn Windows thì tôi không rõ dùng gì
    • Tạo Windows service thì khó hơn một chút. Windows dùng API thật cho service, chứ không chỉ dựa vào chạy process và script đơn giản
      Tuy vậy, với Task Scheduler thì có nhiều cách để lên lịch các tác vụ như chạy mỗi tháng một lần
    • Dùng sc.exe hoặc tasksched là được
  • Với tôi, phần thú vị nhất là theo dõi trạng thái và đường lui thủ công. Một công cụ như thế này rất nên có chế độ dry-run/audit để cho thấy trước khi gửi thật thì trường nào sẽ được gửi cho broker nào
    Mô hình đe dọa ở đây khá mơ hồ: công cụ có thể giúp giảm mức độ lộ dữ liệu, nhưng một selector lỗi cũng có thể làm rò rỉ dữ liệu cá nhân sang nơi không mong muốn
  • Tôi tự hỏi liệu đây có vô tình trở thành một cách tự động hóa rất tốt để gửi thông tin của tôi đến 500 data broker hay không
    • Tôi chưa kiểm tra xem ở bước 3 cần cung cấp chính xác những gì, nhưng nếu nó tự động điền và gửi form opt-out thì có lẽ sẽ cần nhiều hơn tên và địa chỉ
      Một giải pháp tốt hơn nhiều là thúc đẩy một đạo luật kiểu GDPR tại Mỹ
  • Ít nhất ở California, mẫu DROP dự kiến sẽ được cung cấp online vào mùa thu này
    • Từ góc nhìn người làm trong ngành, ngày 1 tháng 8 đang treo lơ lửng như thanh gươm Damocles trên đầu khoảng 500 data broker đã đăng ký ở California
      Với người tiêu dùng thì nó đã mở rồi. Bạn có thể đăng ký cùng 275 nghìn người hàng xóm của mình
  • Thú vị đấy. Không biết có ai đã dùng một thời gian chưa, và liệu nó có thực sự giúp giảm spam hay không