2 điểm bởi GN⁺ 2026-02-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các hãng truyền thông lớn đang chặn hoặc hạn chế truy cập từ Internet Archive để ngăn việc thu thập dữ liệu phục vụ huấn luyện AI
  • The Guardian đã loại trừ các trang bài viết khỏi API của Internet Archive và Wayback Machine, chỉ giữ lại một số trang chủ và trang chủ đề
  • The New York Times từ cuối năm 2025 đã thêm archive.org_bot vào robots.txt để chặn hoàn toàn việc crawl
  • 241 trang tin, bao gồm Gannett (USA Today Co.), đã chặn ít nhất một bot của Internet Archive; nhiều nơi đồng thời chặn cả Common Crawl, OpenAI và Google AI
  • Những động thái này vừa là phản ứng trước việc các công ty AI sử dụng dữ liệu trái phép, vừa cho thấy bài toán cân bằng giữa lưu trữ hồ sơ số và khả năng tiếp cận thông tin

Các hãng tin lớn hạn chế truy cập Internet Archive

  • The Guardian đã hạn chế truy cập do lo ngại các công ty AI có thể thu thập nội dung thông qua Internet Archive
    • Loại trừ các trang bài viết của mình khỏi giao diện URL bài viết trong API và Wayback Machine
    • Các trang như trang chủ khu vực và trang chủ đề vẫn có thể truy cập trên Wayback Machine
    • Robert Hahn cho biết: “Các công ty AI ưa chuộng cơ sở dữ liệu có cấu trúc, và API của Internet Archive có thể trở thành con đường đó”
  • The Guardian cho biết không chặn hoàn toàn, đồng thời tôn trọng sứ mệnh dân chủ hóa thông tin của Internet Archive
    • Tuy vậy, họ đang xem xét lại lập trường trong quá trình rà soát chính sách quản lý bot thời gian tới

Phản ứng của The New York Times và Financial Times

  • The New York Times đã thêm archive.org_bot vào robots.txt và “hard block” crawler của Internet Archive
    • Tờ báo giải thích rằng “Wayback Machine cung cấp không giới hạn nội dung của Times cho bên thứ ba, bao gồm cả các công ty AI”
  • Financial Times đã chặn tất cả các bot liên quan như OpenAI, Anthropic, Perplexity và Internet Archive để bảo vệ nội dung trả phí
    • Do phần lớn bài viết của FT là nội dung trả phí, Wayback Machine chỉ còn lưu lại các bài công khai

Xung đột giữa Reddit và Internet Archive

  • Reddit đã chặn truy cập của Internet Archive vào tháng 8 năm 2025
    • Lý do là đã có trường hợp các công ty AI scraping dữ liệu Reddit thông qua Wayback Machine
    • Reddit cho biết đây là “biện pháp hạn chế nhằm ngăn hoạt động của các công ty AI vi phạm chính sách nền tảng”
  • Reddit trước đó đã ký thỏa thuận cấp phép dữ liệu cho huấn luyện AI với Google

Lập trường và phản ứng của Internet Archive

  • Nhà sáng lập Brewster Kahle cảnh báo rằng nếu các nhà xuất bản hạn chế các thư viện như Internet Archive thì khả năng tiếp cận hồ sơ lịch sử công cộng sẽ suy giảm
  • Kahle cho biết trên Mastodon rằng “một số bộ sưu tập không cho phép tải hàng loạt, đồng thời đang sử dụng giới hạn tốc độ, lọc và dịch vụ bảo mật Cloudflare
  • Vào tháng 5/2023, từng có trường hợp một công ty AI gây quá tải máy chủ bằng lượng lớn request khiến Internet Archive phải tạm ngưng hoạt động
    • Sau đó, công ty này đã xin lỗi và quyên góp

Phân tích dữ liệu: tình hình chặn trên các trang tin toàn cầu

  • Nieman Lab đã phân tích cơ sở dữ liệu 1.167 trang tin của Ben Welsh để khảo sát mức độ chặn liên quan đến Internet Archive
    • 241 trang tin chặn ít nhất một bot của Internet Archive
    • 87% trong số đó là các cơ quan truyền thông thuộc USA Today Co. (Gannett), đã thêm archive.org_bot và ia_archiver-web.archive.org vào robots.txt trong năm 2025
    • Một số trang của Gannett hiển thị thông báo “URL này đã bị loại trừ” trên Wayback Machine
  • Gannett cho biết họ đã “triển khai giao thức mới để ngăn việc thu thập dữ liệu trái phép”, đồng thời báo cáo rằng riêng trong tháng 9/2025 đã chặn 75 triệu bot AI, trong đó 70 triệu đến từ OpenAI
  • 3 trang thuộc Group Le Monde, gồm Le MondeLe Huffington Post, đã chặn cả ba crawler của Internet Archive

Xu hướng mở rộng chặn crawler liên quan đến AI

  • Không chỉ Internet Archive, các crawler AI lớn như Common Crawl, OpenAI và Google AI cũng đang bị chặn ngày càng nhiều
    • Trong số 241 trang, có 240 trang chặn Common Crawl, và 231 trang chặn bot của OpenAI và Google AI
  • Common Crawl được đánh giá là có mức độ liên kết cao với hoạt động phát triển LLM thương mại

Bài toán cân bằng giữa lưu trữ internet và tiếp cận thông tin

  • Internet Archive là dự án lưu trữ web toàn diện nhất tại Mỹ, trong bối cảnh nhiều tổ chức tin tức không có năng lực tự lưu trữ riêng
  • Tháng 12/2025, Poynter và Internet Archive đã cùng công bố chương trình đào tạo bảo tồn tin tức địa phương
  • Hahn nhận định: “Internet Archive vận hành với thiện chí, nhưng ý định tốt đang tạo ra tác dụng phụ khi bị lạm dụng

1 bình luận

 
GN⁺ 2026-02-15
Ý kiến trên Hacker News
  • Nếu là một cơ quan báo chí từ chối việc lưu trữ hồ sơ độc lập, thì tôi nghĩ không thể tin vào tin tức của họ
    Việc có cho phép AI scraping hay không không quan trọng, nhưng nội dung nhất định phải có thể được lưu trữ độc lập từ bên ngoài
    • Tôi cũng nghĩ vậy. Hồ sơ độc lập là điều thiết yếu
    • Tôi có cảm giác không có nguồn tin nào thực sự đáng tin. Phần lớn đều đang đẩy một chương trình nghị sự có chủ đích, giờ thậm chí cũng không còn che giấu nữa
  • Vấn đề này có khía cạnh compliance (tuân thủ quy định)
    Các quy định như SOC 2 hay HIPAA yêu cầu audit trail (dấu vết kiểm toán) và lưu giữ bằng chứng
    Nhưng nếu tài liệu bảo mật hoặc báo cáo ứng phó sự cố biến mất khỏi web, chuỗi bằng chứng kiểm toán bị đứt đoạn, và tôi đã thấy có công ty trượt kỳ đánh giá chứng nhận vì điều đó
    Cuối cùng, việc web trở nên không thể lưu trữ không chỉ là tổn thất văn hóa mà còn đang trở thành rủi ro vận hành
    • Tôi tìm ví dụ thử thì ngay kết quả đầu tiên đã là 404
      Trang AWS Compliance Reports là đúng kiểu trường hợp đó
    • Tôi đã trải qua nhiều đợt kiểm toán SOC ở các tập đoàn tài chính lớn, và quá trình định nghĩa công việc nào là 'critical' đã gây xung đột rất lớn giữa các bộ phận
      Ngay cả việc dọn dẹp log đơn giản cũng thành ra có tranh cãi về mức độ quan trọng
    • Có lẽ cuối cùng các công ty bảo hiểm sẽ bắt đầu yêu cầu lưu bản giấy của tài liệu để tránh những vấn đề này
      Chỉ cần vài vụ tổn thất lớn là chuyện đó có thể thành hiện thực
    • Những công ty như Page Vault đã tồn tại để giải quyết chính loại vấn đề này
    • Nhưng cũng có nghi ngờ rằng người viết bình luận này trông giống một tài khoản công cụ AI
      Gần đây trên HN có rất nhiều tài khoản theo kiểu này nên khá đáng lo
  • Thay vì để các công ty AI quét Internet Archive một lần, có lẽ họ sẽ dùng residential proxy để lặp đi lặp lại việc quét từng site riêng lẻ
    Cuối cùng người chịu thiệt là người dùng bình thường, những người không có tài nguyên để scrape toàn bộ web
    Tôi từng mơ về một web nơi nội dung được rehost dựa trên hash — IPFS đã thử điều đó nhưng đáng tiếc là thất bại
    • Thực tế là các công ty AI scrape lặp lại cùng một trang. Trang cá nhân của tôi không thay đổi gì mà vẫn liên tục nhận request
    • IPFS là dự án từng nhắm tới mô hình như vậy
    • Lưu lượng proxy từ Việt Nam và Hàn Quốc đang làm máy chủ của tôi quá tải. 3500 request mỗi giây là không thể chịu nổi
    • Các công ty AI đã dùng mạng proxy thông qua thiết bị hoặc ứng dụng bị nhiễm rồi
    • Tôi nghĩ các proxy kiểu này sẽ không tồn tại lâu. Áp lực thương mại sẽ khiến chúng giảm đi
      Nhưng dù đã có Common Crawl, tôi vẫn thắc mắc vì sao các công ty AI cứ tiếp tục tự crawl trực tiếp
  • Lo ngại của Brewster về việc lưu giữ hồ sơ lịch sử là rất thực tế
    Nếu không có lưu trữ riêng, thì bài báo của các cơ quan truyền thông cuối cùng cũng sẽ biến mất
    Ví dụ, nếu biên tập viên Wikipedia không thể giữ ổn định liên kết tới bài của Times, thì cuối cùng nó sẽ bị thay bằng bài của WaPo
    Đây đúng là bi kịch của tài nguyên chung
  • Tôi đang vận hành một dự án mã nguồn mở tên là Linkwarden
    Đây là công cụ giúp các nhóm bảo toàn URL một cách ổn định mà không phải phụ thuộc vào dịch vụ bên ngoài
    Nó lưu dưới nhiều định dạng như HTML snapshot, screenshot, PDF, reader view
    Có cả bản cloud-hosted (linkwarden.app) và bản self-hosted (kho GitHub)
    • Linkwarden rất tuyệt. Dùng cùng với tiện ích SingleFile thì có thể lưu cả những trang chặn scraper
      Chỉ là về mặt UX thì sẽ tốt hơn nếu có tính năng đánh dấu 'đã đọc/lưu trữ'
    • Tôi tò mò về cách tích hợp với archive.org. Nó chỉ gửi URL hay lưu trực tiếp dữ liệu do client tải về?
  • Vấn đề này cũng ảnh hưởng tới lĩnh vực khoa học
    Lỗi metadata đang tăng lên, và cả các công cụ tìm kiếm khoa học như Google Scholar cũng đang xuống cấp
    Có vẻ một số nhà xuất bản khoa học lớn cũng đang chặn bot AI
    • Hơn nữa, chất lượng tìm kiếm của chính Google cũng đã tệ đi. Càng lúc càng có cảm giác tầm nhìn thông tin đang bị thu hẹp
    • Việc chặn truy cập bằng AI đối với các kết quả khoa học được nghiên cứu bằng tiền công là xâm hại lợi ích công cộng
    • Dù vậy, nhờ PubMed và các toán tử tìm kiếm chính xác nên hiện vẫn còn trụ được
  • Các cơ quan báo chí như The Guardian và NYT đang chặn Internet Archive và Common Crawl
    20% toàn bộ các site tin tức đang chặn cả hai nơi
    Ví dụ, bài viết trên realtor.com không thể được lưu trên IA vì lỗi 429
    • IA sẽ dừng archive khi được yêu cầu, nhưng scraper độc hại thì không
      Kết cục là phía tốt bị chặn còn phía xấu thì vẫn còn
    • Có người yêu cầu bằng chứng rằng The Guardian thật sự chặn IA. Tự kiểm tra thì thấy vẫn hoạt động bình thường
    • Tôi nghĩ sẽ hay nếu có một kho lưu trữ crowdsourcing dựa trên extension trình duyệt
      Nhưng bài toán là làm sao lọc ra các trang có chứa thông tin cá nhân
  • Ấn tượng đầu tiên của tôi là các công ty tin tức đang dùng AI làm cái cớ cho vấn đề bản quyền
    • Với tư cách người vận hành website, hơn 90% traffic của tôi là bot và spam
      Từ khi các công ty AI bắt đầu dùng proxy, tôi đã chặn toàn bộ các quốc gia ngoài phạm vi mục tiêu
      Internet đã trở thành một hệ sinh thái bệnh hoạn
  • Tôi tự hỏi liệu các cơ quan báo chí có cởi mở hơn với kho lưu trữ riêng tư phục vụ nghiên cứu học thuật và báo chí hay không
    Nếu điều kiện là tuyệt đối không được cung cấp cho việc huấn luyện mô hình của doanh nghiệp, thì có lẽ vẫn khả thi
    • Họ đã cung cấp kho lưu trữ có giấy phép trả phí cho thư viện rồi. Việc ngăn lạm dụng là khả thi
    • Phần lớn các cơ quan báo chí đều có hợp đồng phân phối nội dung (syndication)
      Vấn đề là LLM đang hút hết chuỗi giá trị mà không mang lại giá trị hoàn trả
    • Nội bộ thì có lẽ họ vẫn có kho lưu trữ, nhưng vấn đề là khả năng tiếp cận công khai
  • Tôi nghĩ đến ý tưởng về một plugin trình duyệt crowdsourcing tự động gửi vào kho lưu trữ các trang mà người dùng đã xem
    Chỉ ghi lại những domain mà người dùng cho phép, và nếu là mã nguồn mở thì cũng giảm bớt lo ngại về quyền riêng tư
    Đây không phải crawl tự động mà là chỉ tải lên một phần các lượt xem từ người dùng thật
    • SingleFile làm kiểu lưu trữ này khá tốt
      Nhưng site có thể nhúng thông tin nhận diện người dùng một cách kín đáo, nên có rủi ro lộ dữ liệu cá nhân
    • Một vấn đề khác là rất khó đảm bảo dữ liệu người dùng gửi lên không bị chỉnh sửa
      Nếu dùng như hồ sơ lịch sử thì khó bảo đảm độ tin cậy