- Các hãng truyền thông lớn đang chặn hoặc hạn chế truy cập từ Internet Archive để ngăn việc thu thập dữ liệu phục vụ huấn luyện AI
- The Guardian đã loại trừ các trang bài viết khỏi API của Internet Archive và Wayback Machine, chỉ giữ lại một số trang chủ và trang chủ đề
- The New York Times từ cuối năm 2025 đã thêm archive.org_bot vào robots.txt để chặn hoàn toàn việc crawl
- 241 trang tin, bao gồm Gannett (USA Today Co.), đã chặn ít nhất một bot của Internet Archive; nhiều nơi đồng thời chặn cả Common Crawl, OpenAI và Google AI
- Những động thái này vừa là phản ứng trước việc các công ty AI sử dụng dữ liệu trái phép, vừa cho thấy bài toán cân bằng giữa lưu trữ hồ sơ số và khả năng tiếp cận thông tin
Các hãng tin lớn hạn chế truy cập Internet Archive
- The Guardian đã hạn chế truy cập do lo ngại các công ty AI có thể thu thập nội dung thông qua Internet Archive
- Loại trừ các trang bài viết của mình khỏi giao diện URL bài viết trong API và Wayback Machine
- Các trang như trang chủ khu vực và trang chủ đề vẫn có thể truy cập trên Wayback Machine
- Robert Hahn cho biết: “Các công ty AI ưa chuộng cơ sở dữ liệu có cấu trúc, và API của Internet Archive có thể trở thành con đường đó”
- The Guardian cho biết không chặn hoàn toàn, đồng thời tôn trọng sứ mệnh dân chủ hóa thông tin của Internet Archive
- Tuy vậy, họ đang xem xét lại lập trường trong quá trình rà soát chính sách quản lý bot thời gian tới
Phản ứng của The New York Times và Financial Times
- The New York Times đã thêm archive.org_bot vào robots.txt và “hard block” crawler của Internet Archive
- Tờ báo giải thích rằng “Wayback Machine cung cấp không giới hạn nội dung của Times cho bên thứ ba, bao gồm cả các công ty AI”
- Financial Times đã chặn tất cả các bot liên quan như OpenAI, Anthropic, Perplexity và Internet Archive để bảo vệ nội dung trả phí
- Do phần lớn bài viết của FT là nội dung trả phí, Wayback Machine chỉ còn lưu lại các bài công khai
Xung đột giữa Reddit và Internet Archive
- Reddit đã chặn truy cập của Internet Archive vào tháng 8 năm 2025
- Lý do là đã có trường hợp các công ty AI scraping dữ liệu Reddit thông qua Wayback Machine
- Reddit cho biết đây là “biện pháp hạn chế nhằm ngăn hoạt động của các công ty AI vi phạm chính sách nền tảng”
- Reddit trước đó đã ký thỏa thuận cấp phép dữ liệu cho huấn luyện AI với Google
Lập trường và phản ứng của Internet Archive
- Nhà sáng lập Brewster Kahle cảnh báo rằng nếu các nhà xuất bản hạn chế các thư viện như Internet Archive thì khả năng tiếp cận hồ sơ lịch sử công cộng sẽ suy giảm
- Kahle cho biết trên Mastodon rằng “một số bộ sưu tập không cho phép tải hàng loạt, đồng thời đang sử dụng giới hạn tốc độ, lọc và dịch vụ bảo mật Cloudflare”
- Vào tháng 5/2023, từng có trường hợp một công ty AI gây quá tải máy chủ bằng lượng lớn request khiến Internet Archive phải tạm ngưng hoạt động
- Sau đó, công ty này đã xin lỗi và quyên góp
Phân tích dữ liệu: tình hình chặn trên các trang tin toàn cầu
- Nieman Lab đã phân tích cơ sở dữ liệu 1.167 trang tin của Ben Welsh để khảo sát mức độ chặn liên quan đến Internet Archive
- 241 trang tin chặn ít nhất một bot của Internet Archive
- 87% trong số đó là các cơ quan truyền thông thuộc USA Today Co. (Gannett), đã thêm archive.org_bot và ia_archiver-web.archive.org vào robots.txt trong năm 2025
- Một số trang của Gannett hiển thị thông báo “URL này đã bị loại trừ” trên Wayback Machine
- Gannett cho biết họ đã “triển khai giao thức mới để ngăn việc thu thập dữ liệu trái phép”, đồng thời báo cáo rằng riêng trong tháng 9/2025 đã chặn 75 triệu bot AI, trong đó 70 triệu đến từ OpenAI
- 3 trang thuộc Group Le Monde, gồm Le Monde và Le Huffington Post, đã chặn cả ba crawler của Internet Archive
Xu hướng mở rộng chặn crawler liên quan đến AI
- Không chỉ Internet Archive, các crawler AI lớn như Common Crawl, OpenAI và Google AI cũng đang bị chặn ngày càng nhiều
- Trong số 241 trang, có 240 trang chặn Common Crawl, và 231 trang chặn bot của OpenAI và Google AI
- Common Crawl được đánh giá là có mức độ liên kết cao với hoạt động phát triển LLM thương mại
Bài toán cân bằng giữa lưu trữ internet và tiếp cận thông tin
- Internet Archive là dự án lưu trữ web toàn diện nhất tại Mỹ, trong bối cảnh nhiều tổ chức tin tức không có năng lực tự lưu trữ riêng
- Tháng 12/2025, Poynter và Internet Archive đã cùng công bố chương trình đào tạo bảo tồn tin tức địa phương
- Hahn nhận định: “Internet Archive vận hành với thiện chí, nhưng ý định tốt đang tạo ra tác dụng phụ khi bị lạm dụng”
1 bình luận
Ý kiến trên Hacker News
Việc có cho phép AI scraping hay không không quan trọng, nhưng nội dung nhất định phải có thể được lưu trữ độc lập từ bên ngoài
Các quy định như SOC 2 hay HIPAA yêu cầu audit trail (dấu vết kiểm toán) và lưu giữ bằng chứng
Nhưng nếu tài liệu bảo mật hoặc báo cáo ứng phó sự cố biến mất khỏi web, chuỗi bằng chứng kiểm toán bị đứt đoạn, và tôi đã thấy có công ty trượt kỳ đánh giá chứng nhận vì điều đó
Cuối cùng, việc web trở nên không thể lưu trữ không chỉ là tổn thất văn hóa mà còn đang trở thành rủi ro vận hành
Trang AWS Compliance Reports là đúng kiểu trường hợp đó
Ngay cả việc dọn dẹp log đơn giản cũng thành ra có tranh cãi về mức độ quan trọng
Chỉ cần vài vụ tổn thất lớn là chuyện đó có thể thành hiện thực
Gần đây trên HN có rất nhiều tài khoản theo kiểu này nên khá đáng lo
Cuối cùng người chịu thiệt là người dùng bình thường, những người không có tài nguyên để scrape toàn bộ web
Tôi từng mơ về một web nơi nội dung được rehost dựa trên hash — IPFS đã thử điều đó nhưng đáng tiếc là thất bại
Nhưng dù đã có Common Crawl, tôi vẫn thắc mắc vì sao các công ty AI cứ tiếp tục tự crawl trực tiếp
Nếu không có lưu trữ riêng, thì bài báo của các cơ quan truyền thông cuối cùng cũng sẽ biến mất
Ví dụ, nếu biên tập viên Wikipedia không thể giữ ổn định liên kết tới bài của Times, thì cuối cùng nó sẽ bị thay bằng bài của WaPo
Đây đúng là bi kịch của tài nguyên chung
Đây là công cụ giúp các nhóm bảo toàn URL một cách ổn định mà không phải phụ thuộc vào dịch vụ bên ngoài
Nó lưu dưới nhiều định dạng như HTML snapshot, screenshot, PDF, reader view
Có cả bản cloud-hosted (linkwarden.app) và bản self-hosted (kho GitHub)
Chỉ là về mặt UX thì sẽ tốt hơn nếu có tính năng đánh dấu 'đã đọc/lưu trữ'
Lỗi metadata đang tăng lên, và cả các công cụ tìm kiếm khoa học như Google Scholar cũng đang xuống cấp
Có vẻ một số nhà xuất bản khoa học lớn cũng đang chặn bot AI
20% toàn bộ các site tin tức đang chặn cả hai nơi
Ví dụ, bài viết trên realtor.com không thể được lưu trên IA vì lỗi 429
Kết cục là phía tốt bị chặn còn phía xấu thì vẫn còn
Nhưng bài toán là làm sao lọc ra các trang có chứa thông tin cá nhân
Từ khi các công ty AI bắt đầu dùng proxy, tôi đã chặn toàn bộ các quốc gia ngoài phạm vi mục tiêu
Internet đã trở thành một hệ sinh thái bệnh hoạn
Nếu điều kiện là tuyệt đối không được cung cấp cho việc huấn luyện mô hình của doanh nghiệp, thì có lẽ vẫn khả thi
Vấn đề là LLM đang hút hết chuỗi giá trị mà không mang lại giá trị hoàn trả
Chỉ ghi lại những domain mà người dùng cho phép, và nếu là mã nguồn mở thì cũng giảm bớt lo ngại về quyền riêng tư
Đây không phải crawl tự động mà là chỉ tải lên một phần các lượt xem từ người dùng thật
Nhưng site có thể nhúng thông tin nhận diện người dùng một cách kín đáo, nên có rủi ro lộ dữ liệu cá nhân
Nếu dùng như hồ sơ lịch sử thì khó bảo đảm độ tin cậy