Kêu gọi NYT, The Atlantic và USA Today tiếp tục cho phép Wayback Machine lưu trữ

(savethearchive.com)

2 điểm bởi GN⁺ 2026-05-14 | 1 bình luận | Chia sẻ qua WhatsApp

Các cơ quan báo chí lớn như New York Times, The Atlantic, USA Today đang chặn Wayback Machine lưu trữ nội dung tin tức, làm dấy lên lời kêu gọi chấm dứt việc này
Các lãnh đạo truyền thông lớn cần công khai cam kết hợp tác với Internet Archive để lưu trữ toàn bộ tin tức trên Wayback Machine
Năm 2026 được nêu là năm đầu tiên sau 30 năm mà vào World Press Freedom Day, tác phẩm của các hãng tin lớn không được lưu trữ trên Internet Archive
Những lo ngại về AI mà các tòa soạn đưa ra để biện minh cho lệnh cấm bị xem là giả định; trong kỷ nguyên AI tạo sinh, việc lưu trữ độc lập lại càng quan trọng hơn
Trong bối cảnh kiểm duyệt, chủ nghĩa độc tài và cả các đe dọa giết nhà báo gia tăng, việc lưu trữ bởi bên thứ ba trung lập giúp bảo đảm các bài báo không biến mất

Bối cảnh của việc chặn

Năm 2026 được nêu là năm đầu tiên sau 30 năm mà vào World Press Freedom Day, tác phẩm của các cơ quan báo chí lớn như New York Times, The Atlantic và USA Today không được lưu trữ tại tổ chức phi lợi nhuận độc lập Internet Archive
New York Times từ tháng 2 năm nay đã yêu cầu Internet Archive không cho Wayback Machine lưu trữ tác phẩm của các phóng viên của họ
Theo bài viết của Wired, USA Today vẫn xuất bản các bài điều tra mạnh mẽ dựa vào Wayback Machine, nhưng lại chặn chính những bài đó được Wayback Machine lưu trữ
Sau khi hơn 100 nhà báo gửi thư ủng hộ việc Internet Archive lưu trữ báo chí, CEO của The Atlantic đã đưa ra phản hồi, nhưng không cam kết sẽ tìm ra giải pháp

Lo ngại về AI và vai trò của Wayback Machine

Những lo ngại về AI mà các cơ quan này nêu ra để cấm Wayback Machine được xem là hoàn toàn mang tính giả định
AI tạo sinh không thể là lý do để che giấu báo chí làm việc có nguyên tắc khỏi những người kiểm chứng sự thật; ngược lại, điều đó càng làm tăng nhu cầu đối với Wayback Machine
Các công ty AI có thể phớt lờ quy tắc như những trang lưu trữ bắt chước, lấy tin từ website nhà xuất bản mà không cần đồng ý, và gần như không có cách nào để ngăn việc đó
Wayback Machine khác với các dịch vụ cố dùng từ “archive” để trông giống Internet Archive, và đây không phải là một dịch vụ tạm thời
Wayback Machine đã lưu trữ tin tức lâu hơn cả độ tuổi của nhiều người ký tên vào bản kiến nghị này
Wayback Machine không phải là dịch vụ vượt paywall, mà là một tài sản công phi lợi nhuận độc lập phục vụ việc lưu trữ báo chí
Lý do Internet Archive không hành xử như phần lớn Silicon Valley là vì integrity, và chính điều đó khiến Internet Archive trở thành một tổ chức đáng tin cậy và có thể vận hành lâu dài

Lưu trữ báo chí và tính công cộng

Tự do báo chí không chỉ là tự do viết bài, mà còn bao gồm quyền được đọc và được ghi nhớ qua nhiều thế hệ của những tác phẩm đó
Khi kiểm duyệt và chủ nghĩa độc tài gia tăng, áp lực buộc phải sửa bài hoặc xóa bỏ sự thật cũng tăng theo
Các nhà báo thường xuyên nhận đe dọa giết người, và nhiều người đã thiệt mạng trong năm qua vì chính công việc của mình
Trong bối cảnh này, cần củng cố việc lưu trữ trung lập bởi bên thứ ba của Wayback Machine để bảo đảm tác phẩm của nhà báo không biến mất
Các bài báo cần phải tiếp cận được không chỉ với đồng nghiệp và người thân còn sống, mà còn với con mắt của lịch sử
Wayback Machine giúp các cơ quan báo chí trực tuyến đứng vững hơn trước áp lực phải xóa những bài viết đe dọa người nắm quyền
Với những cơ quan báo chí thực sự làm báo, ủng hộ liên minh như vậy cũng phù hợp với lợi ích của chính họ

Yêu cầu và tài liệu tham khảo

Ban lãnh đạo các cơ quan truyền thông lớn cần công khai cam kết hợp tác với Internet Archive để lưu trữ mọi tin tức trên Wayback Machine
Việc tìm ra cách lưu trữ tin tức một cách độc lập lẽ ra không nên khó đến vậy
Tài liệu tham khảo
- Wired
- Marketplace
- TechRadar
- The Verge
- Forbes

1 bình luận

GN⁺ 2026-05-14

Ý kiến trên Hacker News

Có người thắc mắc liệu chuyện này có xảy ra vì archive.org tôn trọng robots.txt, và các trang đó đã chặn việc lập chỉ mục của crawler hay không
Thật đáng thất vọng khi việc “hành xử đúng đắn” là tuân thủ robots.txt lại biến thành gánh nặng phải phản hồi các kiến nghị, còn bên phớt lờ cùng chỉ thị đó thì lại được hưởng lợi
- Nếu một crawler có mức độ nhận diện cao như archive.org phớt lờ robots.txt thì rất có thể sẽ phải đối mặt với kiện tụng hoặc các áp lực khác
  Đây không đơn thuần là một lựa chọn đạo đức mà gần như là lựa chọn hợp lý duy nhất, và lý do “bên kia được lợi” là vì các chủ thể có nghĩa vụ kiểu lời hứa nhưng quá nhỏ hoặc hoạt động trong vùng tối thì ít có động cơ để bị kiện đến cùng
- Đúng vậy. Trong robots.txt của nytimes.com có đoạn như thế này: User-agent: archive.org_bot / Disallow: /
- Lý do là họ muốn ngăn các công ty AI đánh cắp nội dung, nhưng nếu Internet Archive proxy toàn bộ nội dung thay họ thì sẽ không chặn được
  Nếu không thể cào được tin tức mới nhất, mọi mô hình ngôn ngữ lớn hẳn sẽ kém hữu dụng hơn nhiều
- Không, archive.org không tôn trọng robots.txt. Bạn phải liên hệ trực tiếp và yêu cầu họ đừng đưa trang của bạn vào: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
- Đây là kiểu ngớ ngẩn do DRM tạo ra
  Chẳng khác nào bảo người ta hãy làm hải tặc, vì hải tặc thì tự do
Vấn đề có vẻ là nếu Archive.org có thể truy cập nội dung của NYT và các nhà xuất bản khác, thì ngay cả khi người ta không thể cào trực tiếp quy mô lớn từ NYT, họ vẫn có thể thu thập hàng loạt nội dung NYT thông qua Archive.org
Nếu Archive.org chặn scraper, các nhà xuất bản có thể sẽ chọn cách khác và cho phép truy cập Archive.org
Ý tưởng: có thể cho phép scraping nhưng không được công khai trong vòng 1 năm thì sao?
- Cũng nên lập một quỹ kiện tụng chung để Archive có thể buộc các crawler LLM phải đóng góp ngược trở lại
Có vẻ họ cũng có thể dùng cơ chế escrow, giống như Financial Times hiện được cung cấp trên dịch vụ NewsBank với escrow 30 ngày
Nếu đội chiếc mũ thuyết âm mưu lên, thì có lẽ một phần lý do là họ thích trạng thái có thể âm thầm chỉnh sửa rồi giả như các phiên bản bài viết cũ chưa từng tồn tại
Những người chưa từng xem quảng cáo của các tổ chức đó và cũng chưa từng trả phí thuê bao, giờ lại muốn đấu tranh để yêu cầu các tổ chức ấy phải chừa một cửa sau cho mình sao?
Tôi có biết đôi chút về tranh luận này từ phía Times và Atlantic. Có thể sẽ bị chửi, nhưng tôi đã hỏi một người cấp cao ở bên trước rằng họ nghĩ gì về các cách vượt paywall phổ biến trên HN, và thật sự ngạc nhiên khi họ còn chưa từng nghe nói đến chúng
Cuối cùng họ đồng ý rằng một điểm cân bằng hợp lý là công khai sau 30 ngày, và nếu sau này việc đó trở nên cần thiết thì đặt giới hạn truy cập kiểu không được lấy quá N lần mỗi ngày. Theo tôi biết, Internet Archive chưa chủ động liên hệ mạnh mẽ về vấn đề này, và nên gây áp lực để cả nhà xuất bản lẫn Internet Archive ngồi vào đàm phán
- Nghe như một phương án thỏa hiệp khá ổn. Các tổ chức tin tức vẫn giữ được đợt tăng vọt pageview ban đầu, còn vai trò thông tin miễn phí / thư viện phổ quát của internet cũng được duy trì
  Dù vậy, các tạp chí vẫn sẽ muốn kiểm soát kho nội dung cũ của họ. Ngay lúc này họ đã bán quyền truy cập cho thư viện và trường đại học, và như HN đã nhiều lần đề cập, một số tổ chức tin tức có thể muốn thay đổi hoặc cập nhật bài viết mà không để lại “lịch sử chỉnh sửa” công khai
- Internet Archive có thường xuyên bị dùng để vượt paywall không? Thường là archive.is, và nó không liên quan đến IA
- Việc không được lấy quá N lần mỗi ngày “nếu nó trở nên có liên quan”, dù nhìn kiểu nào thì chẳng phải cũng có lợi cho họ sao?
  Khiến tôi tự hỏi liệu ở đâu đó có một bảng điều khiển thống kê số hóa đáng buồn đang bật sẵn, và sự sùng bái con số ấy có đang thay thế tinh thần nguyên bản của báo chí hay không
- Cũng không quá bất ngờ. Họ đang vận hành với một mô hình của thời đại sai lầm và các động lực khuyến khích sai lầm
  Họ vẫn hành xử như thể đang sống trong một thế giới nơi dữ liệu và thông tin khan hiếm, và họ là nguồn chân lý duy nhất. Giờ thì mọi thứ đã đảo ngược: không còn một chuẩn chân lý đơn nhất nào, nhưng dữ liệu và thông tin lại dư dả, và trong sự dư dả đó cũng có cả dữ liệu giả và dối trá. Công việc điều tra của NYT và Atlantic vào những ngày họ làm tốt nhất thực sự mang lại giá trị cho thế giới, nhưng trong khi các nhà báo muốn nó dễ tiếp cận, các tổ chức lại muốn giấu và cô lập công sức đó. Lý tưởng nhất là mọi đứa trẻ đều có thể học tiếng Anh với NYT và Atlantic, lớn lên cùng những phương tiện lưu giữ ấy và nhìn thế giới qua chúng, nhưng mô hình hiện tại không cho phép điều đó. Có lẽ một mô hình pha trộn giữa tài trợ và quỹ kiểu Wikimedia sẽ phù hợp hơn. Những độc giả yêu tổ chức và sứ mệnh của nó trả bao nhiêu tùy muốn, nhận quyền lợi theo mức đóng góp, còn tiền đóng góp được đưa vào quỹ, đem đầu tư, rồi lợi nhuận được phân bổ một phần cho ngân sách vận hành. Tôi cho rằng trong một thế giới thông tin dư dả, báo chí cổ điển khó có thể tồn tại nếu không có cách tiếp cận dựa trên tài trợ
- Tôi ước mấy trang “tin tức” kiểu này đừng xuất hiện trên HN nữa. Nếu bài viết là thật và đáng để thảo luận, thì hoặc một tổ chức đáng tin hơn như Reuters sẽ đưa tin, hoặc đó sẽ là nguồn sơ cấp đáng để đăng trực tiếp
  Quá nhiều lần họ đưa tin chọn lọc chi tiết và trích dẫn, hoặc đăng những điều thực ra đến từ nguồn không đáng tin và sau đó bị chứng minh là hoàn toàn sai. Với trường hợp sau, họ lặng lẽ rút bài nên đa số độc giả vẫn tiếp tục tin điều sai đó. Có lẽ đó cũng là lý do họ không muốn bị lưu trữ. Thà đăng một bài blog nhỏ còn hơn. Nó có thể thiên lệch và khó tin, nhưng có suy nghĩ nguyên bản, hỗ trợ cá nhân, và có thể không có quảng cáo. Dĩ nhiên, việc ở đây có quá nhiều blog LLM dễ đoán lại là một vấn đề khác
Tôi đang chờ điều này: (https://news.ycombinator.com/item?id=48070516)
Chúng ta cần một kho lưu trữ internet có thể xác minh bằng mật mã. Có lẽ nếu không có web3 hay nostr, gpg/pgp thì sẽ không thể làm được
- Chỉ cần có nhiều kho lưu trữ không liên quan đến nhau là đã khá ổn rồi
- Chẳng lẽ Archive không thể công khai thứ như chữ ký SSL của mọi yêu cầu sao?
  Dấu thời gian có thể được xác minh bằng mật mã theo kiểu gắn lên Bitcoin như opentimestamps
Tôi đã ký, nhưng cũng phải thành thật
Nếu vẽ biểu đồ tròn giữa số lần tôi đọc các bài NYT cũ qua Wayback Machine và số lần một bình luận top trên HN gắn link bài còn khá mới khiến mọi người đổ vào để vượt paywall, thì đó sẽ là một hình tròn hoàn chỉnh
- Nếu không có bản lưu trữ, liệu tôi có trả tiền cho NYT để đọc bài đó không? Chắc là không

Kêu gọi NYT, The Atlantic và USA Today tiếp tục cho phép Wayback Machine lưu trữ

Bối cảnh của việc chặn

Lo ngại về AI và vai trò của Wayback Machine

Lưu trữ báo chí và tính công cộng

Yêu cầu và tài liệu tham khảo

Tài liệu tham khảo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News