- Các cơ quan báo chí lớn như New York Times, The Atlantic, USA Today đang chặn Wayback Machine lưu trữ nội dung tin tức, làm dấy lên lời kêu gọi chấm dứt việc này
- Các lãnh đạo truyền thông lớn cần công khai cam kết hợp tác với Internet Archive để lưu trữ toàn bộ tin tức trên Wayback Machine
- Năm 2026 được nêu là năm đầu tiên sau 30 năm mà vào World Press Freedom Day, tác phẩm của các hãng tin lớn không được lưu trữ trên Internet Archive
- Những lo ngại về AI mà các tòa soạn đưa ra để biện minh cho lệnh cấm bị xem là giả định; trong kỷ nguyên AI tạo sinh, việc lưu trữ độc lập lại càng quan trọng hơn
- Trong bối cảnh kiểm duyệt, chủ nghĩa độc tài và cả các đe dọa giết nhà báo gia tăng, việc lưu trữ bởi bên thứ ba trung lập giúp bảo đảm các bài báo không biến mất
Bối cảnh của việc chặn
- Năm 2026 được nêu là năm đầu tiên sau 30 năm mà vào World Press Freedom Day, tác phẩm của các cơ quan báo chí lớn như New York Times, The Atlantic và USA Today không được lưu trữ tại tổ chức phi lợi nhuận độc lập Internet Archive
- New York Times từ tháng 2 năm nay đã yêu cầu Internet Archive không cho Wayback Machine lưu trữ tác phẩm của các phóng viên của họ
- Theo bài viết của Wired, USA Today vẫn xuất bản các bài điều tra mạnh mẽ dựa vào Wayback Machine, nhưng lại chặn chính những bài đó được Wayback Machine lưu trữ
- Sau khi hơn 100 nhà báo gửi thư ủng hộ việc Internet Archive lưu trữ báo chí, CEO của The Atlantic đã đưa ra phản hồi, nhưng không cam kết sẽ tìm ra giải pháp
Lo ngại về AI và vai trò của Wayback Machine
- Những lo ngại về AI mà các cơ quan này nêu ra để cấm Wayback Machine được xem là hoàn toàn mang tính giả định
- AI tạo sinh không thể là lý do để che giấu báo chí làm việc có nguyên tắc khỏi những người kiểm chứng sự thật; ngược lại, điều đó càng làm tăng nhu cầu đối với Wayback Machine
- Các công ty AI có thể phớt lờ quy tắc như những trang lưu trữ bắt chước, lấy tin từ website nhà xuất bản mà không cần đồng ý, và gần như không có cách nào để ngăn việc đó
- Wayback Machine khác với các dịch vụ cố dùng từ “archive” để trông giống Internet Archive, và đây không phải là một dịch vụ tạm thời
- Wayback Machine đã lưu trữ tin tức lâu hơn cả độ tuổi của nhiều người ký tên vào bản kiến nghị này
- Wayback Machine không phải là dịch vụ vượt paywall, mà là một tài sản công phi lợi nhuận độc lập phục vụ việc lưu trữ báo chí
- Lý do Internet Archive không hành xử như phần lớn Silicon Valley là vì integrity, và chính điều đó khiến Internet Archive trở thành một tổ chức đáng tin cậy và có thể vận hành lâu dài
Lưu trữ báo chí và tính công cộng
- Tự do báo chí không chỉ là tự do viết bài, mà còn bao gồm quyền được đọc và được ghi nhớ qua nhiều thế hệ của những tác phẩm đó
- Khi kiểm duyệt và chủ nghĩa độc tài gia tăng, áp lực buộc phải sửa bài hoặc xóa bỏ sự thật cũng tăng theo
- Các nhà báo thường xuyên nhận đe dọa giết người, và nhiều người đã thiệt mạng trong năm qua vì chính công việc của mình
- Trong bối cảnh này, cần củng cố việc lưu trữ trung lập bởi bên thứ ba của Wayback Machine để bảo đảm tác phẩm của nhà báo không biến mất
- Các bài báo cần phải tiếp cận được không chỉ với đồng nghiệp và người thân còn sống, mà còn với con mắt của lịch sử
- Wayback Machine giúp các cơ quan báo chí trực tuyến đứng vững hơn trước áp lực phải xóa những bài viết đe dọa người nắm quyền
- Với những cơ quan báo chí thực sự làm báo, ủng hộ liên minh như vậy cũng phù hợp với lợi ích của chính họ
Yêu cầu và tài liệu tham khảo
- Ban lãnh đạo các cơ quan truyền thông lớn cần công khai cam kết hợp tác với Internet Archive để lưu trữ mọi tin tức trên Wayback Machine
- Việc tìm ra cách lưu trữ tin tức một cách độc lập lẽ ra không nên khó đến vậy
-
Tài liệu tham khảo
1 bình luận
Ý kiến trên Hacker News
Có người thắc mắc liệu chuyện này có xảy ra vì archive.org tôn trọng robots.txt, và các trang đó đã chặn việc lập chỉ mục của crawler hay không
Thật đáng thất vọng khi việc “hành xử đúng đắn” là tuân thủ robots.txt lại biến thành gánh nặng phải phản hồi các kiến nghị, còn bên phớt lờ cùng chỉ thị đó thì lại được hưởng lợi
Đây không đơn thuần là một lựa chọn đạo đức mà gần như là lựa chọn hợp lý duy nhất, và lý do “bên kia được lợi” là vì các chủ thể có nghĩa vụ kiểu lời hứa nhưng quá nhỏ hoặc hoạt động trong vùng tối thì ít có động cơ để bị kiện đến cùng
User-agent: archive.org_bot/Disallow: /Nếu không thể cào được tin tức mới nhất, mọi mô hình ngôn ngữ lớn hẳn sẽ kém hữu dụng hơn nhiều
Chẳng khác nào bảo người ta hãy làm hải tặc, vì hải tặc thì tự do
Vấn đề có vẻ là nếu Archive.org có thể truy cập nội dung của NYT và các nhà xuất bản khác, thì ngay cả khi người ta không thể cào trực tiếp quy mô lớn từ NYT, họ vẫn có thể thu thập hàng loạt nội dung NYT thông qua Archive.org
Nếu Archive.org chặn scraper, các nhà xuất bản có thể sẽ chọn cách khác và cho phép truy cập Archive.org
Ý tưởng: có thể cho phép scraping nhưng không được công khai trong vòng 1 năm thì sao?
Có vẻ họ cũng có thể dùng cơ chế escrow, giống như Financial Times hiện được cung cấp trên dịch vụ NewsBank với escrow 30 ngày
Nếu đội chiếc mũ thuyết âm mưu lên, thì có lẽ một phần lý do là họ thích trạng thái có thể âm thầm chỉnh sửa rồi giả như các phiên bản bài viết cũ chưa từng tồn tại
Những người chưa từng xem quảng cáo của các tổ chức đó và cũng chưa từng trả phí thuê bao, giờ lại muốn đấu tranh để yêu cầu các tổ chức ấy phải chừa một cửa sau cho mình sao?
Tôi có biết đôi chút về tranh luận này từ phía Times và Atlantic. Có thể sẽ bị chửi, nhưng tôi đã hỏi một người cấp cao ở bên trước rằng họ nghĩ gì về các cách vượt paywall phổ biến trên HN, và thật sự ngạc nhiên khi họ còn chưa từng nghe nói đến chúng
Cuối cùng họ đồng ý rằng một điểm cân bằng hợp lý là công khai sau 30 ngày, và nếu sau này việc đó trở nên cần thiết thì đặt giới hạn truy cập kiểu không được lấy quá N lần mỗi ngày. Theo tôi biết, Internet Archive chưa chủ động liên hệ mạnh mẽ về vấn đề này, và nên gây áp lực để cả nhà xuất bản lẫn Internet Archive ngồi vào đàm phán
Dù vậy, các tạp chí vẫn sẽ muốn kiểm soát kho nội dung cũ của họ. Ngay lúc này họ đã bán quyền truy cập cho thư viện và trường đại học, và như HN đã nhiều lần đề cập, một số tổ chức tin tức có thể muốn thay đổi hoặc cập nhật bài viết mà không để lại “lịch sử chỉnh sửa” công khai
Khiến tôi tự hỏi liệu ở đâu đó có một bảng điều khiển thống kê số hóa đáng buồn đang bật sẵn, và sự sùng bái con số ấy có đang thay thế tinh thần nguyên bản của báo chí hay không
Họ vẫn hành xử như thể đang sống trong một thế giới nơi dữ liệu và thông tin khan hiếm, và họ là nguồn chân lý duy nhất. Giờ thì mọi thứ đã đảo ngược: không còn một chuẩn chân lý đơn nhất nào, nhưng dữ liệu và thông tin lại dư dả, và trong sự dư dả đó cũng có cả dữ liệu giả và dối trá. Công việc điều tra của NYT và Atlantic vào những ngày họ làm tốt nhất thực sự mang lại giá trị cho thế giới, nhưng trong khi các nhà báo muốn nó dễ tiếp cận, các tổ chức lại muốn giấu và cô lập công sức đó. Lý tưởng nhất là mọi đứa trẻ đều có thể học tiếng Anh với NYT và Atlantic, lớn lên cùng những phương tiện lưu giữ ấy và nhìn thế giới qua chúng, nhưng mô hình hiện tại không cho phép điều đó. Có lẽ một mô hình pha trộn giữa tài trợ và quỹ kiểu Wikimedia sẽ phù hợp hơn. Những độc giả yêu tổ chức và sứ mệnh của nó trả bao nhiêu tùy muốn, nhận quyền lợi theo mức đóng góp, còn tiền đóng góp được đưa vào quỹ, đem đầu tư, rồi lợi nhuận được phân bổ một phần cho ngân sách vận hành. Tôi cho rằng trong một thế giới thông tin dư dả, báo chí cổ điển khó có thể tồn tại nếu không có cách tiếp cận dựa trên tài trợ
Quá nhiều lần họ đưa tin chọn lọc chi tiết và trích dẫn, hoặc đăng những điều thực ra đến từ nguồn không đáng tin và sau đó bị chứng minh là hoàn toàn sai. Với trường hợp sau, họ lặng lẽ rút bài nên đa số độc giả vẫn tiếp tục tin điều sai đó. Có lẽ đó cũng là lý do họ không muốn bị lưu trữ. Thà đăng một bài blog nhỏ còn hơn. Nó có thể thiên lệch và khó tin, nhưng có suy nghĩ nguyên bản, hỗ trợ cá nhân, và có thể không có quảng cáo. Dĩ nhiên, việc ở đây có quá nhiều blog LLM dễ đoán lại là một vấn đề khác
Tôi đang chờ điều này: (https://news.ycombinator.com/item?id=48070516)
Chúng ta cần một kho lưu trữ internet có thể xác minh bằng mật mã. Có lẽ nếu không có web3 hay nostr, gpg/pgp thì sẽ không thể làm được
Dấu thời gian có thể được xác minh bằng mật mã theo kiểu gắn lên Bitcoin như opentimestamps
Tôi đã ký, nhưng cũng phải thành thật
Nếu vẽ biểu đồ tròn giữa số lần tôi đọc các bài NYT cũ qua Wayback Machine và số lần một bình luận top trên HN gắn link bài còn khá mới khiến mọi người đổ vào để vượt paywall, thì đó sẽ là một hình tròn hoàn chỉnh