Wikipedia ngừng sử dụng Archive.today và bắt đầu xóa 695.000 liên kết

(arstechnica.com)

2 điểm bởi GN⁺ 2026-02-22 | 1 bình luận | Chia sẻ qua WhatsApp

Wikipedia tiếng Anh đã thêm Archive.today vào danh sách đen và bắt đầu xóa liên kết
Xác nhận rằng trang này đã bị dùng để kích động tấn công DDoS nhắm vào blog và thao túng các bản chụp web
Các biên tập viên Wikipedia đồng thuận ngừng sử dụng vì làm tổn hại độ tin cậy của trang và có nguy cơ lạm dụng thiết bị của người dùng
Khoảng 695.000 liên kết trong 400.000 bài viết có chứa liên kết này, và phần lớn được đánh giá là có thể thay thế bằng các dịch vụ lưu trữ khác
Các biên tập viên được khuyến nghị thay bằng Internet Archive, Ghostarchive, Megalodon hoặc xóa liên kết

Quyết định chặn Archive.today của Wikipedia

Wikipedia tiếng Anh đã quyết định đưa Archive.today vào danh sách đen
- Lý do của quyết định này là vì trang web đó đã bị sử dụng trong các cuộc tấn công DDoS nhắm vào blog
- Trong quá trình thảo luận trên Wikipedia, đã phát hiện trường hợp trang web thao túng ảnh chụp snapshot của trang web để chèn tên của blogger bị nhắm mục tiêu
Các biên tập viên Wikipedia cho rằng việc thao túng này là hành động trả đũa đối với một bài blog nói rằng người vận hành trang đã dùng nhiều bí danh để che giấu danh tính

Nội dung đồng thuận của cộng đồng Wikipedia

Theo cập nhật chính thức của Wikipedia, cộng đồng đã quyết định ngừng sử dụng ngay lập tức (deprecate) Archive.today và thêm vào danh sách đen spam hoặc chặn bằng bộ lọc chỉnh sửa
- Đồng thời cũng quyết định xóa toàn bộ các liên kết hiện có
Cộng đồng viện dẫn chính sách (WP:ELNO#3): “không nên dẫn người đọc đến một trang web có thể chiếm dụng máy tính của người dùng để thực hiện tấn công DDoS”
Bằng chứng cho thấy nội dung của các trang đã lưu trữ bị thao túng đã được đưa ra, nên trang này bị đánh giá là đã mất độ tin cậy

Quy mô liên kết và khả năng thay thế

Các liên kết Archive.today xuất hiện hơn 695.000 lần trong khoảng 400.000 bài viết
Trang này đôi khi được sử dụng để vượt tường phí (paywall) của các bài báo
Dù cũng có ý kiến muốn giữ nguyên hiện trạng, kết quả phân tích cho thấy phần lớn liên kết có thể được thay bằng các kho lưu trữ khác
Một số biên tập viên đã bắt đầu cụ thể hóa quy trình xóa và thay thế liên kết

Hướng dẫn dành cho biên tập viên

Tài liệu mới đăng Wikipedia:Archive.today_guidance hướng dẫn biên tập viên cách xóa và thay thế liên kết
- Các tên miền mục tiêu gồm archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn v.v.
Nếu nguồn gốc vẫn còn trực tuyến và nội dung không đổi, có thể xóa liên kết Archive.today
Hoặc có thể thay bằng các dịch vụ lưu trữ khác như Internet Archive, Ghostarchive, Megalodon
Nếu bản gốc tồn tại dưới dạng ấn phẩm in, hoặc liên kết chỉ nhằm mục đích tiện lợi, thì có thể xóa hẳn liên kết lưu trữ

Biện pháp tăng cường độ tin cậy và bảo mật trong Wikipedia

Động thái này được đánh giá là nhằm tăng cường độ tin cậy của Wikipedia và bảo vệ người dùng
Cộng đồng xem đây là cơ hội để thiết lập tiêu chí phản ứng rõ ràng trước hành vi thao túng trang web và hoạt động độc hại
Trong thời gian tới, các phương án giúp công việc xóa liên kết diễn ra hiệu quả hơn sẽ tiếp tục được thảo luận

1 bình luận

GN⁺ 2026-02-22

Ý kiến trên Hacker News

Gần đây tôi có đọc một bài về khả năng tồn tại chiến dịch có tổ chức nhắm vào archive.today
Tôi muốn biết liệu có tài liệu nào phân tích sâu hơn về cấu trúc kỹ thuật thực sự của archive.today hoạt động ra sao không. Tôi cần thông tin nhiều hơn là kết quả tìm kiếm AI đơn giản hay chuỗi HN trước đó
- Nếu họ thực sự là mục tiêu của một chiến dịch bôi nhọ có tổ chức, thì việc DDoS blog của người khác hoặc chỉnh sửa các trang đã lưu trữ cũng chẳng giúp ích gì cho chính họ
- archive.today hoạt động khá tốt với tôi. Nhiều khi archive.org thất bại thì nó lại thành công
  Vì archive.org tuân theo yêu cầu gỡ bỏ, tôi tự hỏi liệu archive.today có bị tấn công vì lưu giữ nội dung từ chối xóa bỏ hay không
- Gần đây cũng có tin nhiều trang web bắt đầu chặn Internet Archive. Cảm giác như đây là giai đoạn tiếp theo của cuộc chiến thông tin
- Bài đó nghe giống như do AI viết. Nó được cấu trúc theo kiểu tóm tắt và cũng không có thông tin tác giả. Máy dò AI báo động
Tôi nghĩ việc doxing ai đó là vô nghĩa. Đặc biệt nếu đó là người đang cung cấp một dịch vụ hữu ích cho người dùng phổ thông
Nhưng nếu archive.today đang biến người dùng thành botnet để thực hiện tấn công DDoS, hoặc thay đổi nội dung của các trang đã lưu trữ, thì đó là vấn đề.
Những hành vi như vậy khiến trang web trông như bị nhiễm malware và làm giảm độ tin cậy của nội dung lưu trữ. Tôi hiểu vì sao Wikipedia chặn nó
- Trước đây, doxing có nghĩa là công khai thông tin riêng tư. Nhưng bây giờ chỉ cần tổng hợp thông tin công khai cũng bị gọi là doxing thì hơi quá
  Nếu chỉ điều tra bằng thông tin công khai thì khó mà xem là phi đạo đức
- Trớ trêu là một trang tự nhận lưu trữ vĩnh viễn lại muốn gỡ xuống các bài viết nhắc đến mình. Đúng kiểu “ai dùng gươm sẽ chết vì gươm”
- Vấn đề này có vẻ có thể giải quyết bằng hệ thống xác minh phân tán dựa trên blockchain. Khi đó có thể quản lý lịch sử chỉnh sửa mà không làm mất bản gốc
- Các trang lưu trữ web thường phải chỉnh sửa HTML đôi chút. Những thay đổi để tăng tính khả dụng như đổi đường dẫn liên kết là điều tự nhiên
  Vấn đề là trong trường hợp của archive.today, những thay đổi đó trông giống thao tác có chủ đích
- Tính xác thực của các trang đã lưu trữ mới là điểm tranh cãi cốt lõi. Đây nên là trung tâm của các cuộc thảo luận sắp tới
Tôi phát hiện một số bản chụp X/Twitter trên archive.today được lưu trong trạng thái đã đăng nhập bằng tài khoản “advancedhosters”
Tài khoản này có liên hệ với một công ty web hosting ở Cyprus, và gần đây còn liên kết tới một bài đăng công khai email riêng tư giữa người vận hành archive.today (dùng bí danh “Volth”) và chủ sở hữu trang web
Bài đăng trước đó là các liên kết lưu trữ bằng archive.today tới các bài viết thân Nga, chống Ukraine. Có vẻ như đây là một đầu mối thú vị
- Tài khoản đó cũng có thể là tài khoản được quyên góp. Các trang thuộc hệ archive.today đôi khi dùng tài khoản trả phí để vượt paywall
  Dù vậy, cách làm này khác với Internet Archive là tổ chức phi lợi nhuận hợp pháp, và khó phân biệt với hành vi phạm pháp
- Gọi là “đầu mối thú vị” thôi, chứ thực ra nó sẽ dẫn đến điều gì thì vẫn chưa rõ
Năm ngoái tôi đã thấy hiện tượng các trang đã lưu trữ bị chỉnh sửa trên archive.today
Trước đây, ở góc trên bên phải của trang Reddit được lưu trữ có tên người dùng, nhưng đến một lúc nào đó nó biến mất. Vấn đề là ngay cả các bản chụp trong quá khứ cũng bị chỉnh sửa hồi tố
Trong tab ảnh chụp màn hình thì tên vẫn còn, nên vẫn có khác biệt với bản gốc. Ban đầu tôi nghĩ chuyện này nhỏ nhặt, nhưng nhìn các sự việc gần đây thì có vẻ không phải vậy
- Nhưng chuyện đó có thể không phải ác ý mà là biện pháp tránh lộ tài khoản đăng nhập.
  Nếu họ chỉnh sửa chính nội dung bài đăng trên Reddit thì đó lại là vấn đề hoàn toàn khác, nhưng nếu chỉ là thông tin tài khoản thì vẫn có thể hiểu được
Nhiều người không biết, nhưng Perma.cc là một công cụ lưu trữ chính thức phù hợp để dùng ở những nơi như Wikipedia
Chi tiết hơn có trong bài Wikipedia
- Tuy nhiên, sau 10 liên kết thì sẽ cần gói trả phí hoặc tài khoản tổ chức. Điều này không phù hợp với một bách khoa toàn thư mà ai cũng có thể chỉnh sửa
- Tôi nghĩ Wikipedia nên tự xây dựng tính năng này. Họ đã tự vận hành CDN rồi nên có lẽ làm được. Tuy nhiên, vượt paywall thì rủi ro
- Tôi cũng chuyển sang Perma.cc trong tuần này, nhưng các trang nhiều hình ảnh bị lỗi và Reddit thì chặn hẳn. Dù vậy vì nó là mã nguồn mở nên vẫn còn chỗ để cải thiện
Tôi tự hỏi có máy chủ lưu trữ tự host nào dùng cho cá nhân không
Có vẻ ArchiveBox là nổi tiếng nhất nên tôi định thử. Nhưng nó không có tính năng URL rewrite, nên có lẽ sẽ khá bất tiện
Sẽ hay hơn nếu có chức năng tự động nối nhiều trang của một bài viết
- Tôi thích Readeck hơn. Nó là mã nguồn mở và có cả ứng dụng iOS lẫn Android
  Với tính năng Content Scripts, bạn có thể tự viết script chuyển đổi URL
- Một lựa chọn khác là Omnom. Kho GitHub của nó cũng được công khai
Theo bài của Ars Technica, archive.today đã bị Wikipedia chặn vì tấn công DDoS và thao túng nội dung
Cá nhân tôi hầu như không dùng archive.today vì nó khá bất tiện. Nhưng trên HN nó dường như thường được dùng để vượt paywall
Vấn đề là lịch sử hoạt động trong quá khứ và tính ẩn danh của người vận hành. Nó đang ở vị trí có thể thu thập rất nhiều dữ liệu thói quen đọc của người dùng HN
- Tôi dùng archive.today khá thường xuyên. Ví dụ để đọc các bài bị paywall như của The Economist thì gần như không có lựa chọn thay thế
- Nếu tên miền .today bị chặn thì chỉ cần đổi sang TLD khác như archive.ph, archive.is, archive.md
- Thảo luận mà không đọc nội dung bài viết thì chẳng có ý nghĩa gì, nên vượt paywall là cần thiết ngay cả vì chất lượng thảo luận trên HN
- “archive.today” thực ra là cách gọi chung cho nhiều tên miền archive.tld. Việc nói nó được “quảng bá” trên HN chỉ đơn giản là liên kết của nó được chia sẻ thường xuyên
- Nhiều người dùng archive.today đơn giản chỉ với mục đích để mọi người đều có thể đọc được
Điều thú vị là đây không phải lần đầu archive.today dính tới DDoS
Theo một bài HN 3 năm trước, đã từng có trường hợp archive.ph thực hiện tấn công DDoS bằng mã XmlHttpRequest
Khi đó mục tiêu là northcountrygazette.org, và trang này chậm đi rõ rệt nên có vẻ cuộc tấn công thực sự có hiệu quả
Trước đây trang đó từng đe dọa theo dõi người vượt paywall và dùng robots.txt để chặn lưu trữ. Có vẻ cuối cùng nó đã đóng cửa
Tôi tự hỏi liệu có thể tạo bản lưu trữ web bất biến cục bộ mà không phụ thuộc vào trang bên thứ ba hay không
Có lẽ có thể ghi lại toàn bộ giao dịch TLS để sau này xác minh lại. Tất nhiên nếu chứng chỉ bị lộ thì sẽ có rủi ro giả mạo
- Ít nhất nếu một trang lưu trữ công khai giá trị hash của nội dung thì sau này có thể xác minh có bị sửa đổi hay không
  Về mặt kỹ thuật, Wayback Machine cũng không hơn archive.today ở điểm này
- Nhưng việc phát lại phiên TLS để xác minh là không thể. Thay vào đó, hệ thống log minh bạch công khai có thể là một phương án, nhưng do tính động của web nên vẫn khó mà hoàn hảo
Có khá nhiều giải pháp lưu trữ tự host, nhưng độ hoàn thiện rất khác nhau
Tưởng như phải có một triển khai tiêu chuẩn nào đó hỗ trợ cả dùng cá nhân lẫn công khai, nhưng có vẻ vẫn chưa có
- Tôi cũng nghĩ vậy. Cá nhân tôi rất muốn có một giải pháp thay thế đơn giản để dùng riêng

Wikipedia ngừng sử dụng Archive.today và bắt đầu xóa 695.000 liên kết

Quyết định chặn Archive.today của Wikipedia

Nội dung đồng thuận của cộng đồng Wikipedia

Quy mô liên kết và khả năng thay thế

Hướng dẫn dành cho biên tập viên

Biện pháp tăng cường độ tin cậy và bảo mật trong Wikipedia

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News