38% trang web từng tồn tại năm 2013 không còn truy cập được sau 10 năm

(pewresearch.org)

1 điểm bởi GN⁺ 2024-05-20 | 1 bình luận | Chia sẻ qua WhatsApp

Dù web trông như một kho lưu trữ vĩnh viễn, trong mẫu của Pew Research Center, 25% các trang web từng tồn tại trong giai đoạn 2013–2023 đã biến mất tính đến tháng 10/2023, và 38% trang của năm 2013 không còn truy cập được
Trong thống kê này, không thể truy cập được giới hạn ở 9 mã lỗi cho thấy rõ trang hoặc máy chủ host đã biến mất, chứ không phải do nội dung thay đổi hay vấn đề về khả năng tiếp cận
Khi kiểm tra các liên kết trên trang của chính phủ, tin tức và Wikipedia vào mùa xuân 2023, 23% trang tin tức, 21% trang web chính phủ và 54% trang English Wikipedia có ít nhất 1 liên kết hỏng
Theo dõi khoảng 5 triệu tweet công khai trên X, khi đó còn là Twitter, trong 3 tháng cho thấy 18% không còn hiển thị công khai; trong số đó, 60% là do tài khoản chuyển sang riêng tư, bị đình chỉ hoặc bị xóa
Nội dung đang biến mất trên nhiều loại hình: trang web, tài liệu cơ quan công quyền, liên kết tin tức, tài liệu tham khảo trên Wikipedia và bài đăng mạng xã hội; dữ liệu càng cũ thì sự mục rữa số càng rõ rệt

Những trang web biến mất trong 10 năm

Internet được dùng như kho lưu trữ tư liệu của đời sống hiện đại, như sách, hình ảnh và bài báo, nhưng một số nội dung trở nên không còn nhìn thấy theo thời gian
Pew Research Center đã kiểm tra khả năng truy cập tính đến tháng 10/2023 đối với một mẫu các trang web từng tồn tại trong giai đoạn 2013–2023
Trong toàn bộ mẫu, 25% các trang web từng tồn tại không còn truy cập được
- 16% có domain gốc vẫn hoạt động nhưng trang riêng lẻ không còn truy cập được
- 9% không thể truy cập vì toàn bộ domain gốc không còn hoạt động
Trang web càng cũ thì tỷ lệ biến mất càng cao
- 38% trang web trong snapshot năm 2013 không thể truy cập vào năm 2023
- 8% trang web trong snapshot năm 2023 không thể truy cập
- Ngay cả các trang web trong snapshot năm 2021 cũng có khoảng 1/5 không thể truy cập sau 2 năm

Tiêu chí xác định không thể truy cập

Trong phân tích này, không thể truy cập được giới hạn ở trường hợp trang không còn tồn tại
- Bao gồm các trường hợp máy chủ host hoặc trang đã biến mất, thường hiển thị lỗi máy chủ như 404 Not Found
Các trường hợp sau nằm ngoài phạm vi nghiên cứu này
- Địa chỉ trang vẫn tồn tại nhưng nội dung đã khác đáng kể so với ban đầu
- Trang vẫn tồn tại nhưng một số người dùng, như người khiếm thị, khó hoặc không thể đọc được
Việc xác định trạng thái trang web vẫn còn mơ hồ
- Có hàng chục mã trạng thái lỗi, và một số không cho biết rõ đó là biến mất vĩnh viễn hay sự cố tạm thời
- Nhiều website chặn thu thập dữ liệu tự động vì lý do bảo mật
Vì vậy, nghiên cứu áp dụng tiêu chí thận trọng nhất, chỉ tính là không thể truy cập với 9 mã lỗi cho thấy rõ trang hoặc máy chủ host không còn tồn tại hoặc không còn hoạt động
Danh sách đầy đủ các mã lỗi được nêu trong methodology

Mẫu trang web dựa trên Common Crawl

Phân tích được thực hiện bằng cách thu thập ngẫu nhiên các trang web theo từng năm từ 2013 đến 2023 từ dịch vụ lưu trữ Internet Common Crawl
Toàn bộ mẫu gồm gần 1 triệu trang web, mỗi năm có khoảng 90.000 trang
Tính đến tháng 10/2023, 25% toàn bộ mẫu giai đoạn 2013–2023 không còn truy cập được
Các trang không thể truy cập được chia thành hai loại
- Trang riêng lẻ đã biến mất nhưng domain gốc vẫn hoạt động: 16%
- Toàn bộ domain gốc không còn hoạt động: 9%
Snapshot càng cũ thì tỷ lệ không thể truy cập càng cao, và 38% trang web năm 2013 không còn tồn tại

Liên kết hỏng trên website chính phủ

Phân tích website chính phủ lấy mẫu khoảng 500.000 trang từ snapshot tháng 3–4/2023 của Common Crawl
Mẫu bao gồm website chính phủ ở nhiều cấp như liên bang, bang và địa phương
Tổng số liên kết tìm thấy trên các trang web chính phủ là 42 triệu
- 86% là liên kết nội bộ trỏ đến trang khác trong cùng website
- Khoảng 3/4 trang web chính phủ có ít nhất 1 liên kết
- Số liên kết trung vị trên mỗi trang là 50
- 10% trang có nhiều liên kết nhất chứa 190 liên kết, và 1% trang đứng đầu chứa 740 liên kết
Hình thức của liên kết cũng được kiểm tra
- Phần lớn trỏ đến các trang HTTP bảo mật bắt đầu bằng https://
- 6% trỏ đến file tĩnh như PDF
- 16% bị chuyển hướng sang URL khác với URL ban đầu
Khi truy cập theo các liên kết để kiểm tra, 6% liên kết trên website chính phủ không còn truy cập được
21% tổng số trang web chính phủ được khảo sát có ít nhất 1 liên kết hỏng
- Tỷ lệ không hoạt động của liên kết nội bộ và liên kết bên ngoài là tương tự nhau
- Ở mọi cấp chính quyền, ít nhất 14% số trang có liên kết hỏng
- Trang của chính quyền thành phố có tỷ lệ liên kết hỏng cao nhất

Liên kết hỏng trên website tin tức

Phân tích website tin tức lấy mẫu khoảng 500.000 trang từ 2.063 website được comScore phân loại là “News/Information”
Các trang được thu thập từ snapshot tháng 3–4/2023 của Common Crawl
Mẫu site tin tức chứa hơn 14 triệu liên kết trỏ đến website bên ngoài
- Liên kết nội bộ không được thu thập hoặc kiểm tra khả năng hoạt động
- 94% trang tin tức có ít nhất 1 liên kết bên ngoài
- Số liên kết trung vị trên mỗi trang là 20
- 10% trang có nhiều liên kết nhất chứa 56 liên kết
Phần lớn liên kết trên site tin tức trỏ đến các trang HTTP bảo mật bắt đầu bằng https://
- Khoảng 12% trỏ đến file tĩnh như PDF
- 32% bị chuyển hướng sang URL khác với URL ban đầu
- Tỷ lệ chuyển hướng của liên kết ngoài tới website chính phủ là 39%
Khi lần theo các liên kết trên site tin tức, 5% tổng số liên kết không thể truy cập
23% trang tin tức trong mẫu có ít nhất 1 liên kết hỏng
- Trong các trang thuộc 20% site tin tức có traffic cao nhất, 25% có ít nhất 1 liên kết hỏng
- Trong các trang thuộc 20% site tin tức có traffic thấp nhất, 26% có ít nhất 1 liên kết hỏng
- Gần như không có khác biệt về tỷ lệ liên kết hỏng theo quy mô traffic

Liên kết tài liệu tham khảo trên Wikipedia

Phân tích thu thập ngẫu nhiên 50.000 trang English Wikipedia và kiểm tra các liên kết trong phần “References”
82% trang trong mẫu có ít nhất 1 liên kết tài liệu tham khảo trỏ đến trang web bên ngoài Wikipedia
Toàn bộ mẫu chứa hơn 1 triệu một chút liên kết tài liệu tham khảo
Số liên kết tài liệu tham khảo trên một trang điển hình là 4
11% tổng số liên kết tài liệu tham khảo trên Wikipedia không còn truy cập được
Trong các trang gốc có liên kết tài liệu tham khảo, khoảng 2% có tất cả liên kết bị hỏng hoặc không thể truy cập
Thêm 53% trang khác có ít nhất 1 liên kết hỏng

Sự biến mất của bài đăng X/Twitter

Phân tích mạng xã hội được thực hiện bằng cách thu thập theo thời gian thực khoảng 5 triệu tweet công khai trên X, khi đó còn là Twitter, trong giai đoạn 8/3–27/4/2023
Việc thu thập sử dụng Twitter Streaming API, lấy 3.000 tweet công khai mỗi 30 phút
Việc theo dõi tiếp tục đến ngày 15/6/2023, với kiểm tra hằng ngày xem từng tweet còn truy cập được trên site hay không
Đến cuối giai đoạn quan sát, 18% tweet được thu thập ban đầu không còn hiển thị công khai
- 60% là trường hợp tài khoản đăng ban đầu chuyển sang riêng tư, bị đình chỉ hoặc bị xóa
- 40% là trường hợp tài khoản vẫn còn nhưng tweet riêng lẻ bị xóa

Đặc điểm của các tweet biến mất thường xuyên hơn

Tweet viết bằng một số ngôn ngữ nhất định có khả năng biến mất cao hơn
- Gần một nửa tweet tiếng Thổ Nhĩ Kỳ không còn truy cập được vào cuối giai đoạn theo dõi
- Tweet tiếng Ả Rập cũng biến mất với tỷ lệ thấp hơn một chút
- Tóm lại, hơn 40% tweet tiếng Thổ Nhĩ Kỳ hoặc tiếng Ả Rập không còn hiển thị trong vòng 3 tháng
Tweet từ các tài khoản dùng thiết lập hồ sơ mặc định cũng biến mất thường xuyên hơn
- Tweet từ tài khoản dùng ảnh hồ sơ mặc định có hơn một nửa không còn truy cập được
- Tweet từ tài khoản dùng trường giới thiệu bản thân mặc định có hơn một phần ba không còn truy cập được
- Tweet của các tài khoản này có xu hướng biến mất do tài khoản bị xóa hoặc chuyển sang riêng tư, hơn là do xóa tweet riêng lẻ
Tweet từ tài khoản chưa xác minh cũng có khả năng bị xóa hoặc gỡ bỏ cao hơn
Các tweet đã biến mất nhìn chung mới hơn và được đăng từ những tài khoản có tương đối ít follower và mức độ hoạt động vừa phải
- Tài khoản đăng các tweet không còn hiển thị trung bình mới hơn khoảng 8 tháng so với tài khoản đăng các tweet vẫn còn
Retweet, quote tweet và tweet gốc không khác nhiều so với mức trung bình chung
Reply tương đối ít bị gỡ hơn, với tỷ lệ không thể truy cập vào cuối giai đoạn theo dõi là 12%

Tốc độ biến mất và tái xuất hiện của tweet

Phần lớn tweet bị gỡ biến mất tương đối nhanh ngay sau khi đăng
Theo phân tích sống sót, thời điểm tweet bị gỡ như sau
- 1% bị gỡ trong vòng 1 giờ sau khi đăng
- 3% bị gỡ trong vòng 1 ngày
- 10% bị gỡ trong vòng 1 tuần
- 15% bị gỡ trong vòng 1 tháng
Một nửa số tweet cuối cùng bị gỡ đã không thể truy cập trong vòng 6 ngày sau khi đăng
90% số tweet cuối cùng bị gỡ đã không thể truy cập trong vòng 46 ngày sau khi đăng
Tweet không phải lúc nào cũng biến mất vĩnh viễn
- 6% tweet được thu thập đã biến mất rồi sau đó lại truy cập được
- Nguyên nhân có thể là tài khoản từng để riêng tư rồi chuyển lại công khai, hoặc từng bị đình chỉ rồi được khôi phục
- 90% tweet xuất hiện trở lại vẫn có thể truy cập trên Twitter vào cuối giai đoạn theo dõi

1 bình luận

GN⁺ 2024-05-20

Ý kiến trên Hacker News

Vấn đề lớn hơn chuyện 38% trang web đã biến mất là hiện nay nhiều tổ chức, nhóm và doanh nghiệp gần như chỉ dùng trang Facebook, không có sự hiện diện web nào bên ngoài Facebook
Rốt cuộc, muốn tương tác với họ thì bắt buộc phải có tài khoản Facebook
- Diễn đàn cũng đã thành như vậy
  Giờ tất cả đã chuyển sang subreddit, nhóm Facebook, chat Discord, thật đáng tiếc khi thông tin có giá trị bị giấu trong các nhóm như thế
- Tôi chỉ dùng Facebook để giữ liên lạc với gia đình ở xa
  Kiểu mỗi ngày xem một lần có chuyện gì, và nếu có tài khoản thì liên kết này giúp việc đó dễ hơn nhiều: https://www.facebook.com/?filter=friends
- Tôi tự hỏi liệu có doanh nghiệp nào có quy mô một chút mà thực sự chỉ dùng Facebook không
  Các doanh nghiệp địa phương quanh tôi có khá nhiều thông tin trên Google Maps, và dù có website thì thường cũng cũ, nhưng gọi điện trực tiếp là giải đáp được điều cần hỏi
- 38% của web ngày xưa là những không gian đa dạng, ít ý đồ ẩn hơn, do những người nghiệp dư theo nghĩa tích cực tạo ra
  Web bây giờ lớn hơn nhiều nhưng đồng nhất hơn nhiều, tỷ lệ như vậy có lẽ chỉ khoảng 0,00001%, và tôi cho rằng các trang Web 1.0 tốt hơn các “trang nhóm” đóng ngày nay
- Tôi từng đến một nhà hàng chỉ đăng thực đơn số lên Facebook
  Khi tôi nói không dùng Facebook, họ nhìn tôi như thể tôi là người kỳ quặc
Dù vậy, các website tử tế vẫn có chút nỗ lực để bảo tồn nội dung cũ
Ví dụ vẫn còn các trang tường thuật của CNN và BBC vào thời điểm vụ tấn công 11/9: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
Khó kỳ vọng nhiều liên kết sẽ hoạt động đúng, nhưng chỉ riêng việc nhìn lại web ngày xưa trông như thế nào cũng đã thú vị
- Một số yếu tố tương tác trong các bản tin bầu cử cũ của BBC đến nay vẫn gần như hoạt động
  Thật khó tưởng tượng nhiều trang web ngày nay sẽ còn lại như vậy sau 20 năm nữa, và có vẻ vấn đề không phải vì kỹ thuật bất khả thi, mà giống như chất lượng viết lách tệ đi sau khi máy xử lý văn bản được phát minh
  Giờ mọi thứ đều được quản lý và cấu trúc hóa, cảm giác như sự tự do và bọt khí từng cho phép tạo ra những thứ tốt đẹp theo cách khó giải thích đã biến mất
Nếu muốn ủng hộ nỗ lực bảo tồn không chỉ nội dung cũ mà còn nhiều loại nội dung khác, hãy quyên góp dù chỉ vài bảng cho Internet Archive (archive.org)
Và với những gì bạn thấy có giá trị, tốt nhất nên tạo bản sao cục bộ nhiều nhất có thể để phòng khi một ngày nào đó chúng biến mất
Nhiều trang kỹ thuật trong tệp bookmark của tôi, được chuyển qua các lần cài đặt hơn 20 năm, giờ dẫn đến bản sao lưu hoàn chỉnh cuối cùng ngay trước khi trang gốc biến mất
Internet Archive là một lợi ích khổng lồ cho tất cả mọi người
- Tôi nhận ra mình đang lạm dụng bookmark quá mức
  Giờ nếu có bài viết sâu sắc, thông tin kỹ thuật, nội dung hài hước mà tôi muốn tham khảo sau này, tôi lưu trang web thành PDF hoặc dạng tương tự
  Bookmark chỉ phù hợp với những thứ mà chỉ phiên bản mới nhất mới đáng truy cập, như trang ngân hàng, trang mua sắm, hệ thống remote desktop của công ty
- Tôi mong Internet Archive được tách thành hai thực thể độc lập
  Một bên chỉ đơn giản bảo tồn website, bên kia đảm nhận các việc còn lại như những phép thử sở hữu trí tuệ quyết liệt với sách điện tử hay video game
  Như vậy nếu “bên kia” sụp đổ vì kiện tụng thì việc bảo tồn website vẫn còn. Bên đầu là một dịch vụ quan trọng với nhân loại nên tôi có quyên góp, nhưng tôi lo cho tương lai của nó
Tôi đang vận hành một website tin tức từ năm 2019
Mỗi giờ crawler tìm liên kết chết, và khoảng mỗi ngày thay một liên kết bằng link archive.org
Buồn cười nhất là trường hợp website của các ứng viên đều thành trang trống vào ngày sau bầu cử, còn buồn nhất là các website chính phủ bị sập hằng tuần từ 3 giờ đến 5 giờ sáng
- Thú vị đấy, crawler đó kiểm tra tất cả liên kết mỗi giờ, hay chia theo từng lô để chạy?
Tôi lại ngạc nhiên vì con số không cao hơn
Năm 2013 đã là thời điểm rất lâu sau kỷ nguyên các trang sở thích của Internet sơ khai, và phần lớn site mới khi đó được lập vì mục đích kinh doanh
Nghĩ đến tuổi thọ của doanh nghiệp, tôi đã kỳ vọng sau 11 năm sẽ có nhiều site biến mất hơn nhiều
Có lẽ việc nhiều không gian xây dựng cộng đồng như Angelfire, Geocities chết đi chiếm tỷ trọng lớn
Đặc biệt nếu xem biểu đồ website tồn tại được bao lâu thì chắc sẽ thú vị. Nội dung thời kỳ đầu vẫn còn khá nhiều, và khoảng 2008–2018 có lẽ là đỉnh điểm của sự biến mất website
- Rất nhiều nội dung thời kỳ đầu vốn đã nằm trên các nền tảng đã chết từ lâu
  Ví dụ như Geocities, thư mục FTP do trường đại học cung cấp bị xóa sau khi tốt nghiệp, các thư mục FTP do ISP như Earthlink, Juno, Comcast cung cấp, và rất có thể phần lớn đã bị xóa
Tôi không muốn mọi thứ đều tồn tại mãi mãi
Gần đây tôi tình cờ tìm thấy .com đầu tiên của mình làm từ thập niên 90, được host trên Angelfire và đã được archive.org cần mẫn lưu lại lần nữa; kết quả đúng như bạn tưởng tượng
Đó là trang web tôi làm với bạn hồi lớp 4 tiểu học, theo tiêu chuẩn thời đó thì ổn, nhưng theo tiêu chuẩn hiện nay thì có những nội dung không ổn dù có hiểu bối cảnh
Không đến mức kinh khủng, nhưng là những thứ kém duyên xuất phát từ sự ngây thơ không biết gì đúng kiểu học sinh tiểu học thập niên 90, và có lẽ nó sẽ không bao giờ hoàn toàn biến mất khỏi lương tâm tôi, nên tôi chỉ có thể chịu đựng và hy vọng không ai xem
- Tôi cũng có tài liệu tương tự
  Nếu điều này có thể an ủi, thì tất cả chúng ta khi đó chỉ là trẻ con hoặc thiếu niên và đang học về thế giới
  Tôi thấy thương hơn cho thế hệ sau chúng ta, vì họ lớn lên khi Internet đã dễ tiếp cận hơn và đôi khi cũng vĩnh viễn hơn
- Tôi hiểu nỗi đau đó
  May là archive đôi khi cũng gỡ tài liệu xuống
Mọi thứ trên Internet về bản chất đều tạm thời
Tốt hơn là nên chấp nhận điều đó thay vì chống lại nó; nếu muốn lưu giữ thứ gì đó thì có thể tạo một bản sao ngoại tuyến
PDF/A, đặc biệt là các phiên bản -1 và -2, là định dạng được thiết kế rõ ràng cho mục đích bảo tồn và phù hợp với nội dung tĩnh
Tuy nhiên, điều đáng tiếc là việc mirror chưa được tích hợp dễ dàng hơn vào web stack, tức HTTP/HTML. Nếu có thể dễ dàng tạo liên kết kèm bản sao cục bộ làm đường dẫn thay thế thì hiện tượng mục nát liên kết đã bớt đáng lo hơn nhiều
Cá nhân tôi thấy cách Wikipedia liên kết mọi thứ thông qua archive.org hơi giống một giải pháp tạm bợ
Thành thật mà nói, tôi ngạc nhiên là con số đó lại thấp đến vậy
Phần lớn web ngày nay trông như rác tối ưu hóa công cụ tìm kiếm
- Thỉnh thoảng tôi thử nghiệm gì đó, dựng một website nhỏ lên, rồi quên đi; sau đó nếu thấy nó không còn liên quan nữa thì gỡ xuống
  Bản thân việc đó không xấu
  Dù vậy, thật tuyệt khi có những thứ như web archive để bảo vệ ký ức tập thể của chúng ta cho các nội dung có giá trị
  Đặc biệt, tôi mong những ghi chép chính xác được viết vào thời điểm sự kiện xảy ra sẽ được lưu giữ ở đâu đó mà sau này không thể bị thay đổi. Dạo này việc viết lại lịch sử có vẻ khá phổ biến, nên bảo tồn các ghi chép gốc của thời điểm đó có thể giúp đối trọng với điều này
  Ngay cả khi các ghi chép đó không hoàn toàn chính xác, chúng vẫn giúp hiểu những người liên quan lúc đó tin điều gì là sự thật
- Một số thứ vẫn còn tồn tại, chỉ là không còn được Google hiển thị nữa
Tôi xem đây là một thất bại nghiêm trọng của Internet mà lẽ ra chúng ta, với tư cách tập thể, nên tránh tốt hơn
Trong đa số trường hợp, bản thân nội dung có thể vẫn còn ở đâu đó, chỉ là liên kết đã hỏng
Một hệ thống hai tầng như hệ thống DOI mà thư viện dùng có thể hữu ích trong các trường hợp này: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
Tuy nhiên, để giữ được tính hữu dụng và tiện lợi của URL, việc này có lẽ phải được xử lý tự động; tôi không rõ làm thế nào mới có thể thực hiện được
Đây không phải bug mà là feature
Sống trong một thế giới không quên cũng không tha thứ sẽ thật khủng khiếp
Việc bảo tồn nội dung có giá trị đòi hỏi một mức nỗ lực nhất định cũng là điều tốt. Nhờ vậy giá trị của nó được công nhận hơn
- “Một thế giới không quên cũng không tha thứ” là một vấn đề riêng, và chủ yếu có thể xem là vấn đề về quyền riêng tư
  Lập luận rằng “nội dung có giá trị phải cần nỗ lực bảo tồn thì giá trị mới được công nhận hơn” nghe gần giống như nói rằng hầu như mọi thứ nên đắt đỏ
  Kiểu như lưu trữ rẻ là xấu vì khiến chúng ta không trân trọng giá trị của file, còn y tế đắt đỏ là tốt vì khiến ta cảm nhận được giá trị của các cơ quan nội tạng
  Phần khó là dự đoán trong tương lai nội dung nào sẽ được coi là có giá trị. Cho đến nay chưa có nền văn minh nhân loại nào làm tốt điều đó, và phần lớn thường tập trung vào việc lưu giữ các vị vua vĩ đại đến mức nào
- Vào ngày Apple mua lại NeXT, tôi đã đọc được một bài rất buồn cười ở đâu đó trên Internet
  Bài bắt đầu bằng câu “Hỡi những đứa con của Macintosh, hãy quỳ gối trước Unix…” và toàn bộ bài giữ văn phong như Kinh Thánh, giải thích vì sao Mac bị NeXT chinh phục
  Đó là một bài thật sự xuất sắc nên thỉnh thoảng tôi lại thử tìm lại trên Internet, nhưng nếu không biết thứ gì đã biến mất thì rất khó biết được
- Bạn nghĩ chúng ta đã sống ở đâu trong 5.000 năm qua?
  Có những bảng đất sét chữ hình nêm được khai quật từ các đống rác ở Ur, và nhờ đó mà chút ít kiến thức chúng ta có về Sumer vẫn còn lại
  Việc phát minh ra chữ viết đã khiến sự lãng quên trở nên bất khả, và các nhà nhân học như Jack Goody, James Carey, David Olson, Barry Powell cùng các tác giả như Walter Ong đã nghiên cứu sâu về điều này
  Trên thực tế, chúng ta đang sống trong một thế giới khủng khiếp phần lớn bị mắc kẹt trong quá khứ, nơi sự phức tạp văn hóa xếp thành từng lớp như vỏ hành
  Ai cũng có thể quay về quá khứ và hoài niệm về nó, nhưng quá khứ được tiếp cận thông qua tri thức lưu trữ lại mang những ý nghĩa khác nhau đối với những người không trực tiếp trải nghiệm
  Kể từ sau kỹ thuật in ấn, chúng ta đã sống trong tình trạng lạm phát thông tin liên tục. Các học giả thời Trung cổ phàn nàn rằng vì in ấn mà ai cũng có thể đọc và viết sách; các học giả kinh viện thì sốc trước sự nổi lên của tiếng bản địa; còn Michelangelo phàn nàn về nghệ thuật rỗng tuếch của các họa sĩ Flemish
  Điều quan trọng ở đây là tốc độ mục nát. Bài viết nói rằng 38% các site tồn tại vào năm 2013 đã biến mất, mà mới chỉ 10 năm
  Trong số đó có bao nhiêu là nhiễu, bao nhiêu là thông tin hữu ích hoặc ít nhất là nội dung thú vị, chúng ta không biết. Vì chúng đã biến mất rồi
  Chúng ta cũng không biết các web scraper lớn đã lưu được bao nhiêu, hay Google hoặc Twitter đang giữ lại bao nhiêu
  Định nghĩa nội dung có giá trị thế nào? Là một tweet có ảnh nữ diễn viên bán khỏa thân đạt 1 triệu lượt xem, hay một tweet về phát hiện quan trọng có 300 lượt xem?
  Khi Internet phá bỏ vai trò gác cổng của các biên tập viên báo, sách, tạp chí, TV, radio, chúng ta đã vui mừng vô hạn, nhưng kết quả là bị cuốn trong nhiễu, thuyết âm mưu, meme, TikTok, v.v.
  Vấn đề là chúng ta hầu như không xử lý nổi lượng thông tin khổng lồ đổ vào mình; con người thì quá nhiều, gu lại quá khác nhau, nên khó đạt đồng thuận về điều gì có giá trị và điều gì không
  “Feature” mà bạn nói có thể đúng là như vậy theo thiết kế, nhưng điều đó không có nghĩa nó hữu ích hay đúng về mặt đạo đức

38% trang web từng tồn tại năm 2013 không còn truy cập được sau 10 năm

Những trang web biến mất trong 10 năm

Tiêu chí xác định không thể truy cập

Mẫu trang web dựa trên Common Crawl

Liên kết hỏng trên website chính phủ

Liên kết hỏng trên website tin tức

Liên kết tài liệu tham khảo trên Wikipedia

Sự biến mất của bài đăng X/Twitter

Đặc điểm của các tweet biến mất thường xuyên hơn

Tốc độ biến mất và tái xuất hiện của tweet

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News