38% số trang web tồn tại vào năm 2013 không còn truy cập được sau 10 năm
(pewresearch.org)-
Quy mô khổng lồ của internet và sự biến mất của nội dung
- Internet với hàng chục tỷ trang web là một kho lưu trữ khổng lồ của đời sống hiện đại.
- Tuy nhiên, nội dung mà người dùng phụ thuộc vào đôi khi biến mất.
- Theo một phân tích mới từ Pew Research Center, nội dung trực tuyến có tính tạm thời rất cao.
- Một phần tư tổng số trang web từng tồn tại trong giai đoạn 2013 đến 2023 không còn truy cập được tính đến tháng 10/2023.
- Điều này chủ yếu là do các trang cụ thể đã bị xóa hoặc gỡ bỏ.
-
Sự xuống cấp kỹ thuật số
- Nghiên cứu đã xem xét các website chính phủ, website tin tức và phần "Tài liệu tham khảo" của các trang Wikipedia.
- 23% trang tin tức chứa ít nhất một liên kết hỏng.
- 21% website chính phủ chứa ít nhất một liên kết hỏng.
- 54% trang Wikipedia chứa liên kết trỏ tới những trang không còn tồn tại.
- Nghiên cứu đã xem xét các website chính phủ, website tin tức và phần "Tài liệu tham khảo" của các trang Wikipedia.
-
Sự xuống cấp kỹ thuật số trên mạng xã hội
- Trong mùa xuân năm 2023, nghiên cứu đã thu thập mẫu thời gian thực của các tweet trên nền tảng mạng xã hội X (khi đó là Twitter) và theo dõi trong 3 tháng.
- Khoảng 1/5 số tweet không còn hiển thị công khai sau vài tháng kể từ khi đăng.
- Trong số đó, 60% là do tài khoản đã chuyển sang riêng tư, bị đình chỉ hoặc bị xóa hoàn toàn.
- 40% còn lại là trường hợp tài khoản vẫn tồn tại nhưng tweet riêng lẻ đã bị xóa.
- Trong mùa xuân năm 2023, nghiên cứu đã thu thập mẫu thời gian thực của các tweet trên nền tảng mạng xã hội X (khi đó là Twitter) và theo dõi trong 3 tháng.
-
Liên kết riêng tư và định nghĩa về trang web
- Có nhiều cách định nghĩa một trang từng tồn tại trên internet nhưng hiện không còn truy cập được.
- Trang đó không còn tồn tại trên máy chủ lưu trữ, hoặc bản thân máy chủ cũng không còn tồn tại.
- Địa chỉ trang vẫn tồn tại nhưng nội dung đã thay đổi.
- Trang vẫn tồn tại nhưng khó đọc đối với một số người dùng nhất định (ví dụ: người khiếm thị).
- Báo cáo này tập trung vào định nghĩa đầu tiên: các trang không còn tồn tại nữa.
- Có nhiều cách định nghĩa một trang từng tồn tại trên internet nhưng hiện không còn truy cập được.
-
Các trang web trong 10 năm qua
- Nghiên cứu đã thu thập ngẫu nhiên mẫu khoảng 1 triệu trang web từ kho lưu trữ Common Crawl.
- 25% tổng số trang được thu thập từ 2013 đến 2023 không còn truy cập được tính đến tháng 10/2023.
- 38% số trang được thu thập vào năm 2013 không còn truy cập được vào năm 2023.
- Nghiên cứu đã thu thập ngẫu nhiên mẫu khoảng 1 triệu trang web từ kho lưu trữ Common Crawl.
-
Các liên kết trên website chính phủ
- Nghiên cứu đã lấy mẫu khoảng 500.000 trang từ các website chính phủ được thu thập trong tháng 3/4 năm 2023.
- 86% số trang có chứa liên kết nội bộ, và 6% trong số đó không còn truy cập được.
- Tính chung, 21% trang web chính phủ được khảo sát chứa ít nhất một liên kết hỏng.
- Nghiên cứu đã lấy mẫu khoảng 500.000 trang từ các website chính phủ được thu thập trong tháng 3/4 năm 2023.
-
Các liên kết trên website tin tức
- Nghiên cứu đã lấy mẫu khoảng 500.000 trang từ các website tin tức được thu thập trong tháng 3/4 năm 2023.
- 94% trang tin có ít nhất một liên kết ngoài, và 23% số trang chứa ít nhất một liên kết hỏng.
- Nghiên cứu đã lấy mẫu khoảng 500.000 trang từ các website tin tức được thu thập trong tháng 3/4 năm 2023.
-
Các liên kết tham chiếu trên Wikipedia
- Nghiên cứu đã lấy mẫu ngẫu nhiên 50.000 trang Wikipedia tiếng Anh.
- 82% số trang được thu thập có ít nhất một liên kết tham chiếu, và 11% số liên kết tham chiếu không còn truy cập được.
- Nghiên cứu đã lấy mẫu ngẫu nhiên 50.000 trang Wikipedia tiếng Anh.
-
Các bài đăng trên Twitter
- Nghiên cứu đã thu thập 5 triệu tweet vào mùa xuân năm 2023 và theo dõi trong 3 tháng.
- 18% số tweet được thu thập không còn hiển thị công khai vào cuối thời gian theo dõi.
- Trong các tweet đã biến mất, 60% là do tài khoản chuyển sang riêng tư, bị đình chỉ hoặc bị xóa.
- 1% tweet bị xóa trong vòng một giờ, 3% trong vòng một ngày, 10% trong vòng một tuần và 15% trong vòng một tháng.
- Nghiên cứu đã thu thập 5 triệu tweet vào mùa xuân năm 2023 và theo dõi trong 3 tháng.
-
Phân tích khả năng tồn tại của tweet
- Một nửa số tweet biến mất trong vòng 6 ngày đầu sau khi đăng.
- 90% số tweet trở nên không thể truy cập trong vòng 46 ngày sau khi đăng.
- Có 6% số tweet đã bị xóa nhưng sau đó lại được công khai trở lại.
1 bình luận
Ý kiến trên Hacker News
Tóm tắt các bình luận trên Hacker News
Vấn đề của các trang Facebook
Nỗ lực lưu trữ
Hỗ trợ Internet Archive
Kinh nghiệm vận hành website tin tức
Biểu đồ tuổi thọ website
Vấn đề của các website cũ
.comđầu tiên của mình từng được host trên Angelfire vào thập niên 90. Khi đó thì ổn, nhưng theo tiêu chuẩn hiện nay có nhiều nội dung không phù hợp.Tính tạm thời của internet
Vấn đề SEO
Vấn đề link hỏng
Tầm quan trọng của sự lãng quên và tha thứ