1 điểm bởi GN⁺ 2024-05-20 | 1 bình luận | Chia sẻ qua WhatsApp
  • Quy mô khổng lồ của internet và sự biến mất của nội dung

    • Internet với hàng chục tỷ trang web là một kho lưu trữ khổng lồ của đời sống hiện đại.
    • Tuy nhiên, nội dung mà người dùng phụ thuộc vào đôi khi biến mất.
    • Theo một phân tích mới từ Pew Research Center, nội dung trực tuyến có tính tạm thời rất cao.
      • Một phần tư tổng số trang web từng tồn tại trong giai đoạn 2013 đến 2023 không còn truy cập được tính đến tháng 10/2023.
      • Điều này chủ yếu là do các trang cụ thể đã bị xóa hoặc gỡ bỏ.
  • Sự xuống cấp kỹ thuật số

    • Nghiên cứu đã xem xét các website chính phủ, website tin tức và phần "Tài liệu tham khảo" của các trang Wikipedia.
      • 23% trang tin tức chứa ít nhất một liên kết hỏng.
      • 21% website chính phủ chứa ít nhất một liên kết hỏng.
      • 54% trang Wikipedia chứa liên kết trỏ tới những trang không còn tồn tại.
  • Sự xuống cấp kỹ thuật số trên mạng xã hội

    • Trong mùa xuân năm 2023, nghiên cứu đã thu thập mẫu thời gian thực của các tweet trên nền tảng mạng xã hội X (khi đó là Twitter) và theo dõi trong 3 tháng.
      • Khoảng 1/5 số tweet không còn hiển thị công khai sau vài tháng kể từ khi đăng.
      • Trong số đó, 60% là do tài khoản đã chuyển sang riêng tư, bị đình chỉ hoặc bị xóa hoàn toàn.
      • 40% còn lại là trường hợp tài khoản vẫn tồn tại nhưng tweet riêng lẻ đã bị xóa.
  • Liên kết riêng tư và định nghĩa về trang web

    • Có nhiều cách định nghĩa một trang từng tồn tại trên internet nhưng hiện không còn truy cập được.
      • Trang đó không còn tồn tại trên máy chủ lưu trữ, hoặc bản thân máy chủ cũng không còn tồn tại.
      • Địa chỉ trang vẫn tồn tại nhưng nội dung đã thay đổi.
      • Trang vẫn tồn tại nhưng khó đọc đối với một số người dùng nhất định (ví dụ: người khiếm thị).
    • Báo cáo này tập trung vào định nghĩa đầu tiên: các trang không còn tồn tại nữa.
  • Các trang web trong 10 năm qua

    • Nghiên cứu đã thu thập ngẫu nhiên mẫu khoảng 1 triệu trang web từ kho lưu trữ Common Crawl.
      • 25% tổng số trang được thu thập từ 2013 đến 2023 không còn truy cập được tính đến tháng 10/2023.
      • 38% số trang được thu thập vào năm 2013 không còn truy cập được vào năm 2023.
  • Các liên kết trên website chính phủ

    • Nghiên cứu đã lấy mẫu khoảng 500.000 trang từ các website chính phủ được thu thập trong tháng 3/4 năm 2023.
      • 86% số trang có chứa liên kết nội bộ, và 6% trong số đó không còn truy cập được.
      • Tính chung, 21% trang web chính phủ được khảo sát chứa ít nhất một liên kết hỏng.
  • Các liên kết trên website tin tức

    • Nghiên cứu đã lấy mẫu khoảng 500.000 trang từ các website tin tức được thu thập trong tháng 3/4 năm 2023.
      • 94% trang tin có ít nhất một liên kết ngoài, và 23% số trang chứa ít nhất một liên kết hỏng.
  • Các liên kết tham chiếu trên Wikipedia

    • Nghiên cứu đã lấy mẫu ngẫu nhiên 50.000 trang Wikipedia tiếng Anh.
      • 82% số trang được thu thập có ít nhất một liên kết tham chiếu, và 11% số liên kết tham chiếu không còn truy cập được.
  • Các bài đăng trên Twitter

    • Nghiên cứu đã thu thập 5 triệu tweet vào mùa xuân năm 2023 và theo dõi trong 3 tháng.
      • 18% số tweet được thu thập không còn hiển thị công khai vào cuối thời gian theo dõi.
      • Trong các tweet đã biến mất, 60% là do tài khoản chuyển sang riêng tư, bị đình chỉ hoặc bị xóa.
      • 1% tweet bị xóa trong vòng một giờ, 3% trong vòng một ngày, 10% trong vòng một tuần và 15% trong vòng một tháng.
  • Phân tích khả năng tồn tại của tweet

    • Một nửa số tweet biến mất trong vòng 6 ngày đầu sau khi đăng.
    • 90% số tweet trở nên không thể truy cập trong vòng 46 ngày sau khi đăng.
    • Có 6% số tweet đã bị xóa nhưng sau đó lại được công khai trở lại.

1 bình luận

 
GN⁺ 2024-05-20
Ý kiến trên Hacker News

Tóm tắt các bình luận trên Hacker News

  • Vấn đề của các trang Facebook

    • Nhiều tổ chức và doanh nghiệp chỉ dùng trang Facebook nên không còn hiện diện nào khác trên web. Việc có tài khoản Facebook trở thành yêu cầu bắt buộc.
  • Nỗ lực lưu trữ

    • Các trang web như CNN và BBC có nỗ lực lưu trữ nội dung trong quá khứ. Ví dụ: tin bài liên quan đến vụ khủng bố 11/9.
  • Hỗ trợ Internet Archive

    • Cần quyên góp cho Internet Archive (archive.org) để hỗ trợ bảo tồn nội dung cũ. Với nội dung quan trọng, nên tạo bản sao cục bộ.
  • Kinh nghiệm vận hành website tin tức

    • Từ năm 2019, có người vận hành một website tin tức và mỗi giờ dùng crawler để tìm các liên kết chết rồi thay bằng liên kết lưu trữ. Rất nhiều website của ứng viên biến mất vào ngày sau bầu cử.
  • Biểu đồ tuổi thọ website

    • Dự đoán rằng nhiều website đã biến mất kể từ năm 2013. Đặc biệt, sự biến mất của các trang cộng đồng như Angelfire, Geocities... có ảnh hưởng lớn. Nếu biểu diễn tuổi thọ website bằng biểu đồ thì sẽ rất thú vị.
  • Vấn đề của các website cũ

    • Có người xem lại website .com đầu tiên của mình từng được host trên Angelfire vào thập niên 90. Khi đó thì ổn, nhưng theo tiêu chuẩn hiện nay có nhiều nội dung không phù hợp.
  • Tính tạm thời của internet

    • Cần chấp nhận tính tạm thời vốn có của internet. Nếu muốn lưu trữ lâu dài thì nên tạo bản sao ngoại tuyến. Định dạng PDF/A phù hợp cho mục đích lưu trữ.
  • Vấn đề SEO

    • Phần lớn web hiện nay ngập tràn SEO spam.
  • Vấn đề link hỏng

    • Đây là một vấn đề lớn của internet: nội dung vẫn còn tồn tại nhưng liên kết thường bị hỏng. Một hệ thống hai tầng như DOI của thư viện có thể sẽ hữu ích.
  • Tầm quan trọng của sự lãng quên và tha thứ

    • Một thế giới nơi mọi thứ tồn tại mãi mãi sẽ rất đáng sợ. Cần có nỗ lực để bảo tồn những nội dung có giá trị, và chính vì vậy giá trị của chúng càng được đánh giá cao hơn.