6 điểm bởi GN⁺ 2026-03-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Internet Archive đã lưu giữ web và báo chí từ giữa thập niên 1990, và đang lưu trữ hơn 1 nghìn tỷ trang web thông qua Wayback Machine
  • Gần đây, các cơ quan báo chí lớn như The New York TimesThe Guardian bắt đầu chặn hoạt động thu thập dữ liệu của kho lưu trữ vì lo ngại AI scraping
  • Biện pháp này gây ra sự đứt gãy của hồ sơ lịch sử trên web, và có nguy cơ làm biến mất bản ghi duy nhất cho phép kiểm tra những thay đổi trước và sau khi bài viết bị sửa hoặc xóa
  • Tách biệt với các tranh chấp pháp lý về việc huấn luyện AI, việc chặn một tổ chức lưu trữ phi lợi nhuận bị chỉ ra là gây tổn hại lợi ích công
  • Tìm kiếm và lưu trữ web vốn đã là lĩnh vực có tính hợp pháp được xác lập theo nguyên tắc sử dụng hợp lý, và nếu chặn điều này thì các nhà nghiên cứu tương lai sẽ mất đi hồ sơ lịch sử của web

Việc chặn Internet Archive không ngăn được AI nhưng sẽ xóa đi hồ sơ lịch sử của web

  • Internet Archive là thư viện số lớn nhất thế giới, lưu giữ web và báo chí từ giữa thập niên 1990, và đang lưu trữ hơn 1 nghìn tỷ trang web thông qua Wayback Machine
  • Trong vài tháng gần đây, The New York Times bắt đầu chặn hoạt động thu thập dữ liệu của kho lưu trữ với lý do lo ngại về việc AI scraping nội dung, và các cơ quan báo chí khác như The Guardian cũng cho thấy xu hướng làm theo
  • Việc chặn này không chỉ là một giới hạn kỹ thuật đơn thuần mà còn gây ra sự đứt gãy của hồ sơ lịch sử
    • Trong nhiều trường hợp, Internet Archive là bản ghi duy nhất có thể cho phép xác minh những thay đổi trước và sau khi bài viết bị sửa hoặc xóa
    • Nếu các cơ quan báo chí ngăn truy cập, hồ sơ web được tích lũy suốt nhiều thập niên có nguy cơ biến mất
  • Dù các tranh chấp pháp lý về việc huấn luyện AI vẫn đang diễn ra, việc chặn một tổ chức lưu trữ phi lợi nhuận bị xem là cách phản ứng sai lầm
    • Internet Archive không phát triển các hệ thống AI thương mại và thực hiện mục tiêu công ích là bảo tồn lịch sử
    • Trong quá trình tìm cách kiểm soát truy cập của AI, điều này có thể dẫn tới hậu quả là làm tổn hại cả chức năng lưu giữ hồ sơ của thư viện

Tính hợp pháp của lưu trữ và tìm kiếm

  • Hành vi tạo khả năng tìm kiếm đã từ lâu được công nhận về mặt pháp lý là sử dụng hợp lý (fair use)
    • Tòa án cho rằng việc sao chép tài liệu gốc để xây dựng chỉ mục tìm kiếm là điều không thể tránh khỏi
    • Ngay cả trong trường hợp Google sao chép toàn bộ sách để tạo cơ sở dữ liệu tìm kiếm, điều đó cũng được công nhận là có mục đích biến đổi (transformative purpose)
  • Internet Archive cũng vận hành theo nguyên tắc tương tự
    • Giống như thư viện vật lý lưu giữ báo chí, kho lưu trữ này bảo tồn hồ sơ lịch sử của web
    • Các nhà nghiên cứu và nhà báo sử dụng dịch vụ này hằng ngày, và riêng Wikipedia đã liên kết 2,6 triệu bài báo bằng 249 ngôn ngữ tới kho lưu trữ
    • Vô số blogger, nhà nghiên cứu và nhà báo phụ thuộc vào đây như một nguồn tham chiếu ổn định và đáng tin cậy
  • Các nguyên tắc pháp lý bảo vệ công cụ tìm kiếm cũng phải được áp dụng tương tự cho kho lưu trữ và thư viện

    • Ngay cả nếu tòa án áp đặt hạn chế đối với việc huấn luyện AI, tính hợp pháp của tìm kiếm và lưu trữ web vẫn là điều đã được xác lập

Khủng hoảng trong việc bảo tồn hồ sơ lịch sử

  • Internet Archive đã duy trì hồ sơ lịch sử của web trong khoảng 30 năm
  • Nếu các cơ quan báo chí lớn bắt đầu chặn điều này, khả năng cao là các nhà nghiên cứu tương lai sẽ mất đi một kho tư liệu khổng lồ
  • Các tranh luận pháp lý liên quan đến việc huấn luyện AI nên được giải quyết tại tòa án, nhưng việc hy sinh hồ sơ công cộng bị cảnh báo là một sai lầm nghiêm trọng và không thể đảo ngược

1 bình luận

 
GN⁺ 2026-03-22
Ý kiến trên Hacker News
  • Với tư cách là người vận hành website, tôi đang phải chiến đấu với các AI crawler hung hăng
    Tôi lo không biết các quy tắc chặn của mình có vô tình chặn cả Internet Archive hay không
    Facebook phớt lờ robots.txt và phân tán request qua nhiều IP để vượt qua crawl delay
    Vì vậy tôi đã đặt riêng các quy tắc dành cho Facebook trong nginx
    Đến nay, chặn JA3 hash là cách hiệu quả nhất
    Nhưng tôi ước có một wrapper bọc hugin-net vào nginx để fingerprint TCP
    Tôi không biết Rust nên cũng ngại nhờ LLM làm giúp
    Tuy vậy, cách này có vấn đề race condition. Ở kết nối đầu tiên thì chưa có JA4 hash, còn các AI crawler chỉ request một lần cho mỗi IP nên không có cơ hội chặn ở request thứ hai

    • Internet Archive cũng không tuân theo robots.txt
      Trong bài blog chính thức họ nói rằng “tương lai của lưu trữ web sẽ ít phụ thuộc hơn vào robots.txt”
      Một tổ chức khác là Archiveteam cũng được cho là bỏ qua robots.txt
      Có vẻ như các tổ chức lưu trữ lớn ngày nay hầu như không cân nhắc quan điểm của người vận hành website
    • Các kỹ thuật né tránh như ngẫu nhiên hóa hoặc ngụy trang JA3 khiến việc phát hiện bị vượt qua rất dễ dàng
    • Tôi tự hỏi liệu có thể có một cơ chế vượt chặn bot chỉ cho phép các request được ký bằng khóa trong whitelist đi qua hay không
      Nếu vậy thì có lẽ chỉ cần cho phép crawler của Internet Archive
  • Tôi tò mò những người đã chấp nhận rằng giờ đây không thể chặn AI scraper hoàn toàn nghĩ gì
    Ngày mà ranh giới giữa trình duyệt của con người và tác nhân LLM biến mất chắc không còn xa
    Chúng có thể mở các phiên GUI thật, duyệt trang bằng trình duyệt và chụp snapshot ở cấp hệ điều hành để tái tạo nội dung
    Cuối cùng, chính khái niệm chặn truy cập trên web công khai có lẽ sẽ trở nên lỗi thời
    Vậy thì có những cách nào để giảm gánh nặng cho từng host riêng lẻ?
    Liệu sẽ xuất hiện một cơ quan lưu trữ tập trung đáng tin cậy, hay sẽ có cách trừng phạt “hành vi xấu” của LLM?

    • Chúng ta lẽ ra đã phải học được rằng luật pháp trên Internet gần như không có khả năng thực thi thực chất
    • Có thể cung cấp content hash, còn dữ liệu thực tế thì để lấy từ những nơi như IPFS hoặc BitTorrent nhằm giảm tải cho website
      Nếu trình duyệt hỗ trợ việc này thì ta có thể đạt được hiệu quả của CDN mà không cần tập trung hóa
    • Nếu không đăng lên web công khai ngay từ đầu thì sẽ không còn phải lo chuyện scraping
      Có lẽ mô hình CDN trực tiếp bán dữ liệu thậm chí còn hiệu quả hơn
    • Hiện nay có hàng nghìn công ty AI đang cào toàn bộ web, nhưng khi bong bóng AI xì hơi thì cuối cùng chỉ còn lại một vài bên
      Khi đó nhu cầu scraping liên tục sẽ giảm đi
    • Vấn đề thực sự là tải lưu lượng và chi phí băng thông
      Có vẻ như cảm quan kỹ thuật cơ bản và khái niệm kế toán đã bị lãng quên
  • Các cơ quan báo chí đang đánh giá quá cao ảnh hưởng của nội dung họ đối với sự phát triển của AI
    Kể cả nếu họ không tồn tại thì chất lượng LLM cũng sẽ không khác biệt nhiều

    • Chỉ Wikipedia, Reddit và các bài báo khoa học thôi thì vẫn có giới hạn
      Cuối cùng vẫn cần văn bản đa dạng như các bài báo chí
    • Web càng tràn ngập nội dung do AI tạo ra thì giá trị của văn bản do con người viết càng tăng
      Việc các công ty AI sử dụng nó mà không có sự đồng ý là điều hợp lý để tìm cách ngăn chặn
  • Chúng ta đang đốt cháy thư viện để trừng phạt kẻ phóng hỏa
    Trong khi kẻ phóng hỏa đã rời đi rồi

    • Nhưng trên thực tế, có khi 90% người đến thư viện lại chính là kẻ phóng hỏa
  • Vì thế mới có archive.is
    Thay vì tìm cách truy ra người sáng lập để trừng phạt, chẳng phải nên ủng hộ nó như một dự án hữu ích sao?

    • Đồng ý. Nếu archive.is biến mất thì archive.org sẽ thành độc quyền
      archive.org chấp nhận các yêu cầu xóa từ chủ sở hữu website, nên nếu mua lại một tên miền cũ thì thậm chí có thể xóa cả lịch sử trước đó
    • Nhưng người sáng lập archive.is từng có tiền sử tấn công DDoS nhắm vào nhà báo
      Xét việc ông ta đã lôi người dùng vào các cuộc tấn công, đây không phải nhân vật đáng để ca ngợi
  • Với tư cách là người từng xây dựng hệ thống chống spam, tôi nghĩ sau này ngay cả việc truy cập website cũng sẽ có một cơ chế xác thực kiểu ‘giấy phép taxi’
    Ví dụ, nếu Internet Archive gửi các request HTTPS có chữ ký thì website có thể xác minh đó là thật
    Điều này đi ngược lại tinh thần Internet mở, nhưng cần có cách để phân biệt crawler đáng tin cậy

    • Tôi yêu cầu các crawler không giống con người phải có những điều sau
      • Có reverse DNS, và tên miền đó phải có trang chính sách hành vi
      • TXT record dựa trên IP nêu rõ ai đang truy cập, khi nào và với tần suất ra sao
        Tôi dùng những thông tin này để tự động đưa ra quyết định chặn
        Tôi đã ghi trên blog chính sách mặc định chặn request từ Amazon
  • Tôi nghĩ New York Times rất tệ. Chính vì vậy mà nó lại càng phải được lưu giữ cho tương lai

    • Mọi bài viết quan điểm của báo chí rốt cuộc đều là tuyên truyền
      Mỗi tờ báo chỉ đăng những bài phù hợp với hệ tư tưởng của họ
    • Tôi tò mò vì sao bạn lại nghĩ nó tệ đến thế. Tôi không đọc nó
  • EFF đang quá mềm mỏng với AI
    Dù AI đang phá hỏng Internet và việc làm, họ vẫn không có lập trường cứng rắn
    Nhìn vào danh sách nhà tài trợ thì có rất nhiều nhà tài trợ doanh nghiệp, khiến độ tin cậy như một tổ chức vì tự do bị suy giảm
    Những tổ chức như OSI hay EFF đã bị doanh nghiệp chi phối, thậm chí còn trở nên có hại

  • Nếu Internet Archive có một chương trình crawler IP dân cư phân tán thì tôi sẵn sàng tham gia
    Dĩ nhiên vẫn cần cơ chế chống thao túng

    • Internet Archive thì không có, nhưng có Archive Team Warrior
    • IA xử lý mọi thứ một cách công khai, và thậm chí còn tôn trọng cả những yêu cầu DMCA không chính đáng
    • Nếu họ kết thúc TLS ở phía mình thì sẽ đơn giản thôi. Cuối cùng nó sẽ hoạt động như proxy dân cư
  • Nếu một nơi vừa bán phân bón vừa bán dầu diesel thì suy đoán đó là nhà cung cấp cho nông nghiệp là hợp lý
    Nhưng nếu họ bán theo xe tải cho những người không phải nông dân thì việc nghi ngờ cũng là điều đương nhiên