- Internet Archive đã lưu giữ web và báo chí từ giữa thập niên 1990, và đang lưu trữ hơn 1 nghìn tỷ trang web thông qua Wayback Machine
- Gần đây, các cơ quan báo chí lớn như The New York Times và The Guardian bắt đầu chặn hoạt động thu thập dữ liệu của kho lưu trữ vì lo ngại AI scraping
- Biện pháp này gây ra sự đứt gãy của hồ sơ lịch sử trên web, và có nguy cơ làm biến mất bản ghi duy nhất cho phép kiểm tra những thay đổi trước và sau khi bài viết bị sửa hoặc xóa
- Tách biệt với các tranh chấp pháp lý về việc huấn luyện AI, việc chặn một tổ chức lưu trữ phi lợi nhuận bị chỉ ra là gây tổn hại lợi ích công
- Tìm kiếm và lưu trữ web vốn đã là lĩnh vực có tính hợp pháp được xác lập theo nguyên tắc sử dụng hợp lý, và nếu chặn điều này thì các nhà nghiên cứu tương lai sẽ mất đi hồ sơ lịch sử của web
Việc chặn Internet Archive không ngăn được AI nhưng sẽ xóa đi hồ sơ lịch sử của web
- Internet Archive là thư viện số lớn nhất thế giới, lưu giữ web và báo chí từ giữa thập niên 1990, và đang lưu trữ hơn 1 nghìn tỷ trang web thông qua Wayback Machine
- Trong vài tháng gần đây, The New York Times bắt đầu chặn hoạt động thu thập dữ liệu của kho lưu trữ với lý do lo ngại về việc AI scraping nội dung, và các cơ quan báo chí khác như The Guardian cũng cho thấy xu hướng làm theo
- Việc chặn này không chỉ là một giới hạn kỹ thuật đơn thuần mà còn gây ra sự đứt gãy của hồ sơ lịch sử
- Trong nhiều trường hợp, Internet Archive là bản ghi duy nhất có thể cho phép xác minh những thay đổi trước và sau khi bài viết bị sửa hoặc xóa
- Nếu các cơ quan báo chí ngăn truy cập, hồ sơ web được tích lũy suốt nhiều thập niên có nguy cơ biến mất
- Dù các tranh chấp pháp lý về việc huấn luyện AI vẫn đang diễn ra, việc chặn một tổ chức lưu trữ phi lợi nhuận bị xem là cách phản ứng sai lầm
- Internet Archive không phát triển các hệ thống AI thương mại và thực hiện mục tiêu công ích là bảo tồn lịch sử
- Trong quá trình tìm cách kiểm soát truy cập của AI, điều này có thể dẫn tới hậu quả là làm tổn hại cả chức năng lưu giữ hồ sơ của thư viện
Tính hợp pháp của lưu trữ và tìm kiếm
- Hành vi tạo khả năng tìm kiếm đã từ lâu được công nhận về mặt pháp lý là sử dụng hợp lý (fair use)
- Tòa án cho rằng việc sao chép tài liệu gốc để xây dựng chỉ mục tìm kiếm là điều không thể tránh khỏi
- Ngay cả trong trường hợp Google sao chép toàn bộ sách để tạo cơ sở dữ liệu tìm kiếm, điều đó cũng được công nhận là có mục đích biến đổi (transformative purpose)
- Internet Archive cũng vận hành theo nguyên tắc tương tự
- Giống như thư viện vật lý lưu giữ báo chí, kho lưu trữ này bảo tồn hồ sơ lịch sử của web
- Các nhà nghiên cứu và nhà báo sử dụng dịch vụ này hằng ngày, và riêng Wikipedia đã liên kết 2,6 triệu bài báo bằng 249 ngôn ngữ tới kho lưu trữ
- Vô số blogger, nhà nghiên cứu và nhà báo phụ thuộc vào đây như một nguồn tham chiếu ổn định và đáng tin cậy
-
Các nguyên tắc pháp lý bảo vệ công cụ tìm kiếm cũng phải được áp dụng tương tự cho kho lưu trữ và thư viện
- Ngay cả nếu tòa án áp đặt hạn chế đối với việc huấn luyện AI, tính hợp pháp của tìm kiếm và lưu trữ web vẫn là điều đã được xác lập
Khủng hoảng trong việc bảo tồn hồ sơ lịch sử
- Internet Archive đã duy trì hồ sơ lịch sử của web trong khoảng 30 năm
- Nếu các cơ quan báo chí lớn bắt đầu chặn điều này, khả năng cao là các nhà nghiên cứu tương lai sẽ mất đi một kho tư liệu khổng lồ
- Các tranh luận pháp lý liên quan đến việc huấn luyện AI nên được giải quyết tại tòa án, nhưng việc hy sinh hồ sơ công cộng bị cảnh báo là một sai lầm nghiêm trọng và không thể đảo ngược
1 bình luận
Ý kiến trên Hacker News
Với tư cách là người vận hành website, tôi đang phải chiến đấu với các AI crawler hung hăng
Tôi lo không biết các quy tắc chặn của mình có vô tình chặn cả Internet Archive hay không
Facebook phớt lờ robots.txt và phân tán request qua nhiều IP để vượt qua crawl delay
Vì vậy tôi đã đặt riêng các quy tắc dành cho Facebook trong nginx
Đến nay, chặn JA3 hash là cách hiệu quả nhất
Nhưng tôi ước có một wrapper bọc hugin-net vào nginx để fingerprint TCP
Tôi không biết Rust nên cũng ngại nhờ LLM làm giúp
Tuy vậy, cách này có vấn đề race condition. Ở kết nối đầu tiên thì chưa có JA4 hash, còn các AI crawler chỉ request một lần cho mỗi IP nên không có cơ hội chặn ở request thứ hai
Trong bài blog chính thức họ nói rằng “tương lai của lưu trữ web sẽ ít phụ thuộc hơn vào robots.txt”
Một tổ chức khác là Archiveteam cũng được cho là bỏ qua robots.txt
Có vẻ như các tổ chức lưu trữ lớn ngày nay hầu như không cân nhắc quan điểm của người vận hành website
Nếu vậy thì có lẽ chỉ cần cho phép crawler của Internet Archive
Tôi tò mò những người đã chấp nhận rằng giờ đây không thể chặn AI scraper hoàn toàn nghĩ gì
Ngày mà ranh giới giữa trình duyệt của con người và tác nhân LLM biến mất chắc không còn xa
Chúng có thể mở các phiên GUI thật, duyệt trang bằng trình duyệt và chụp snapshot ở cấp hệ điều hành để tái tạo nội dung
Cuối cùng, chính khái niệm chặn truy cập trên web công khai có lẽ sẽ trở nên lỗi thời
Vậy thì có những cách nào để giảm gánh nặng cho từng host riêng lẻ?
Liệu sẽ xuất hiện một cơ quan lưu trữ tập trung đáng tin cậy, hay sẽ có cách trừng phạt “hành vi xấu” của LLM?
Nếu trình duyệt hỗ trợ việc này thì ta có thể đạt được hiệu quả của CDN mà không cần tập trung hóa
Có lẽ mô hình CDN trực tiếp bán dữ liệu thậm chí còn hiệu quả hơn
Khi đó nhu cầu scraping liên tục sẽ giảm đi
Có vẻ như cảm quan kỹ thuật cơ bản và khái niệm kế toán đã bị lãng quên
Các cơ quan báo chí đang đánh giá quá cao ảnh hưởng của nội dung họ đối với sự phát triển của AI
Kể cả nếu họ không tồn tại thì chất lượng LLM cũng sẽ không khác biệt nhiều
Cuối cùng vẫn cần văn bản đa dạng như các bài báo chí
Việc các công ty AI sử dụng nó mà không có sự đồng ý là điều hợp lý để tìm cách ngăn chặn
Chúng ta đang đốt cháy thư viện để trừng phạt kẻ phóng hỏa
Trong khi kẻ phóng hỏa đã rời đi rồi
Vì thế mới có archive.is
Thay vì tìm cách truy ra người sáng lập để trừng phạt, chẳng phải nên ủng hộ nó như một dự án hữu ích sao?
archive.org chấp nhận các yêu cầu xóa từ chủ sở hữu website, nên nếu mua lại một tên miền cũ thì thậm chí có thể xóa cả lịch sử trước đó
Xét việc ông ta đã lôi người dùng vào các cuộc tấn công, đây không phải nhân vật đáng để ca ngợi
Với tư cách là người từng xây dựng hệ thống chống spam, tôi nghĩ sau này ngay cả việc truy cập website cũng sẽ có một cơ chế xác thực kiểu ‘giấy phép taxi’
Ví dụ, nếu Internet Archive gửi các request HTTPS có chữ ký thì website có thể xác minh đó là thật
Điều này đi ngược lại tinh thần Internet mở, nhưng cần có cách để phân biệt crawler đáng tin cậy
Tôi dùng những thông tin này để tự động đưa ra quyết định chặn
Tôi đã ghi trên blog chính sách mặc định chặn request từ Amazon
Tôi nghĩ New York Times rất tệ. Chính vì vậy mà nó lại càng phải được lưu giữ cho tương lai
Mỗi tờ báo chỉ đăng những bài phù hợp với hệ tư tưởng của họ
EFF đang quá mềm mỏng với AI
Dù AI đang phá hỏng Internet và việc làm, họ vẫn không có lập trường cứng rắn
Nhìn vào danh sách nhà tài trợ thì có rất nhiều nhà tài trợ doanh nghiệp, khiến độ tin cậy như một tổ chức vì tự do bị suy giảm
Những tổ chức như OSI hay EFF đã bị doanh nghiệp chi phối, thậm chí còn trở nên có hại
Nếu Internet Archive có một chương trình crawler IP dân cư phân tán thì tôi sẵn sàng tham gia
Dĩ nhiên vẫn cần cơ chế chống thao túng
Nếu một nơi vừa bán phân bón vừa bán dầu diesel thì suy đoán đó là nhà cung cấp cho nông nghiệp là hợp lý
Nhưng nếu họ bán theo xe tải cho những người không phải nông dân thì việc nghi ngờ cũng là điều đương nhiên