- Anna’s Archive là công cụ tìm kiếm siêu dữ liệu cho shadow library nơi có thể tìm sách điện tử và tài liệu sao chép lậu, được mở vào mùa thu năm 2022
- Trong 3 năm qua, do các báo cáo vi phạm bản quyền từ nhà xuất bản và tác giả, Google đã xóa 749 triệu URL của trang này khỏi kết quả tìm kiếm
- Con số này tương đương 5% tổng số URL liên quan đến bản quyền mà Google từng xử lý, và nhiều hơn rất nhiều so với The Pirate Bay
- Hơn 1.000 chủ thể quyền như Penguin Random House, John Wiley & Sons đã gửi yêu cầu DMCA, và mỗi tuần có khoảng 10 triệu URL mới bị báo cáo
- Dù bị xóa trên diện rộng, tên miền chính của Anna’s Archive vẫn có thể truy cập và vẫn có thể dễ dàng tìm thấy bằng cách tìm trực tiếp tên trang trên Google
Tổng quan về Anna’s Archive
- Anna’s Archive là công cụ metasearch cho phép tìm kiếm tích hợp trên nhiều shadow library, cung cấp khả năng tìm sách và tài liệu sao chép bất hợp pháp
- Trang được mở vào mùa thu năm 2022, ngay sau khi Z-Library bị cơ quan chức năng Mỹ truy quét
- Xuất phát từ mục tiêu tiếp tục cung cấp sách và bài báo học thuật “miễn phí” cho công chúng
- Trong 3 năm kể từ khi ra mắt, trang đã bị chặn tại nhiều quốc gia và bị kiện tại Mỹ với cáo buộc thu thập trái phép 2,2TB dữ liệu WorldCat
- Ngoài ra, trang cũng đang hỗ trợ các nhà nghiên cứu AI tiếp cận dữ liệu
Đợt gỡ bỏ quy mô lớn của Google
- Google xóa khỏi kết quả tìm kiếm các URL bị nghi ngờ vi phạm bản quyền theo yêu cầu của chủ thể quyền
- Riêng với Anna’s Archive, tổng cộng 784 triệu URL đã bị báo cáo, trong đó 749 triệu URL thực sự bị xóa
- Một số liên kết không bị xóa vì Google không lập chỉ mục chúng
- Để so sánh, The Pirate Bay chỉ có 4,2 triệu URL bị xóa, cho thấy quy mô của Anna’s Archive lớn hơn rất nhiều
- Do trang vận hành nhiều tên miền phụ theo từng quốc gia và có lượng trang rất lớn, số URL thuộc diện gỡ bỏ cũng cao
Chiếm 5% tổng số URL gỡ vì bản quyền của Google
- Theo báo cáo minh bạch của Google, từ năm 2012 đến nay đã có tổng cộng 15,1 tỷ URL vi phạm bản quyền bị báo cáo
- Trong đó, các URL liên quan đến Anna’s Archive chiếm 5% tổng số
- Penguin Random House và John Wiley & Sons là hai bên báo cáo chính, và hơn 1.000 nhà xuất bản cùng tác giả đã gửi yêu cầu DMCA
- Hiện nay, mỗi tuần vẫn có thêm khoảng 10 triệu URL mới tiếp tục bị báo cáo
Mức độ hiển thị trong kết quả tìm kiếm
- Do đợt gỡ bỏ quy mô lớn, mức độ xuất hiện của trang trong các truy vấn liên quan đến sách đã giảm
- Nhiều URL không còn được hiển thị hoặc bị tụt hạng trong kết quả tìm kiếm
- Tuy nhiên, nếu tìm trực tiếp theo tên ‘Anna’s Archive’, tên miền chính vẫn xuất hiện ở vị trí đầu
- Bất chấp động thái của Google, việc truy cập trực tiếp vào trang vẫn không bị chặn
Phản ứng của ngành xuất bản và những giới hạn
- Do khó chặn trực tiếp trang web, các nhà xuất bản tiếp tục gửi yêu cầu gỡ bỏ đến các nền tảng bên thứ ba như Google
- Bất chấp áp lực pháp lý, các tên miền chính như annas-archive.org, .li, .se vẫn đang hoạt động
- Bài gốc không đề cập thêm đến các biện pháp tiếp theo hay thay đổi chính sách trong tương lai
1 bình luận
Ý kiến trên Hacker News
Nghe có vẻ lạ, nhưng tôi nhận ra Yandex là một công cụ tìm kiếm khá tuyệt để tìm nội dung đã bị gỡ xuống theo yêu cầu DMCA
Ví dụ, khi muốn xem stream trên web một bộ phim không có trên Netflix, kết quả tìm kiếm tốt hơn hẳn
Cảm giác như đang dùng lại Google của năm 2005
Vì Google, Bing và DuckDuckGo không còn cho ra kết quả tử tế nữa
Dạo này chỉ thấy những chỗ như blockchain explorer hiển thị các đoạn khớp ngắn, không rõ là có chủ đích hay do đang thử đối sánh mờ (fuzzy matching)
Dù sao thì cho mục đích này nó hoàn toàn thất bại
Google bị cá nhân hóa quá mức
Công cụ tốt sẽ hiển thị các trang web lậu, còn công cụ xuất sắc sẽ xếp chúng lên trên các kết quả giả mạo
Nhưng công cụ càng xuất sắc thì cuối cùng càng bị chú ý và bị buộc xóa các kết quả đó
Khi đến mức ấy thì đã đến lúc phải tìm chỗ khác
Trong khi trên Yandex thì nó hiện ra ngay trong top 3
Nhân tiện, DDG giờ gần như y hệt Google, còn có cả kết quả tài trợ
Anna’s Archive đã cung cấp đủ dữ liệu cần cho việc huấn luyện Gemini của Google rồi, nên giờ có vẻ như họ đang giả vờ nó không tồn tại nữa
Thật khó hiểu khi các cộng đồng trực tuyến lại dựng lên những thuyết âm mưu ác ý quanh chuyện này
Google giờ lại còn đi tìm kiếm nữa à?
Dạo này thương hiệu chatbot tôi dùng sẽ né được cả trăm trang spam SEO để tìm đúng cùng một thông tin, nên tôi không rõ Google có thể thắng về độ tiện thế nào nữa
(nickname hay đấy)
Rốt cuộc chỉ là từ bỏ khả năng phán đoán để tự kiểm tra nguồn thông tin
Hoặc rốt cuộc nó cũng chỉ đang thay bạn tìm Google thôi
Một AGI thật sự ở mức con người có thể sẽ phát hiện ra các nỗ lực như vậy, nhưng chatbot hiện nay thì không
Bài liên quan: NYTimes - AI Chatbot Prompts and Manipulation
Tôi hoàn toàn không tìm kiếm thứ gì có thể khiến Google khó chịu
Những thứ như số sê-ri, số điện thoại doanh nghiệp, bài báo khoa học, sách đều tìm bằng Yandex hoặc Brave
Google làm gì thì cũng mặc, vì đằng nào tôi cũng không dùng
Tôi đang nghĩ nên tải hết torrent z-archive trước khi Anna’s Archive biến mất
Có vẻ nếu bỏ các PDF lớn và sách không phải tiếng Anh thì có thể nén vào hai ổ 32TB
https://annas-archive.org/torrents
PDF lớn thường là do màu sắc hoặc độ phân giải, chứ không phải do nội dung
Cũng có thể tự động nhận diện nhiều phiên bản của cùng một cuốn sách rồi chỉ giữ lại một bản epub và xóa phần còn lại
Nhưng HDD và hệ thống tệp là vấn đề, nên có lẽ tôi sẽ phải tự làm thứ gì đó kiểu trình chia torrent
https://annas-archive.org
Tôi hầu như chưa bao giờ dựa vào Google để tìm nội dung trên các trang kiểu này
Bản thân trang đã được lập chỉ mục rất tốt theo tiêu đề, tác giả, định dạng, ngày tháng, nên tìm kiếm tự do là đủ dùng
Ví dụ, chỉ cần tìm “a a a a ah ah ah ah dance song” cũng có thể ra “Million Voices” của Otto Knows
Có lẽ Google cũng sẽ không lập chỉ mục đến tận phần nội dung của các trang Anna’s Archive
Sau khi Library Genesis bị đóng gần đây, có vẻ Anna’s Archive là kho sách cuối cùng còn lại
Không biết còn lựa chọn thay thế nào khác không
Cuộc hành quân đến sự vô nghĩa của Google vẫn đang tiếp diễn
Môi trường tìm kiếm web đã thay đổi hoàn toàn