Google xóa 749 triệu URL liên quan đến Anna’s Archive khỏi kết quả tìm kiếm

(torrentfreak.com)

4 điểm bởi GN⁺ 2025-11-06 | 1 bình luận | Chia sẻ qua WhatsApp

Anna’s Archive là công cụ tìm kiếm siêu dữ liệu cho shadow library nơi có thể tìm sách điện tử và tài liệu sao chép lậu, được mở vào mùa thu năm 2022
Trong 3 năm qua, do các báo cáo vi phạm bản quyền từ nhà xuất bản và tác giả, Google đã xóa 749 triệu URL của trang này khỏi kết quả tìm kiếm
Con số này tương đương 5% tổng số URL liên quan đến bản quyền mà Google từng xử lý, và nhiều hơn rất nhiều so với The Pirate Bay
Hơn 1.000 chủ thể quyền như Penguin Random House, John Wiley & Sons đã gửi yêu cầu DMCA, và mỗi tuần có khoảng 10 triệu URL mới bị báo cáo
Dù bị xóa trên diện rộng, tên miền chính của Anna’s Archive vẫn có thể truy cập và vẫn có thể dễ dàng tìm thấy bằng cách tìm trực tiếp tên trang trên Google

Tổng quan về Anna’s Archive

Anna’s Archive là công cụ metasearch cho phép tìm kiếm tích hợp trên nhiều shadow library, cung cấp khả năng tìm sách và tài liệu sao chép bất hợp pháp
- Trang được mở vào mùa thu năm 2022, ngay sau khi Z-Library bị cơ quan chức năng Mỹ truy quét
- Xuất phát từ mục tiêu tiếp tục cung cấp sách và bài báo học thuật “miễn phí” cho công chúng
Trong 3 năm kể từ khi ra mắt, trang đã bị chặn tại nhiều quốc gia và bị kiện tại Mỹ với cáo buộc thu thập trái phép 2,2TB dữ liệu WorldCat
Ngoài ra, trang cũng đang hỗ trợ các nhà nghiên cứu AI tiếp cận dữ liệu

Đợt gỡ bỏ quy mô lớn của Google

Google xóa khỏi kết quả tìm kiếm các URL bị nghi ngờ vi phạm bản quyền theo yêu cầu của chủ thể quyền
Riêng với Anna’s Archive, tổng cộng 784 triệu URL đã bị báo cáo, trong đó 749 triệu URL thực sự bị xóa
- Một số liên kết không bị xóa vì Google không lập chỉ mục chúng
Để so sánh, The Pirate Bay chỉ có 4,2 triệu URL bị xóa, cho thấy quy mô của Anna’s Archive lớn hơn rất nhiều
Do trang vận hành nhiều tên miền phụ theo từng quốc gia và có lượng trang rất lớn, số URL thuộc diện gỡ bỏ cũng cao

Chiếm 5% tổng số URL gỡ vì bản quyền của Google

Theo báo cáo minh bạch của Google, từ năm 2012 đến nay đã có tổng cộng 15,1 tỷ URL vi phạm bản quyền bị báo cáo
- Trong đó, các URL liên quan đến Anna’s Archive chiếm 5% tổng số
Penguin Random House và John Wiley & Sons là hai bên báo cáo chính, và hơn 1.000 nhà xuất bản cùng tác giả đã gửi yêu cầu DMCA
Hiện nay, mỗi tuần vẫn có thêm khoảng 10 triệu URL mới tiếp tục bị báo cáo

Mức độ hiển thị trong kết quả tìm kiếm

Do đợt gỡ bỏ quy mô lớn, mức độ xuất hiện của trang trong các truy vấn liên quan đến sách đã giảm
- Nhiều URL không còn được hiển thị hoặc bị tụt hạng trong kết quả tìm kiếm
Tuy nhiên, nếu tìm trực tiếp theo tên ‘Anna’s Archive’, tên miền chính vẫn xuất hiện ở vị trí đầu
Bất chấp động thái của Google, việc truy cập trực tiếp vào trang vẫn không bị chặn

Phản ứng của ngành xuất bản và những giới hạn

Do khó chặn trực tiếp trang web, các nhà xuất bản tiếp tục gửi yêu cầu gỡ bỏ đến các nền tảng bên thứ ba như Google
Bất chấp áp lực pháp lý, các tên miền chính như annas-archive.org, .li, .se vẫn đang hoạt động
Bài gốc không đề cập thêm đến các biện pháp tiếp theo hay thay đổi chính sách trong tương lai

1 bình luận

GN⁺ 2025-11-06

Ý kiến trên Hacker News

Nghe có vẻ lạ, nhưng tôi nhận ra Yandex là một công cụ tìm kiếm khá tuyệt để tìm nội dung đã bị gỡ xuống theo yêu cầu DMCA
Ví dụ, khi muốn xem stream trên web một bộ phim không có trên Netflix, kết quả tìm kiếm tốt hơn hẳn
Cảm giác như đang dùng lại Google của năm 2005
- Tôi bắt đầu dùng Yandex để tìm bittorrent infohash từ vài năm trước
  Vì Google, Bing và DuckDuckGo không còn cho ra kết quả tử tế nữa
  Dạo này chỉ thấy những chỗ như blockchain explorer hiển thị các đoạn khớp ngắn, không rõ là có chủ đích hay do đang thử đối sánh mờ (fuzzy matching)
  Dù sao thì cho mục đích này nó hoàn toàn thất bại
- Tôi đã thử nhiều công cụ tìm kiếm như Kagi, Startpage, Ecosia, DDG và tất cả đều cho kết quả liên quan hơn Google
  Google bị cá nhân hóa quá mức
- Với tư cách là một người Ukraine, tôi phẫn nộ khi Yandex đã biến thành công cụ tuyên truyền, nhưng với tư cách kỹ sư, tôi vẫn tôn trọng di sản nghiên cứu hàng chục năm và công nghệ tìm kiếm xuất sắc của họ
- Tôi đã thử chất lượng công cụ tìm kiếm theo cách này từ lâu
  Công cụ tốt sẽ hiển thị các trang web lậu, còn công cụ xuất sắc sẽ xếp chúng lên trên các kết quả giả mạo
  Nhưng công cụ càng xuất sắc thì cuối cùng càng bị chú ý và bị buộc xóa các kết quả đó
  Khi đến mức ấy thì đã đến lúc phải tìm chỗ khác
- Điều buồn cười là mấy ngày trước vợ tôi kể về lịch sử nước cô ấy và giới thiệu một bộ phim liên quan, nhưng Google, DDG, Bing, Brave đều không tìm ra
  Trong khi trên Yandex thì nó hiện ra ngay trong top 3
  Nhân tiện, DDG giờ gần như y hệt Google, còn có cả kết quả tài trợ
Anna’s Archive đã cung cấp đủ dữ liệu cần cho việc huấn luyện Gemini của Google rồi, nên giờ có vẻ như họ đang giả vờ nó không tồn tại nữa
- Tôi tự hỏi liệu Anna’s Archive có từng sắp xếp thông tin của thế giới và làm cho nó có thể truy cập phổ quát hay không
- Google tự nguyện vận hành nhật ký minh bạch, và việc tuân thủ DMCA chỉ là vấn đề diễn giải pháp lý
  Thật khó hiểu khi các cộng đồng trực tuyến lại dựng lên những thuyết âm mưu ác ý quanh chuyện này
Google giờ lại còn đi tìm kiếm nữa à?
Dạo này thương hiệu chatbot tôi dùng sẽ né được cả trăm trang spam SEO để tìm đúng cùng một thông tin, nên tôi không rõ Google có thể thắng về độ tiện thế nào nữa
- Tôi có nghe nói chatbot ít bị spam ảnh hưởng hơn Google, không biết có đúng không
- Tôi nhớ là đã từng có thời Google thực sự làm tìm kiếm
  (nickname hay đấy)
- Chatbot không hề có chỉ mục ở quy mô toàn bộ Internet của riêng mình
  Rốt cuộc chỉ là từ bỏ khả năng phán đoán để tự kiểm tra nguồn thông tin
- 25~90% liên kết mà chatbot cung cấp là ảo giác (hallucination)
  Hoặc rốt cuộc nó cũng chỉ đang thay bạn tìm Google thôi
- AI dựa trên LLM về bản chất dễ bị tấn công thao túng dữ liệu
  Một AGI thật sự ở mức con người có thể sẽ phát hiện ra các nỗ lực như vậy, nhưng chatbot hiện nay thì không
  Bài liên quan: NYTimes - AI Chatbot Prompts and Manipulation
Tôi hoàn toàn không tìm kiếm thứ gì có thể khiến Google khó chịu
Những thứ như số sê-ri, số điện thoại doanh nghiệp, bài báo khoa học, sách đều tìm bằng Yandex hoặc Brave
Google làm gì thì cũng mặc, vì đằng nào tôi cũng không dùng
Tôi đang nghĩ nên tải hết torrent z-archive trước khi Anna’s Archive biến mất
Có vẻ nếu bỏ các PDF lớn và sách không phải tiếng Anh thì có thể nén vào hai ổ 32TB
https://annas-archive.org/torrents
- Tôi thấy việc loại bỏ các PDF lớn là một tiêu chí quá tùy tiện
  PDF lớn thường là do màu sắc hoặc độ phân giải, chứ không phải do nội dung
- Trước đây tôi từng giảm DPI và độ sâu màu rồi ghép lại thành PDF để giảm dung lượng
  Cũng có thể tự động nhận diện nhiều phiên bản của cùng một cuốn sách rồi chỉ giữ lại một bản epub và xóa phần còn lại
- Tôi cũng muốn tạo bản sao lưu cho các bản tiếng Anh/Đức/Pháp
  Nhưng HDD và hệ thống tệp là vấn đề, nên có lẽ tôi sẽ phải tự làm thứ gì đó kiểu trình chia torrent
- Tôi sắp xếp bằng cách đảo ngược danh sách theo kiểu điền từ các tệp nhỏ trước
https://annas-archive.org
Tôi hầu như chưa bao giờ dựa vào Google để tìm nội dung trên các trang kiểu này
Bản thân trang đã được lập chỉ mục rất tốt theo tiêu đề, tác giả, định dạng, ngày tháng, nên tìm kiếm tự do là đủ dùng
- Tìm kiếm web như Google có thế mạnh ở tìm kiếm theo từ gần nghĩa
  Ví dụ, chỉ cần tìm “a a a a ah ah ah ah dance song” cũng có thể ra “Million Voices” của Otto Knows
- Nhưng tôi tự hỏi liệu các trang kiểu này có thiếu chức năng tìm kiếm toàn văn (full-text search) hay không
  Có lẽ Google cũng sẽ không lập chỉ mục đến tận phần nội dung của các trang Anna’s Archive
Sau khi Library Genesis bị đóng gần đây, có vẻ Anna’s Archive là kho sách cuối cùng còn lại
Không biết còn lựa chọn thay thế nào khác không
- Có Open-Slum.org được liên kết từ Anna’s Archive
- Với sách thì tôi khuyên dùng WeLib.org, còn sách nói thì AudiobookBay
Cuộc hành quân đến sự vô nghĩa của Google vẫn đang tiếp diễn
- Dù vậy, Google vẫn chiếm 97% các truy vấn tìm kiếm trên toàn thế giới
Môi trường tìm kiếm web đã thay đổi hoàn toàn
- Các nền tảng khép kín (walled garden) ngày càng nhiều, nên có nhiều khu vực mà công cụ tìm kiếm không thể tiếp cận
- Cũng có rất nhiều dữ liệu không thể truy cập vì ràng buộc pháp lý
- Giờ không chỉ phải dùng Google mà còn phải dùng cả Yandex, Kagi, ChatGPT
- Tôi cũng tận dụng chỉ mục tự làm của mình là Internet Places Database

Google xóa 749 triệu URL liên quan đến Anna’s Archive khỏi kết quả tìm kiếm

Tổng quan về Anna’s Archive

Đợt gỡ bỏ quy mô lớn của Google

Chiếm 5% tổng số URL gỡ vì bản quyền của Google

Mức độ hiển thị trong kết quả tìm kiếm

Phản ứng của ngành xuất bản và những giới hạn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News