4 điểm bởi GN⁺ 2025-11-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • Anna’s Archivecông cụ tìm kiếm siêu dữ liệu cho shadow library nơi có thể tìm sách điện tử và tài liệu sao chép lậu, được mở vào mùa thu năm 2022
  • Trong 3 năm qua, do các báo cáo vi phạm bản quyền từ nhà xuất bản và tác giả, Google đã xóa 749 triệu URL của trang này khỏi kết quả tìm kiếm
  • Con số này tương đương 5% tổng số URL liên quan đến bản quyền mà Google từng xử lý, và nhiều hơn rất nhiều so với The Pirate Bay
  • Hơn 1.000 chủ thể quyền như Penguin Random House, John Wiley & Sons đã gửi yêu cầu DMCA, và mỗi tuần có khoảng 10 triệu URL mới bị báo cáo
  • Dù bị xóa trên diện rộng, tên miền chính của Anna’s Archive vẫn có thể truy cập và vẫn có thể dễ dàng tìm thấy bằng cách tìm trực tiếp tên trang trên Google

Tổng quan về Anna’s Archive

  • Anna’s Archivecông cụ metasearch cho phép tìm kiếm tích hợp trên nhiều shadow library, cung cấp khả năng tìm sách và tài liệu sao chép bất hợp pháp
    • Trang được mở vào mùa thu năm 2022, ngay sau khi Z-Library bị cơ quan chức năng Mỹ truy quét
    • Xuất phát từ mục tiêu tiếp tục cung cấp sách và bài báo học thuật “miễn phí” cho công chúng
  • Trong 3 năm kể từ khi ra mắt, trang đã bị chặn tại nhiều quốc gia và bị kiện tại Mỹ với cáo buộc thu thập trái phép 2,2TB dữ liệu WorldCat
  • Ngoài ra, trang cũng đang hỗ trợ các nhà nghiên cứu AI tiếp cận dữ liệu

Đợt gỡ bỏ quy mô lớn của Google

  • Google xóa khỏi kết quả tìm kiếm các URL bị nghi ngờ vi phạm bản quyền theo yêu cầu của chủ thể quyền
  • Riêng với Anna’s Archive, tổng cộng 784 triệu URL đã bị báo cáo, trong đó 749 triệu URL thực sự bị xóa
    • Một số liên kết không bị xóa vì Google không lập chỉ mục chúng
  • Để so sánh, The Pirate Bay chỉ có 4,2 triệu URL bị xóa, cho thấy quy mô của Anna’s Archive lớn hơn rất nhiều
  • Do trang vận hành nhiều tên miền phụ theo từng quốc gia và có lượng trang rất lớn, số URL thuộc diện gỡ bỏ cũng cao

Chiếm 5% tổng số URL gỡ vì bản quyền của Google

  • Theo báo cáo minh bạch của Google, từ năm 2012 đến nay đã có tổng cộng 15,1 tỷ URL vi phạm bản quyền bị báo cáo
    • Trong đó, các URL liên quan đến Anna’s Archive chiếm 5% tổng số
  • Penguin Random HouseJohn Wiley & Sons là hai bên báo cáo chính, và hơn 1.000 nhà xuất bản cùng tác giả đã gửi yêu cầu DMCA
  • Hiện nay, mỗi tuần vẫn có thêm khoảng 10 triệu URL mới tiếp tục bị báo cáo

Mức độ hiển thị trong kết quả tìm kiếm

  • Do đợt gỡ bỏ quy mô lớn, mức độ xuất hiện của trang trong các truy vấn liên quan đến sách đã giảm
    • Nhiều URL không còn được hiển thị hoặc bị tụt hạng trong kết quả tìm kiếm
  • Tuy nhiên, nếu tìm trực tiếp theo tên ‘Anna’s Archive’, tên miền chính vẫn xuất hiện ở vị trí đầu
  • Bất chấp động thái của Google, việc truy cập trực tiếp vào trang vẫn không bị chặn

Phản ứng của ngành xuất bản và những giới hạn

  • Do khó chặn trực tiếp trang web, các nhà xuất bản tiếp tục gửi yêu cầu gỡ bỏ đến các nền tảng bên thứ ba như Google
  • Bất chấp áp lực pháp lý, các tên miền chính như annas-archive.org, .li, .se vẫn đang hoạt động
  • Bài gốc không đề cập thêm đến các biện pháp tiếp theo hay thay đổi chính sách trong tương lai

1 bình luận

 
GN⁺ 2025-11-06
Ý kiến trên Hacker News
  • Nghe có vẻ lạ, nhưng tôi nhận ra Yandex là một công cụ tìm kiếm khá tuyệt để tìm nội dung đã bị gỡ xuống theo yêu cầu DMCA
    Ví dụ, khi muốn xem stream trên web một bộ phim không có trên Netflix, kết quả tìm kiếm tốt hơn hẳn
    Cảm giác như đang dùng lại Google của năm 2005

    • Tôi bắt đầu dùng Yandex để tìm bittorrent infohash từ vài năm trước
      Vì Google, Bing và DuckDuckGo không còn cho ra kết quả tử tế nữa
      Dạo này chỉ thấy những chỗ như blockchain explorer hiển thị các đoạn khớp ngắn, không rõ là có chủ đích hay do đang thử đối sánh mờ (fuzzy matching)
      Dù sao thì cho mục đích này nó hoàn toàn thất bại
    • Tôi đã thử nhiều công cụ tìm kiếm như Kagi, Startpage, Ecosia, DDG và tất cả đều cho kết quả liên quan hơn Google
      Google bị cá nhân hóa quá mức
    • Với tư cách là một người Ukraine, tôi phẫn nộ khi Yandex đã biến thành công cụ tuyên truyền, nhưng với tư cách kỹ sư, tôi vẫn tôn trọng di sản nghiên cứu hàng chục năm và công nghệ tìm kiếm xuất sắc của họ
    • Tôi đã thử chất lượng công cụ tìm kiếm theo cách này từ lâu
      Công cụ tốt sẽ hiển thị các trang web lậu, còn công cụ xuất sắc sẽ xếp chúng lên trên các kết quả giả mạo
      Nhưng công cụ càng xuất sắc thì cuối cùng càng bị chú ý và bị buộc xóa các kết quả đó
      Khi đến mức ấy thì đã đến lúc phải tìm chỗ khác
    • Điều buồn cười là mấy ngày trước vợ tôi kể về lịch sử nước cô ấy và giới thiệu một bộ phim liên quan, nhưng Google, DDG, Bing, Brave đều không tìm ra
      Trong khi trên Yandex thì nó hiện ra ngay trong top 3
      Nhân tiện, DDG giờ gần như y hệt Google, còn có cả kết quả tài trợ
  • Anna’s Archive đã cung cấp đủ dữ liệu cần cho việc huấn luyện Gemini của Google rồi, nên giờ có vẻ như họ đang giả vờ nó không tồn tại nữa

    • Tôi tự hỏi liệu Anna’s Archive có từng sắp xếp thông tin của thế giới và làm cho nó có thể truy cập phổ quát hay không
    • Google tự nguyện vận hành nhật ký minh bạch, và việc tuân thủ DMCA chỉ là vấn đề diễn giải pháp lý
      Thật khó hiểu khi các cộng đồng trực tuyến lại dựng lên những thuyết âm mưu ác ý quanh chuyện này
  • Google giờ lại còn đi tìm kiếm nữa à?
    Dạo này thương hiệu chatbot tôi dùng sẽ né được cả trăm trang spam SEO để tìm đúng cùng một thông tin, nên tôi không rõ Google có thể thắng về độ tiện thế nào nữa

    • Tôi có nghe nói chatbot ít bị spam ảnh hưởng hơn Google, không biết có đúng không
    • Tôi nhớ là đã từng có thời Google thực sự làm tìm kiếm
      (nickname hay đấy)
    • Chatbot không hề có chỉ mục ở quy mô toàn bộ Internet của riêng mình
      Rốt cuộc chỉ là từ bỏ khả năng phán đoán để tự kiểm tra nguồn thông tin
    • 25~90% liên kết mà chatbot cung cấp là ảo giác (hallucination)
      Hoặc rốt cuộc nó cũng chỉ đang thay bạn tìm Google thôi
    • AI dựa trên LLM về bản chất dễ bị tấn công thao túng dữ liệu
      Một AGI thật sự ở mức con người có thể sẽ phát hiện ra các nỗ lực như vậy, nhưng chatbot hiện nay thì không
      Bài liên quan: NYTimes - AI Chatbot Prompts and Manipulation
  • Tôi hoàn toàn không tìm kiếm thứ gì có thể khiến Google khó chịu
    Những thứ như số sê-ri, số điện thoại doanh nghiệp, bài báo khoa học, sách đều tìm bằng Yandex hoặc Brave
    Google làm gì thì cũng mặc, vì đằng nào tôi cũng không dùng

  • Tôi đang nghĩ nên tải hết torrent z-archive trước khi Anna’s Archive biến mất
    Có vẻ nếu bỏ các PDF lớn và sách không phải tiếng Anh thì có thể nén vào hai ổ 32TB
    https://annas-archive.org/torrents

    • Tôi thấy việc loại bỏ các PDF lớn là một tiêu chí quá tùy tiện
      PDF lớn thường là do màu sắc hoặc độ phân giải, chứ không phải do nội dung
    • Trước đây tôi từng giảm DPI và độ sâu màu rồi ghép lại thành PDF để giảm dung lượng
      Cũng có thể tự động nhận diện nhiều phiên bản của cùng một cuốn sách rồi chỉ giữ lại một bản epub và xóa phần còn lại
    • Tôi cũng muốn tạo bản sao lưu cho các bản tiếng Anh/Đức/Pháp
      Nhưng HDD và hệ thống tệp là vấn đề, nên có lẽ tôi sẽ phải tự làm thứ gì đó kiểu trình chia torrent
    • Tôi sắp xếp bằng cách đảo ngược danh sách theo kiểu điền từ các tệp nhỏ trước
  • https://annas-archive.org

  • Tôi hầu như chưa bao giờ dựa vào Google để tìm nội dung trên các trang kiểu này
    Bản thân trang đã được lập chỉ mục rất tốt theo tiêu đề, tác giả, định dạng, ngày tháng, nên tìm kiếm tự do là đủ dùng

    • Tìm kiếm web như Google có thế mạnh ở tìm kiếm theo từ gần nghĩa
      Ví dụ, chỉ cần tìm “a a a a ah ah ah ah dance song” cũng có thể ra “Million Voices” của Otto Knows
    • Nhưng tôi tự hỏi liệu các trang kiểu này có thiếu chức năng tìm kiếm toàn văn (full-text search) hay không
      Có lẽ Google cũng sẽ không lập chỉ mục đến tận phần nội dung của các trang Anna’s Archive
  • Sau khi Library Genesis bị đóng gần đây, có vẻ Anna’s Archive là kho sách cuối cùng còn lại
    Không biết còn lựa chọn thay thế nào khác không

    • Open-Slum.org được liên kết từ Anna’s Archive
    • Với sách thì tôi khuyên dùng WeLib.org, còn sách nói thì AudiobookBay
  • Cuộc hành quân đến sự vô nghĩa của Google vẫn đang tiếp diễn

    • Dù vậy, Google vẫn chiếm 97% các truy vấn tìm kiếm trên toàn thế giới
  • Môi trường tìm kiếm web đã thay đổi hoàn toàn

    • Các nền tảng khép kín (walled garden) ngày càng nhiều, nên có nhiều khu vực mà công cụ tìm kiếm không thể tiếp cận
    • Cũng có rất nhiều dữ liệu không thể truy cập vì ràng buộc pháp lý
    • Giờ không chỉ phải dùng Google mà còn phải dùng cả Yandex, Kagi, ChatGPT
    • Tôi cũng tận dụng chỉ mục tự làm của mình là Internet Places Database