1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Anna’s Archive đã treo mức thưởng 200.000 USD để có được bản quét toàn bộ sách của Google Books hoặc một bộ sưu tập có quy mô tương tự
  • Hiện việc truy cập Google Books chủ yếu chỉ xoay quanh các đoạn trích nhỏ bên cạnh kết quả tìm kiếm, nên việc lấy được toàn bộ bản quét được xem là nhiệm vụ then chốt từ góc độ lưu trữ
  • Nếu đã tìm ra phương pháp có thể mở rộng, họ hướng dẫn hãy liên hệ ngay từ giai đoạn nguyên mẫu thay vì chờ đến khi hoàn thiện
  • Những người có quyền truy cập nội bộ vào Google cũng thuộc đối tượng, và ngay cả khi chỉ lấy được văn bản OCR mà không có ảnh thì vẫn có thể nhận một nửa mức thưởng
  • Mục tiêu không chỉ giới hạn ở Google Books mà còn áp dụng cho các bộ sưu tập quy mô lớn, gồm cả sách hiếm do các công ty AI hoặc tổ chức khác thu thập

Đối tượng nhận thưởng và điều kiện tham gia

  • Anna’s Archive đưa ra mức thưởng 200.000 USD cho việc thu thập được bản quét toàn bộ sách của Google Books hoặc một bộ sưu tập tương tự
  • Trước khi bắt tay vào làm, cần đọc kỹ hướng dẫn về bounty của Anna’s Archive
  • Google Books lưu trữ rất nhiều sách được quét, nhưng khi truy cập qua tìm kiếm thì hiện chỉ nhìn thấy các đoạn trích nhỏ quanh kết quả
  • Nếu đã tìm được một phương pháp có khả năng mở rộng, họ khuyên nên liên hệ sớm bằng nguyên mẫu thay vì đợi đến bản hoàn chỉnh
    • Anna’s Archive có thể hỗ trợ phần mở rộng sau đó
  • Những người làm việc tại Google và có thể truy cập dữ liệu liên quan cũng nằm trong diện nhận thưởng
    • Họ viết rằng 200.000 USD có thể không phải là số tiền quá lớn, nhưng nếu có thể đưa dữ liệu ra ngoài thì người đó sẽ được gọi là “một nhà lưu trữ huyền thoại”
  • Mức thưởng cũng áp dụng cho các bộ sưu tập ngoài Google Books có quy mô tương đương
    • Ví dụ được nêu là các bộ sưu tập do các công ty AI thu thập
    • Đặc biệt, các bộ sưu tập chứa số lượng đáng kể sách hiếm cũng thuộc phạm vi này

Quy mô và cách chuyển giao được tổng hợp từ phần bình luận

  • Một bình luận nói toàn bộ kho lưu trữ, bao gồm cả tài liệu có bản quyền, vào khoảng 7PB, nhưng sau đó đã đính chính là khoảng 1,5PB và con số đó bao gồm cả bản sao từ trang IUPUI
  • Tài liệu thuộc phạm vi công cộng và tài liệu do tác giả công khai được nhắc đến là khoảng 300TB
  • Anna’s Archive trả lời rằng nếu phần tài liệu phạm vi công cộng và do tác giả công khai vẫn chưa được thu thập thì họ sẵn sàng bổ sung thêm bounty riêng
  • Ngay cả khi không chuyển toàn bộ ảnh mà chỉ đưa ra văn bản OCR, thì cho mục đích của bounty này vẫn có thể trả một nửa số tiền
  • Với việc chuyển giao dữ liệu dung lượng lớn, SFTP hoặc phương thức tương tự được nhắc đến
  • Tiêu đề issue đã được đổi vào ngày 7 tháng 6 năm 2025 thành Google Books (or similar) all book scans — $200,000 bounty

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi sống ở một quốc gia nơi rất khó kiếm sách tiếng Anh, còn mua trực tuyến từ nước ngoài thì có quá nhiều thủ tục hành chính và hạn chế
    Nếu không có Anna's ArchiveZ-Library, tôi đã không thể đọc những cuốn sách đã tạo nên con người tôi hôm nay, và cũng khó giữ được niềm đam mê học hỏi
    Tôi cũng biết ơn các tác giả mà tôi đã nhận được tri thức từ họ khi chưa thể trả tiền sách

    • Nửa đùa nửa thật, có thể nói vậy nghĩa là toàn bộ cuộc sống hiện tại của bạn có được nhờ lợi ích từ hành vi phạm tội, nhưng tri thức nên được tự do
      Tri thức không được tạo ra trong chân không, và nó thuộc về tất cả mọi người
    • Tôi hiểu quan điểm đó, nhưng nếu tác giả không thể kiếm tiền thì có khả năng khá nhiều trong số những cuốn sách ấy ngay từ đầu đã không tồn tại
      Trước đây trên Reddit từng có một tác giả đăng số liệu cho thấy doanh số thực tế của sách mình sụp đổ sau khi nó bị đưa lên các trang chia sẻ bất hợp pháp
      Vì vậy, đặc biệt với sách lập trình, tôi cố gắng mua khi có thể, còn PDF thì dùng như bản xem trước. Ngược lại, nhờ vậy mà tôi đã mua nhiều hơn trước rất nhiều
      Tất nhiên nếu bạn sống ở nơi việc mua là bất khả thi thì lại là chuyện khác, nhưng khi ca ngợi các trang như vậy, người ta thường có xu hướng chỉ nhìn vào mặt tích cực
    • May là vị trí có ghi trong tên người dùng. Điều làm tôi khó chịu nhất trên mạng dạo này là người ta nói “ở nước tôi” nhưng đến cuối cùng vẫn không cho biết đó là nước nào
    • https://send.djazz.se/
      Đây là công cụ then chốt để gửi EPUB sang Kobo
  • https://SourceLibrary.org có khoảng 16.000 bản dịch sách hiếm, phần lớn là bản dịch đầu tiên
    Số sách được lưu trữ là 50.000 cuốn và dự định sẽ dịch khi có kinh phí; số token nhiều hơn Wikipedia tiếng Anh, quy mô khoảng 0,75PB
    Không biết có thuộc diện được trao thưởng hay không, nhưng tôi muốn chia sẻ, và đang tìm các nhà tài trợ nhỏ lẫn lớn để hỗ trợ dịch tư liệu thời Phục hưng

    • Thành quả rất đẹp, câu trả lời cũng phù hợp và có sức vang. Việc huy động vốn có vẻ cũng có thể theo cách như API nghiên cứu trả phí
    • Trông có vẻ thú vị
      Khó nắm bắt ngay là đã lưu trữ toàn bộ những gì, nhưng trong số bạn bè là sử gia hàn lâm của tôi có người có thể quan tâm đến một số lĩnh vực cụ thể, và cũng có thể giúp kiểm chứng vài ngôn ngữ khó
      Tôi tò mò liệu có thể tìm kiếm theo khu vực hoặc ngôn ngữ hay không
      Cũng muốn biết dự án đã thử liên hệ với giới sử học chưa. Có vẻ các nghiên cứu sinh tiến sĩ có thể tìm được đề tài nghiên cứu ở đây
      Khi xem timeline https://sourcelibrary.org/timeline thì tôi gặp lỗi
    • Tôi tò mò ngân sách đã tốn bao nhiêu để đi được đến đây. Số token khổng lồ, có lẽ đang dùng Gemini Flash
  • Hôm qua Anna's Archive thực sự đã giúp ích
    Tôi đã mất vài ngày tìm file ZIP trong CD đi kèm một cuốn sách lập trình đầu những năm 2000; tất cả người bán đồ cũ đều nói không còn CD, tìm kiếm cũng không ra, LLM cũng không tìm được
    ChatGPT cứ nói là có trong archive nhưng thực tế không có; tôi thử vào AA cho chắc thì thấy có cả file ZIP cho bản in lần 1 và lần 2. Thật sự như vị cứu tinh

  • Tôi tò mò sẽ mất bao lâu nữa thì người ta treo thưởng cả cho việc scrape Internet
    Cloudflare CAPTCHA, với tôi Internet gần như đã đến mức không dùng được, và có vẻ sẽ còn tệ hơn nữa
    Thà xem các bản sao trên những trang như archive.is hoặc tải qua torrent còn hơn. Cách sau còn tốt hơn nhiều cho quyền riêng tư, mà dù sao tôi cũng đang dùng trình chặn quảng cáo

    • Rất có thể ai đó trong cùng mạng đang chạy một trò chơi được kiếm tiền qua proxy Bright Data. Mấy ngày trước cũng có một thread liên quan
      Cũng có thể là TV thông minh. Nếu tìm ra nguyên nhân và loại bỏ, uy tín IP có thể cải thiện và bạn có thể gặp ít CAPTCHA hơn
    • https://x.com/CloudflareDev/status/2031488099725754821
      Có một xung đột lợi ích nhỏ như thế này
  • Tôi tò mò ai đứng sau Anna's Archive. Trong đội ngũ và diễn đàn có vẻ có nhiều người nói tiếng Anh
    Dù sao thì tôi nghĩ miễn là mua không đồng nghĩa với sở hữu thì không có vấn đề gì

    • Có vẻ Anna đứng sau nó
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Khá nhiều sách trong đó vốn cũng có thể mua ở dạng không DRM. Có nhiều tác giả không bận tâm đến DRM hơn bạn nghĩ
      Và nếu mua sách giấy thì việc mua rõ ràng trở thành sở hữu, nên với sách thì câu đó nghe hơi không phù hợp
    • Có vẻ nguồn chính từng là từ Nga, hoặc có thể đó là LibGen
      Nhưng điều đáng ngạc nhiên hơn là có quá ít lựa chọn thay thế như vậy. Sau khi Facebook và các bên khác giao chiến với LibGen rồi LibGen bị hạ, số lựa chọn thay thế bất ngờ rất ít, và Anna's Archive là một trong số hiếm hoi
      Tôi vẫn chưa biết chính xác đã xảy ra chuyện gì với LibGen, nhưng sau cuộc tấn công đó, thực tế nó có vẻ như đã biến mất một nửa
    • Nếu bạn thực sự nghĩ là không có vấn đề gì, tôi không hiểu vì sao lại hỏi trên diễn đàn công khai rằng ai đứng sau nó
  • Trong câu “hãy đọc kỹ [this] trước khi làm nhiệm vụ treo thưởng”, [this] trỏ tới địa chỉ .li, dẫn đến một nơi nguy hiểm
    Địa chỉ đúng phải là https://annas-archive.gl/volunteering#bounties

  • Nếu có ai ở Google đang lo mình bị sa thải, đây có thể là kế hoạch dự phòng

    • Nếu bị bắt quả tang tuồn dữ liệu ra ngoài, họ sẽ bị kiện với số tiền lớn hơn 200.000 USD rất nhiều
    • Khả năng một nhân viên bình thường có thể truy cập toàn bộ kho lưu trữ là thấp
      Ngay cả trong số rất ít người có quyền truy cập, nếu bắt đầu tải xuống chỉ một tỷ lệ rất nhỏ nội dung thì nhiều khả năng các hệ thống tự động sẽ phát hiện
    • Vấn đề lớn hơn là việc này gây ra thiệt hại tài chính. Có lẽ còn phải chuẩn bị chuyển sang nước khác sống
  • Những nhiệm vụ treo thưởng thú vị khác mà họ đưa ra: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Mua toàn bộ bộ dữ liệu MARC của Library of Congress — tiền thưởng 3.000 USD
    Trang Wikipedia tiếng Anh về các tổ chức liên quan — tối đa 100 USD cho mỗi trang mới
    Internet Archive Digital Lending — 5.000 USD cho mỗi 1 triệu PDF
    Phiên bản văn bản của toàn bộ thư viện — 20.000 USD, v.v.

  • Tôi tò mò không biết vi phạm bản quyền và quyền tác giả sẽ đi về đâu trong tương lai
    Tình trạng hiện nay, vốn xoay quanh mô hình cho thuê, có vẻ không bền vững. Ngay cả những người bình thường quanh tôi cũng đã biết nhiều về những thứ như VPNNAS

    • Nếu tìm hiểu xem các tác giả và nghệ sĩ thực sự tạo ra tác phẩm nhận được ít đến mức nào, bạn sẽ mong máy chém là câu trả lời
    • Ngay từ đầu đây không phải là một cấu trúc bền vững, mà là sự chi phối quy định của các chủ sở hữu quyền sở hữu trí tuệ lớn
      Spotify, Netflix, Amazon, v.v. từng cung cấp giá trị khá ổn trong một thời gian, nhưng giờ khi tình trạng dịch vụ xuống cấp đang thực sự bắt đầu, đã đến lúc sẽ có một làn sóng quay lại quy mô lớn
  • Gemini nhiều khả năng đã được huấn luyện bằng những cuốn sách đó, nên về lý thuyết nó có thể nhả nguyên văn một số câu
    Trước đây trong vụ kiện NYT chống lại OpenAI cũng đã lộ ra những ví dụ kiểu đó

    • Gemini, GPT, Fable về cơ bản là những bản nén rất tốt của nội dung Internet
      Tuy nhiên đó không phải là nén không mất dữ liệu; chúng đã tìm ra cách giữ lại những phần quan trọng để thực hiện nhiệm vụ dự đoán token tiếp theo, còn phần còn lại thì bắt chước