Treo thưởng 200.000 USD cho bản quét toàn bộ sách của Google Books hoặc bộ sưu tập tương tự (2025)
(software.annas-archive.gl)- Anna’s Archive đã treo mức thưởng 200.000 USD để có được bản quét toàn bộ sách của Google Books hoặc một bộ sưu tập có quy mô tương tự
- Hiện việc truy cập Google Books chủ yếu chỉ xoay quanh các đoạn trích nhỏ bên cạnh kết quả tìm kiếm, nên việc lấy được toàn bộ bản quét được xem là nhiệm vụ then chốt từ góc độ lưu trữ
- Nếu đã tìm ra phương pháp có thể mở rộng, họ hướng dẫn hãy liên hệ ngay từ giai đoạn nguyên mẫu thay vì chờ đến khi hoàn thiện
- Những người có quyền truy cập nội bộ vào Google cũng thuộc đối tượng, và ngay cả khi chỉ lấy được văn bản OCR mà không có ảnh thì vẫn có thể nhận một nửa mức thưởng
- Mục tiêu không chỉ giới hạn ở Google Books mà còn áp dụng cho các bộ sưu tập quy mô lớn, gồm cả sách hiếm do các công ty AI hoặc tổ chức khác thu thập
Đối tượng nhận thưởng và điều kiện tham gia
- Anna’s Archive đưa ra mức thưởng 200.000 USD cho việc thu thập được bản quét toàn bộ sách của Google Books hoặc một bộ sưu tập tương tự
- Trước khi bắt tay vào làm, cần đọc kỹ hướng dẫn về bounty của Anna’s Archive
- Google Books lưu trữ rất nhiều sách được quét, nhưng khi truy cập qua tìm kiếm thì hiện chỉ nhìn thấy các đoạn trích nhỏ quanh kết quả
- Nếu đã tìm được một phương pháp có khả năng mở rộng, họ khuyên nên liên hệ sớm bằng nguyên mẫu thay vì đợi đến bản hoàn chỉnh
- Anna’s Archive có thể hỗ trợ phần mở rộng sau đó
- Những người làm việc tại Google và có thể truy cập dữ liệu liên quan cũng nằm trong diện nhận thưởng
- Họ viết rằng 200.000 USD có thể không phải là số tiền quá lớn, nhưng nếu có thể đưa dữ liệu ra ngoài thì người đó sẽ được gọi là “một nhà lưu trữ huyền thoại”
- Mức thưởng cũng áp dụng cho các bộ sưu tập ngoài Google Books có quy mô tương đương
- Ví dụ được nêu là các bộ sưu tập do các công ty AI thu thập
- Đặc biệt, các bộ sưu tập chứa số lượng đáng kể sách hiếm cũng thuộc phạm vi này
Quy mô và cách chuyển giao được tổng hợp từ phần bình luận
- Một bình luận nói toàn bộ kho lưu trữ, bao gồm cả tài liệu có bản quyền, vào khoảng 7PB, nhưng sau đó đã đính chính là khoảng 1,5PB và con số đó bao gồm cả bản sao từ trang IUPUI
- Tài liệu thuộc phạm vi công cộng và tài liệu do tác giả công khai được nhắc đến là khoảng 300TB
- Anna’s Archive trả lời rằng nếu phần tài liệu phạm vi công cộng và do tác giả công khai vẫn chưa được thu thập thì họ sẵn sàng bổ sung thêm bounty riêng
- Ngay cả khi không chuyển toàn bộ ảnh mà chỉ đưa ra văn bản OCR, thì cho mục đích của bounty này vẫn có thể trả một nửa số tiền
- Với việc chuyển giao dữ liệu dung lượng lớn, SFTP hoặc phương thức tương tự được nhắc đến
- Tiêu đề issue đã được đổi vào ngày 7 tháng 6 năm 2025 thành
Google Books (or similar) all book scans — $200,000 bounty
1 bình luận
Ý kiến trên Hacker News
Tôi sống ở một quốc gia nơi rất khó kiếm sách tiếng Anh, còn mua trực tuyến từ nước ngoài thì có quá nhiều thủ tục hành chính và hạn chế
Nếu không có Anna's Archive và Z-Library, tôi đã không thể đọc những cuốn sách đã tạo nên con người tôi hôm nay, và cũng khó giữ được niềm đam mê học hỏi
Tôi cũng biết ơn các tác giả mà tôi đã nhận được tri thức từ họ khi chưa thể trả tiền sách
Tri thức không được tạo ra trong chân không, và nó thuộc về tất cả mọi người
Trước đây trên Reddit từng có một tác giả đăng số liệu cho thấy doanh số thực tế của sách mình sụp đổ sau khi nó bị đưa lên các trang chia sẻ bất hợp pháp
Vì vậy, đặc biệt với sách lập trình, tôi cố gắng mua khi có thể, còn PDF thì dùng như bản xem trước. Ngược lại, nhờ vậy mà tôi đã mua nhiều hơn trước rất nhiều
Tất nhiên nếu bạn sống ở nơi việc mua là bất khả thi thì lại là chuyện khác, nhưng khi ca ngợi các trang như vậy, người ta thường có xu hướng chỉ nhìn vào mặt tích cực
Đây là công cụ then chốt để gửi EPUB sang Kobo
https://SourceLibrary.org có khoảng 16.000 bản dịch sách hiếm, phần lớn là bản dịch đầu tiên
Số sách được lưu trữ là 50.000 cuốn và dự định sẽ dịch khi có kinh phí; số token nhiều hơn Wikipedia tiếng Anh, quy mô khoảng 0,75PB
Không biết có thuộc diện được trao thưởng hay không, nhưng tôi muốn chia sẻ, và đang tìm các nhà tài trợ nhỏ lẫn lớn để hỗ trợ dịch tư liệu thời Phục hưng
Khó nắm bắt ngay là đã lưu trữ toàn bộ những gì, nhưng trong số bạn bè là sử gia hàn lâm của tôi có người có thể quan tâm đến một số lĩnh vực cụ thể, và cũng có thể giúp kiểm chứng vài ngôn ngữ khó
Tôi tò mò liệu có thể tìm kiếm theo khu vực hoặc ngôn ngữ hay không
Cũng muốn biết dự án đã thử liên hệ với giới sử học chưa. Có vẻ các nghiên cứu sinh tiến sĩ có thể tìm được đề tài nghiên cứu ở đây
Khi xem timeline https://sourcelibrary.org/timeline thì tôi gặp lỗi
Hôm qua Anna's Archive thực sự đã giúp ích
Tôi đã mất vài ngày tìm file ZIP trong CD đi kèm một cuốn sách lập trình đầu những năm 2000; tất cả người bán đồ cũ đều nói không còn CD, tìm kiếm cũng không ra, LLM cũng không tìm được
ChatGPT cứ nói là có trong archive nhưng thực tế không có; tôi thử vào AA cho chắc thì thấy có cả file ZIP cho bản in lần 1 và lần 2. Thật sự như vị cứu tinh
Tôi tò mò sẽ mất bao lâu nữa thì người ta treo thưởng cả cho việc scrape Internet
Vì Cloudflare CAPTCHA, với tôi Internet gần như đã đến mức không dùng được, và có vẻ sẽ còn tệ hơn nữa
Thà xem các bản sao trên những trang như archive.is hoặc tải qua torrent còn hơn. Cách sau còn tốt hơn nhiều cho quyền riêng tư, mà dù sao tôi cũng đang dùng trình chặn quảng cáo
Cũng có thể là TV thông minh. Nếu tìm ra nguyên nhân và loại bỏ, uy tín IP có thể cải thiện và bạn có thể gặp ít CAPTCHA hơn
Có một xung đột lợi ích nhỏ như thế này
Tôi tò mò ai đứng sau Anna's Archive. Trong đội ngũ và diễn đàn có vẻ có nhiều người nói tiếng Anh
Dù sao thì tôi nghĩ miễn là mua không đồng nghĩa với sở hữu thì không có vấn đề gì
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
Và nếu mua sách giấy thì việc mua rõ ràng trở thành sở hữu, nên với sách thì câu đó nghe hơi không phù hợp
Nhưng điều đáng ngạc nhiên hơn là có quá ít lựa chọn thay thế như vậy. Sau khi Facebook và các bên khác giao chiến với LibGen rồi LibGen bị hạ, số lựa chọn thay thế bất ngờ rất ít, và Anna's Archive là một trong số hiếm hoi
Tôi vẫn chưa biết chính xác đã xảy ra chuyện gì với LibGen, nhưng sau cuộc tấn công đó, thực tế nó có vẻ như đã biến mất một nửa
Trong câu “hãy đọc kỹ [this] trước khi làm nhiệm vụ treo thưởng”, [this] trỏ tới địa chỉ .li, dẫn đến một nơi nguy hiểm
Địa chỉ đúng phải là https://annas-archive.gl/volunteering#bounties
Nếu có ai ở Google đang lo mình bị sa thải, đây có thể là kế hoạch dự phòng
Ngay cả trong số rất ít người có quyền truy cập, nếu bắt đầu tải xuống chỉ một tỷ lệ rất nhỏ nội dung thì nhiều khả năng các hệ thống tự động sẽ phát hiện
Những nhiệm vụ treo thưởng thú vị khác mà họ đưa ra: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Mua toàn bộ bộ dữ liệu MARC của Library of Congress — tiền thưởng 3.000 USD
Trang Wikipedia tiếng Anh về các tổ chức liên quan — tối đa 100 USD cho mỗi trang mới
Internet Archive Digital Lending — 5.000 USD cho mỗi 1 triệu PDF
Phiên bản văn bản của toàn bộ thư viện — 20.000 USD, v.v.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Tôi tò mò không biết vi phạm bản quyền và quyền tác giả sẽ đi về đâu trong tương lai
Tình trạng hiện nay, vốn xoay quanh mô hình cho thuê, có vẻ không bền vững. Ngay cả những người bình thường quanh tôi cũng đã biết nhiều về những thứ như VPN và NAS
Spotify, Netflix, Amazon, v.v. từng cung cấp giá trị khá ổn trong một thời gian, nhưng giờ khi tình trạng dịch vụ xuống cấp đang thực sự bắt đầu, đã đến lúc sẽ có một làn sóng quay lại quy mô lớn
Gemini nhiều khả năng đã được huấn luyện bằng những cuốn sách đó, nên về lý thuyết nó có thể nhả nguyên văn một số câu
Trước đây trong vụ kiện NYT chống lại OpenAI cũng đã lộ ra những ví dụ kiểu đó
Tuy nhiên đó không phải là nén không mất dữ liệu; chúng đã tìm ra cách giữ lại những phần quan trọng để thực hiện nhiệm vụ dự đoán token tiếp theo, còn phần còn lại thì bắt chước