1 điểm bởi GN⁺ 2025-08-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Do số vụ tấn công nhắm vào sứ mệnh gần đây gia tăng, nhóm đang tăng cường bảo mật cho hạ tầng và vận hành
  • Kể từ khi bắt đầu vào năm 2022, dự án đã lưu trữ và chia sẻ an toàn hàng chục triệu đầu sách, bài báo khoa học, tạp chí, báo và các tư liệu khác
  • Thông qua scraping quy mô lớn, dự án đã thu thập lượng metadata khổng lồ từ WorldCat, Google Books và các nguồn khác để xác định những tài liệu còn thiếu trong bộ sưu tập
  • Thông qua quan hệ đối tác với LibGen, Z-Library và các bên khác, dự án đã thu thập được thêm hàng chục triệu tài liệu, dù cũng lấy làm tiếc về việc một số đối tác đã biến mất
  • Với các trang mới như WeLib, nhóm duy trì quan hệ thận trọng và khuyến nghị hạn chế sử dụng vì đóng góp cho cộng đồng còn chưa đủ

Tình hình gần đây và phản ứng của đội ngũ

  • Gần đây, các cuộc tấn công nhắm vào sứ mệnh của Anna's Archive đang gia tăng
  • Vì vậy, nhóm đang triển khai các biện pháp tăng cường bảo mật hạ tầng và vận hành
  • Việc bảo tồn an toàn di sản tri thức của nhân loại vẫn là một hoạt động đáng để tiếp tục theo đuổi

Hoạt động giải phóng và lưu trữ tư liệu

  • Kể từ khi bắt đầu vào năm 2022, dự án đã thu thập hàng chục triệu cuốn sách, bài báo khoa học, tạp chí, báo và nhiều loại nội dung khác
  • Những tư liệu này đang được bảo vệ trước nhiều mối đe dọa như thiên tai, chiến tranh, cắt giảm ngân sách và các rủi ro khác
  • Nhờ nỗ lực của tất cả những người đã tham gia phân phối dữ liệu qua torrent, nguy cơ thất lạc tư liệu đã giảm đi đáng kể

Scraping quy mô lớn và thu thập metadata

  • Anna's Archive đang tổ chức scraping quy mô lớn từ IA Controlled Digital Lending, HathiTrust, DuXiu và các nguồn khác
  • Dự án đã thành công trong việc thu thập các tệp tư liệu lên tới hàng chục triệu mục
  • Dự án cũng đã xây dựng bộ sưu tập metadata sách khổng lồ từ WorldCat, Google Books và các nguồn khác
  • Từ metadata đã thu thập, nhóm xác định những cuốn sách chưa có trong bộ sưu tập và dùng chúng cho chiến lược ưu tiên thu thập tư liệu hiếm

Cộng đồng, hợp tác và phát triển mới

  • Dự án đã hợp tác với các đối tác như LibGen fork, STC/Nexus, Z-Library để thu thập thêm hàng chục triệu tệp
  • Các đối tác đang hỗ trợ rất lớn cho sứ mệnh, chẳng hạn như mirror các tệp
  • Tuy vậy, việc một trong các LibGen fork đã biến mất vẫn được xem là điều đáng tiếc

Các dự án mới và lưu ý

  • Gần đây đã xuất hiện một dự án mới tên là WeLib
    • Dự án này mirror phần lớn bộ sưu tập lưu trữ và đang sử dụng bản fork của codebase Anna’s Archive
    • Nhóm đã tiếp thu và áp dụng một số cải tiến giao diện người dùng của WeLib
    • Tuy nhiên, chưa có chia sẻ về bộ sưu tập mới hay các cải tiến cho codebase, nên cam kết đóng góp cho hệ sinh thái vẫn còn thiếu
    • Vì vậy, nhóm khuyến nghị thận trọng khi sử dụng WeLib
  • Ngoài ra, nội bộ hiện có hàng trăm terabyte bộ sưu tập mới đã sẵn sàng trên máy chủ và đang chờ xử lý

Lời kêu gọi tình nguyện và hỗ trợ

  • Bất kỳ ai cũng có thể tham gia dự án thông qua trang tình nguyện và quyên góp

  • Tất cả đều đang được vận hành với ngân sách nhỏ, vì vậy chỉ một chút giúp đỡ cũng có giá trị rất lớn

  • Nhóm tiếp tục khuyến khích những nỗ lực bền bỉ để bảo vệ và giải phóng di sản tri thức

  • Anna và toàn bộ đội ngũ (tham khảo cộng đồng Reddit)

1 bình luận

 
GN⁺ 2025-08-19
Ý kiến trên Hacker News
  • Tôi chọn sách mình mua qua Anna's Archive, truyện tranh thì qua readComicsOnline, tiểu thuyết đồ họa châu Âu thì qua #WONTTELL; tôi là khách quen rất thường xuyên của cả ba cửa hàng ngoại tuyến này. Thay vì mua theo thứ đang được quảng cáo, tôi tìm kiếm rất kỹ để chỉ chọn ra những tác phẩm thực sự hay. Đôi khi nhân viên cửa hàng cũng phải vất vả đặt những cuốn sách hiếm mà tôi tìm thấy trên mạng. Tôi tự hỏi liệu mình có phải ngoại lệ không, nhưng những dịch vụ như thế này giúp bảo vệ quyền tự do lựa chọn của tôi.

    • Đây là một vấn đề phức tạp. Trước đây tôi từng hoạt động trong một nhóm phát hành phim, và phần lớn thành viên của nhóm đó sở hữu nhiều VHS/DVD hơn người bình thường rất nhiều. Đó là việc đòi hỏi khá nhiều công sức và thời gian. Những người chỉ đơn thuần tải về thì đa dạng hơn. Có người sống ở nước ngoài nên không thể xem các bản phát hành trong nước, cũng có người lại tự hào vì không hề mua bất kỳ phương tiện truyền thông nào.

    • Tình hình cũng tương tự. Nhờ Anna's Archive, tôi có thể tìm tài liệu thuận tiện hơn cả thư viện trường. Tôi có thể tìm ở nhà, lấy được thông tin cần thiết rồi xóa đi. Tôi xem trước nội dung, và nếu thực sự hay thì sẽ mua để lưu giữ. Không hẳn là tôi mua nhiều sách hơn trước, nhưng mức độ hài lòng thì cao hơn hẳn. Ngược lại, nhờ các trang tải lên mà tôi biết đến nhiều bộ phim hay chưa từng nghe nói tới, nên giờ tôi mua phim nhiều hơn trước rất nhiều.

    • Giới phát hành bản lậu truyện tranh Pháp thường phân phối các bản phát hành với độ trễ khoảng 6 tháng. Vì quy mô nhỏ nên quy tắc này vận hành khá tốt. Nhờ vậy tôi bắt đầu hứng thú với truyện tranh, và nếu gặp tác phẩm mình thích thì tôi sẵn sàng mua ngay khi nó phát hành, rồi gỡ DRM để lưu trữ cá nhân. Phần lớn việc tải về của tôi thiên về sưu tầm/lưu trữ, và những gì tôi thực sự thấy hay, đọc hết đến cùng thì tôi sẽ ủng hộ tác giả.

    • Tôi cũng hoàn toàn như vậy. Nếu một series có vẻ thú vị, tôi thường tải tập đầu tiên rồi đọc khoảng 1/3; nếu thực sự hay thì sau này sẽ mua để đọc. Mỗi tháng tôi mua khoảng 3-4 cuốn sách (nếu có thể thì thích drm free epub), còn tiểu thuyết đồ họa châu Âu thì khoảng 10 cuốn mỗi tháng (chỉ mua bản giấy). Tôi cũng là người tiêu dùng rất nặng.

    • Trước đây tôi từng theo dõi một game indie, nhà phát triển muốn mang lại trải nghiệm không DRM. Game cũng có tính năng trực tuyến (ví dụ: bảng xếp hạng), nhưng rồi họ bối rối khi phát hiện số tài khoản kết nối trực tuyến cao hơn rất nhiều so với số lượng bán thực tế. Bầu không khí sau đó chuyển thành việc các nhà phát triển phải nài nỉ mọi người đừng dùng bản sao mà hãy mua bản chính ngay trong phần mô tả tính năng. Cuối cùng, dù game khá nổi tiếng, vẫn có quá ít người trả tiền vì quá nhiều bản sao lậu, nên cả nhóm bỏ dự án. Mỗi khi nói đến bản lậu, có rất nhiều người cố biện minh cho hành vi của mình bằng cách nói rằng họ tiêu dùng nhiều hơn mức trung bình, nhưng nếu nhìn vào dữ liệu thống kê thực tế thì đa số chỉ đơn giản là vì dùng miễn phí.

  • Những người vận hành thư viện bóng tối đang đóng góp to lớn cho nhân loại, xứng đáng nhận Nobel; chắc hẳn Satoshi cũng sẽ tự hào.

    • Điều mà Satoshi có lẽ sẽ tự hào là có thể hỗ trợ các thư viện bóng tối mà không sợ kiểm duyệt. Chỉ cần có 1 mục cũng được tính là danh sách.

    • aaronsw có lẽ cũng sẽ tự hào.

    • Ông ấy có thể góp vài đồng lẻ vào đó, với ông ấy thì chỉ là tiền vặt.

  • Họ cung cấp danh sách torrents để bất kỳ ai cũng có thể tham gia lưu trữ dài hạn bằng cách seed https://annas-archive.org/torrents

    • Tôi khá ngạc nhiên là torrent dựa trên i2p đến giờ vẫn chưa phổ biến rộng hơn và không được các trang như thế này đưa vào như một lựa chọn. Tôi nghĩ có nhiều người không thể đóng góp vì gánh nặng pháp lý, và i2p có thể giúp ích.

    • Khá ấn tượng khi sci-hub khoảng 90TB còn libgen-non-fiction là khoảng 77.5TB. Đây mới thực sự là những kho lưu trữ chứa tri thức khoa học cốt lõi như bài báo và giáo trình, nên nhất định phải được bảo vệ. Tôi cũng lưu khoảng 16TB trên máy chủ tại nhà, nhưng để mở rộng lên quy mô 200TB thì thiết bị và chi phí không hề đơn giản (chỉ riêng 12 ổ 16TB đã là 2.200 đô). Nếu tính cả sao lưu dữ liệu và phần cứng máy chủ thì với khoảng 5.000 đô có thể cache toàn bộ phần lớn tri thức khoa học mà nhân loại tích lũy được. Điều thú vị là dung lượng của các kho như vậy gần đây gần như không tăng nữa. scihub cũng đã ngừng cập nhật từ sau năm 2022, và các tạp chí học thuật chất lượng thấp tăng thêm gần đây có lẽ cũng kém quan trọng hơn.

  • Khi đọc một bộ sách trong thư viện, tôi đã rất ngớ người vì thiếu mất tập 3 hoặc tập 4, có lẽ là bị thất lạc hoặc hư hỏng. Tôi từng nghĩ đến chuyện tự mua ở hiệu sách cũ rồi tặng lại, nhưng bản tái bản mới vừa đắt hơn vừa có cảm giác khác, nên cuối cùng bỏ ý định. Vì thế tôi tìm trên Anna’s Archive. Vài tập cuối của bộ đó thư viện cũng không có (có thể ai đó mượn rồi không trả, hoặc ngay từ đầu đã không có). Tôi chỉ đơn giản muốn đọc trọn vẹn toàn bộ tác phẩm của tác giả này, và những cuốn tôi thực sự thích thì đã mua cả bản giấy lẫn audiobook, tới hai lần. Ngày xưa bạn bè tôi từng nghiện sưu tầm sách, còn tôi thì chỉ giữ lại những cuốn mình sẽ đọc lại. Nếu nổi lên ham muốn hoàn thành bộ thì tôi giải quyết bằng thư viện hoặc ebook. Càng lớn tuổi tôi càng cảm nhận rõ sách nhiều đến mức nào và đời mình thì hữu hạn. Ngay cả khi nghỉ hưu và đọc 3-4 cuốn một tuần, tôi vẫn đang chất đống nhiều sách hơn mức có thể đọc hết trong đời. Trong khi đó, sách mới và những tiếng nói mới vẫn liên tục xuất hiện. Lần gần nhất tôi đọc lại Dune xong thì đã đem ra hiệu sách cũ bán, và nếu có đọc lại nữa thì có lẽ tôi sẽ chọn bản audiobook.

  • Tôi nghĩ phần “Anna’s Archive đã lấy được hàng chục triệu tệp từ IA Controlled Digital Lending” nhìn tổng thể thì không giúp ích gì nhiều.

    • Đây là một cách nói cực kỳ mập mờ và kiểu gì cũng có thể bị đưa ra tòa.

    • Việc Anna's Archive vô trách nhiệm khoe khoang rằng họ cũng đã làm chuyện đó trông rất ích kỷ, hoàn toàn không tính đến hậu quả.

    • Tôi không hiểu tại sao đó lại là vấn đề; mục tiêu của họ vốn là thu thập sách mà.

  • Tôi nghĩ những nơi như Anna's Archive là một trong số ít điều tốt đẹp cuối cùng còn sót lại trên internet.

    • Tôi tò mò họ kiếm kinh phí bằng cách nào và làm sao để giữ cho trang tồn tại được. Có vẻ như các công ty và quốc gia có nguồn lực khổng lồ đều muốn xóa sổ trang này.

    • Tôi đồng ý rằng đó là một trong những điều tốt đẹp cuối cùng còn sót lại (cuối cùng nhưng ít nhất thì không phải).

  • Xin gửi lời tán dương đến đội ngũ của dự án này. Tôi rất ấn tượng vì trong vòng một năm trở lại đây, giao diện có vẻ đã được cải thiện. Vấn đề còn lại là dịch vụ phải sống sót và tiếp tục truy cập được. Tôi tò mò không biết cần bao nhiêu công sức, và họ đã chống chọi thế nào trong tình huống bị tấn công như vậy.

    • Trong khoảng 2~5 ngày gần đây đã có một bản cập nhật UI lớn. Điểm hơi đáng tiếc là trên di động, trước đây có thể xem kết quả tìm kiếm hiệu quả hơn nhiều, còn thiết kế mới thì trên một màn hình chỉ thấy được khoảng 4~5 mục.
  • Nhân tiện, trang này cũng được dùng khá hữu ích https://open-slum.org/

    • Tôi không vào được trang này, nên mong có ai giải thích nó có gì và vì sao lại hữu ích.

    • Trang này có vẻ là một instance Uptime Kuma. Uptime Kuma là một dự án mã nguồn mở mạnh về giám sát và dashboard https://github.com/louislam/uptime-kuma

  • Việc người dân ủng hộ những nơi như Anna's Archive còn chính phủ thì phản đối nghe hơi buồn cười, giống như một bằng chứng của chủ nghĩa tinh hoa.

    • Cũng không hẳn là chuyện buồn cười hay kỳ quặc. Góc nhìn của người liên quan trực tiếp là tác giả/nhà văn đang bị thiếu vắng. Tôi tự hỏi những tác giả có sách trên Anna’s Archive sẽ hài lòng đến mức nào. Cá nhân tôi nhìn nhận tích cực về Anna’s Archive, sci-hub v.v. vì nghĩ rằng việc toàn xã hội đọc sách nhiều hơn là điều có ích. Tuy vậy, trong hệ thống hiện tại vẫn có nhiều điều phải cân nhắc như đền bù và pháp lý.

    • Tôi cũng tò mò các tác giả nghĩ gì về chuyện này.

  • Tôi tự hỏi Anna's Archive hay các trang tương tự có cung cấp bộ PDF đầy đủ của toàn bộ New York Times (bản trước năm 1930) hoặc các báo khác hay không. Hiện nay, ngay cả tài liệu thuộc phạm vi công cộng cũng bị nhốt trong các website đóng như Newspapers.com, hoặc hoàn toàn không thể tìm kiếm như Google News/newspaper cũ. Tôi hy vọng cuộc cạnh tranh để giành dữ liệu huấn luyện AI sẽ tạo ra những kho lưu trữ mới cởi mở hơn, có chức năng khám phá bằng AI tốt hơn các trang trả phí hay đã bị bỏ hoang trước đây. Một phần có thể tìm ở Internet Archive v.v., nhưng thứ thực sự cần là tính năng tìm kiếm dựa trên AI.

    • Có thể tìm được một phần báo cũ của NYT qua liên kết https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D. Không thể tải cả bộ PDF đầy đủ một lần, nhưng có thể tìm từng PDF riêng lẻ qua torrent của Anna’s Archive rồi ghép lại. Còn tìm kiếm bằng AI thì nếu có thời gian và quyết tâm, người ta có thể OCR các bài báo NYT cũ thành văn bản, rồi đưa vào thứ như LLM để khám phá theo ngữ nghĩa. Lý tưởng nhất là các dự án như vậy nên được các quỹ văn hóa công hỗ trợ dưới dạng nghiên cứu học thuật.