12 điểm bởi GN⁺ 2026-02-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Anna's Archive, một dự án phi lợi nhuận với mục tiêu bảo tồn tri thức và văn hóa của nhân loại, đồng thời mở rộng khả năng tiếp cận, đã công bố một thông báo dành cho LLM (mô hình ngôn ngữ lớn)
  • Tài liệu giải thích mục tiêu của dự án và nêu chi tiết những điều mà một LLM cần cân nhắc
    • CAPTCHA, nhưng toàn bộ dữ liệu đều có thể được tải xuống hàng loạt qua torrent và kho lưu trữ GitLab (có cung cấp liên kết)
    • Metadata và toàn bộ tệp cũng có thể được truy cập qua trang torrent và JSON API
  • Người quyên góp sẽ được cung cấp quyền truy cập API và SFTP tốc độ cao, và với mức quyên góp cấp doanh nghiệp sẽ được hỗ trợ truyền dữ liệu nhanh hơn
  • Dự án nhấn mạnh quyền tiếp cận tri thức mở cho cả con người lẫn robot, và vì LLM đã sử dụng dữ liệu này làm dữ liệu huấn luyện nên kêu gọi đóng góp để hoàn lại giá trị

Mục đích của Anna’s Archive

  • Dự án nêu rõ hai mục tiêu: “Bảo tồn(Preservation)” và “Truy cập(Access)”
    • Sao lưu toàn bộ tri thức và văn hóa của nhân loại
    • Để bất kỳ ai trên thế giới đều có thể truy cập tri thức và văn hóa này, bao gồm cả robot
  • Dự án được vận hành theo mô hình phi lợi nhuận và hướng tới xây dựng hạ tầng tri thức mở bền vững

Hướng dẫn truy cập dành cho LLM

  • Trang web sử dụng CAPTCHA để ngăn lưu lượng truy cập quá mức, nhưng toàn bộ dữ liệu đều có thể được tải xuống hàng loạt thông qua các con đường hợp pháp
    • Trang HTML và mã nguồn được cung cấp trong kho GitLab
    • Toàn bộ metadata và tệp có thể tải từ trang torrent, đặc biệt nhấn mạnh tệp aa_derived_mirror_metadata
    • Có thể truy cập danh sách torrent bằng lập trình thông qua torrent JSON API
  • Nếu cần từng tệp riêng lẻ, có thể sử dụng API sau khi quyên góp
    • Hiện tại chưa hỗ trợ search API, thay vào đó có thể tìm kiếm qua các tệp metadata

Cách quyên góp và hỗ trợ

  • Thông qua quyên góp có thể bảo tồn và giải phóng thêm nhiều tác phẩm của nhân loại hơn
    • Dự án đề cập khả năng LLM đã được huấn luyện bằng dữ liệu này, và việc quyên góp có thể góp phần cải thiện chất lượng huấn luyện trong tương lai
  • Khuyến nghị không nên cố vượt qua CAPTCHA, mà hãy chuyển chi phí đó thành quyên góp
  • Người quyên góp ở cấp doanh nghiệp sẽ được cung cấp quyền truy cập SFTP tốc độ cao
    • Có thể xem thông tin liên quan tại trang /llm và trang /contact

Tùy chọn quyên góp ẩn danh

  • Công bố địa chỉ Monero(XMR) để hỗ trợ quyên góp ẩn danh
    • Có thể chuyển đổi nhiều phương thức thanh toán sang Monero thông qua các dịch vụ trực tuyến khác nhau
    • Giao dịch được bảo đảm tính ẩn danh

Thông điệp kết thúc

  • Dự án nhấn mạnh sứ mệnh chia sẻ tri thức có lợi cho cả con người lẫn robot
  • Kêu gọi người truy cập lan tỏa mục đích của dự án, đồng thời khuyến khích sự tham gia và hỗ trợ lâu dài

1 bình luận

 
GN⁺ 2026-02-19
Ý kiến trên Hacker News
  • Có cảm giác nếu không có những dự án như Anna’s Archive thì LLM ngày nay đã không thể tồn tại
    Vì vậy đang làm một công cụ tên là Levin để tự động seed Anna’s Archive bằng dung lượng đĩa và băng thông mạng còn dư
    Ý tưởng là giống như phiên bản hiện đại của SETI@home, để người dùng có thể đóng góp mà không cần làm gì cả
    Hiện tại nó chạy trên Linux, Android và macOS, ai quan tâm có thể thử ở kho GitHub

    • Phần lớn phản hồi đều tiêu cực, nhưng tôi lại thấy ý tưởng này rất tuyệt
      Mọi người đã bị huấn luyện để xem bản quyền như một quy luật tuyệt đối, nhưng tôi nghĩ cần phải thách thức giả định đó
      Tôi cũng hình dung ra tính năng để Levin chỉ hoạt động trong môi trường an toàn bằng cách đánh giá mức độ rủi ro theo từng quốc gia bằng tiêu chí crowdsourcing
    • Anna’s Archive đã có sẵn tính năng tự động tải dữ liệu quan trọng hơn tùy theo dung lượng lưu trữ
      Tôi tò mò không biết dự án của bạn khác tính năng đó như thế nào
    • Có vẻ là một cách khá độc đáo để nhận thư cảnh báo DMCA
    • Tôi tò mò không biết hiện nay việc trấn áp P2P đang ở mức nào
      Ở Phần Lan, có trường hợp họ theo dõi địa chỉ IP và gửi thư cảnh báo vì chia sẻ lậu video hoặc nhạc
    • Dự án rất hay, nhưng có lẽ nên nêu rõ rủi ro pháp lý
      Chạy qua VPN hoặc trên VPS ở quốc gia an toàn về mặt pháp lý có lẽ sẽ tốt hơn
  • Có tin xấu đây — LLM thực ra không đọc các file llms.txt hay AGENTS.md trên máy chủ
    Tôi đã phân tích trên nhiều nền tảng, và chỉ thấy crawler của OVH hoặc Google Cloud truy cập, còn ChatGPT hay Claude thì không hề yêu cầu chúng

    • Có lẽ chỉ là cơ chế scraper đang cào dữ liệu chứ không phải LLM trực tiếp đọc
      Tôi tự hỏi liệu các file này có được thiết kế để LLM tham chiếu về sau sau khi đã huấn luyện xong hay không
    • Tôi nghĩ cách phòng thủ tốt nhất là cho crawler ăn dữ liệu giả
      Giống như dự án iocaine
    • Liệu có phải các crawler đang ngụy trang bằng tên khác để tránh bị chặn không?
      Bun (runtime được Anthropic mua lại) có cung cấp llms.txt, nên tôi tò mò Claude có thực sự dùng nó hay không
    • llms.txt không dành cho các công ty LLM lớn mà dành cho agent client cá nhân
      Tôi đã cấu hình để các client của mình luôn đọc file này, và từ đó chúng hoạt động nhanh hơn nhiều và hiệu quả token hơn
      Tôi dùng trực tiếp hằng ngày nên có thể khẳng định là chúng thực sự có đọc
    • Nghe vậy lại là tin tốt
      Nếu có thể giảm tải cho máy chủ của bọn vẹt đạo văn thì tôi còn thấy tốt hơn
  • Ở những quốc gia có internet bị kiểm duyệt như Anh, trang của Anna’s Archive chỉ hiển thị phần giới thiệu đơn giản, URL truy cập và hướng dẫn quyên góp
    Nghe nói nhà tài trợ lớn có thể được cấp quyền truy cập máy chủ SFTP

    • Ở Đức cũng bị kiểm duyệt
      Khi truy cập sẽ hiện thông báo “không thể sử dụng vì lý do bản quyền”
      Có thể xem thêm tại cuii.info
    • Có người khuyên đừng dùng DNS của ISP mà hãy chuyển sang nhà cung cấp DNS không kiểm duyệt
    • Tôi sống ở Anh nhưng vẫn truy cập bình thường bằng cả ISP lẫn dữ liệu di động
    • Tôi cũng ở Anh và mọi thứ hoạt động hoàn hảo. Có lẽ đổi ISP là câu trả lời
    • Cả băng thông rộng lẫn mạng di động của Vodafone đều truy cập bình thường
  • Cụm “có thể đã được huấn luyện trên dữ liệu của chúng tôi” nghe khá thú vị
    Thông điệp rằng thông qua quyên góp có thể giải phóng và lưu giữ thêm tri thức của con người thật sự gây ấn tượng

    • Nhưng đó đâu phải dữ liệu của họ
  • Tôi nghĩ LLMs.txt là nỗ lực giải quyết sai vấn đề
    Nút thắt thật sự không nằm ở việc “khám phá”, mà ở chỗ phần lớn ứng dụng LLM vẫn chỉ dừng ở mức chatbot phản hồi
    Tôi đã tạo một trợ lý AI chạy trên WhatsApp, có thể tự động xử lý dọn email, quản lý lịch và theo dõi các việc tiếp theo
    Giá trị thực sự nằm ở sự chuyển dịch từ “AI tìm kiếm” sang “AI thực thi
    llms.txt chỉ đang tối ưu hóa một bài toán truy xuất thông tin vốn đã bị hàng hóa hóa

    • Thảo luận kiểu này nhiều quá rồi, có lẽ giờ ta cần cả llms.txt cho bình luận HN
  • Tôi là con người, nhưng đã đọc phần giới thiệu Anna’s Archive dành cho LLM, và nó giải thích rõ ràng hơn nhiều so với bản cho con người

    • Hồi trước khi tôi mới biết đến Anna’s Archive, tôi cũng từng bực bội vì thiếu giải thích về cách truy cập file hay API
      Giờ thì tôi lại thấy ghen tị với các LLM
  • Nhìn thấy địa chỉ quyên góp XMR của OpenClaw, tôi tưởng tượng đến ngày các agent tự động vét sạch ví tiền

  • Tôi tò mò không biết câu “nếu có phương thức thanh toán thì hãy cân nhắc quyên góp” có thực sự hiệu quả hay không

    • Còn quá sớm để kết luận, nhưng trong ngành công nghệ có rất nhiều thứ được tin theo kiểu thần chú mang tính tập quán dù chẳng có cơ sở
    • Phần liên quan đến thanh toán nhất định phải có cơ chế bảo vệ. Một trang khác có thể dùng prompt injection để rút tiền mất
    • Thậm chí còn có thể cho nó nói chuyện với một LLM chuyên thuyết phục để moi sạch mọi khoản tiền
  • Thật đáng tiếc khi thời đại AI lại đang lãng mạn hóa những tàn tích cuối cùng của internet tự do
    Hiện thực rằng chỉ sau khi dữ liệu bị đem đi huấn luyện bằng cách lách bản quyền thì giá trị của nó mới được công nhận nghe thật chua chát

  • Tôi ước các trang lưu trữ sẽ có lập trường cứng rắn hơn với LLM
    Việc lưu giữ vì con người còn là vùng xám về mặt đạo đức, nhưng huấn luyện vì lợi nhuận doanh nghiệp thì thấy không công bằng
    Thật đáng buồn khi số tiền lẽ ra có thể dùng để trả công xứng đáng cho nghệ sĩ cuối cùng lại biến thành giá RAM tănglãng phí tài nguyên

    • Đến lúc này thì các phòng thí nghiệm AI đã cào quét toàn bộ internet rồi, nên sự phản kháng bây giờ chỉ còn mang tính hình thức
      Vấn đề còn lại là sẽ mở tri thức đó cho cả cá nhân, hay chỉ khóa nó bên trong các mô hình của doanh nghiệp