- Anna's Archive, một dự án phi lợi nhuận với mục tiêu bảo tồn tri thức và văn hóa của nhân loại, đồng thời mở rộng khả năng tiếp cận, đã công bố một thông báo dành cho LLM (mô hình ngôn ngữ lớn)
- Tài liệu giải thích mục tiêu của dự án và nêu chi tiết những điều mà một LLM cần cân nhắc
- Có CAPTCHA, nhưng toàn bộ dữ liệu đều có thể được tải xuống hàng loạt qua torrent và kho lưu trữ GitLab (có cung cấp liên kết)
- Metadata và toàn bộ tệp cũng có thể được truy cập qua trang torrent và JSON API
- Người quyên góp sẽ được cung cấp quyền truy cập API và SFTP tốc độ cao, và với mức quyên góp cấp doanh nghiệp sẽ được hỗ trợ truyền dữ liệu nhanh hơn
- Dự án nhấn mạnh quyền tiếp cận tri thức mở cho cả con người lẫn robot, và vì LLM đã sử dụng dữ liệu này làm dữ liệu huấn luyện nên kêu gọi đóng góp để hoàn lại giá trị
Mục đích của Anna’s Archive
- Dự án nêu rõ hai mục tiêu: “Bảo tồn(Preservation)” và “Truy cập(Access)”
- Sao lưu toàn bộ tri thức và văn hóa của nhân loại
- Để bất kỳ ai trên thế giới đều có thể truy cập tri thức và văn hóa này, bao gồm cả robot
- Dự án được vận hành theo mô hình phi lợi nhuận và hướng tới xây dựng hạ tầng tri thức mở bền vững
Hướng dẫn truy cập dành cho LLM
- Trang web sử dụng CAPTCHA để ngăn lưu lượng truy cập quá mức, nhưng toàn bộ dữ liệu đều có thể được tải xuống hàng loạt thông qua các con đường hợp pháp
- Trang HTML và mã nguồn được cung cấp trong kho GitLab
- Toàn bộ metadata và tệp có thể tải từ trang torrent, đặc biệt nhấn mạnh tệp
aa_derived_mirror_metadata
- Có thể truy cập danh sách torrent bằng lập trình thông qua torrent JSON API
- Nếu cần từng tệp riêng lẻ, có thể sử dụng API sau khi quyên góp
- Hiện tại chưa hỗ trợ search API, thay vào đó có thể tìm kiếm qua các tệp metadata
Cách quyên góp và hỗ trợ
- Thông qua quyên góp có thể bảo tồn và giải phóng thêm nhiều tác phẩm của nhân loại hơn
- Dự án đề cập khả năng LLM đã được huấn luyện bằng dữ liệu này, và việc quyên góp có thể góp phần cải thiện chất lượng huấn luyện trong tương lai
- Khuyến nghị không nên cố vượt qua CAPTCHA, mà hãy chuyển chi phí đó thành quyên góp
- Người quyên góp ở cấp doanh nghiệp sẽ được cung cấp quyền truy cập SFTP tốc độ cao
- Có thể xem thông tin liên quan tại trang
/llm và trang /contact
Tùy chọn quyên góp ẩn danh
- Công bố địa chỉ Monero(XMR) để hỗ trợ quyên góp ẩn danh
- Có thể chuyển đổi nhiều phương thức thanh toán sang Monero thông qua các dịch vụ trực tuyến khác nhau
- Giao dịch được bảo đảm tính ẩn danh
Thông điệp kết thúc
- Dự án nhấn mạnh sứ mệnh chia sẻ tri thức có lợi cho cả con người lẫn robot
- Kêu gọi người truy cập lan tỏa mục đích của dự án, đồng thời khuyến khích sự tham gia và hỗ trợ lâu dài
1 bình luận
Ý kiến trên Hacker News
Có cảm giác nếu không có những dự án như Anna’s Archive thì LLM ngày nay đã không thể tồn tại
Vì vậy đang làm một công cụ tên là Levin để tự động seed Anna’s Archive bằng dung lượng đĩa và băng thông mạng còn dư
Ý tưởng là giống như phiên bản hiện đại của SETI@home, để người dùng có thể đóng góp mà không cần làm gì cả
Hiện tại nó chạy trên Linux, Android và macOS, ai quan tâm có thể thử ở kho GitHub
Mọi người đã bị huấn luyện để xem bản quyền như một quy luật tuyệt đối, nhưng tôi nghĩ cần phải thách thức giả định đó
Tôi cũng hình dung ra tính năng để Levin chỉ hoạt động trong môi trường an toàn bằng cách đánh giá mức độ rủi ro theo từng quốc gia bằng tiêu chí crowdsourcing
Tôi tò mò không biết dự án của bạn khác tính năng đó như thế nào
Ở Phần Lan, có trường hợp họ theo dõi địa chỉ IP và gửi thư cảnh báo vì chia sẻ lậu video hoặc nhạc
Chạy qua VPN hoặc trên VPS ở quốc gia an toàn về mặt pháp lý có lẽ sẽ tốt hơn
Có tin xấu đây — LLM thực ra không đọc các file llms.txt hay AGENTS.md trên máy chủ
Tôi đã phân tích trên nhiều nền tảng, và chỉ thấy crawler của OVH hoặc Google Cloud truy cập, còn ChatGPT hay Claude thì không hề yêu cầu chúng
Tôi tự hỏi liệu các file này có được thiết kế để LLM tham chiếu về sau sau khi đã huấn luyện xong hay không
Giống như dự án iocaine
Bun (runtime được Anthropic mua lại) có cung cấp llms.txt, nên tôi tò mò Claude có thực sự dùng nó hay không
Tôi đã cấu hình để các client của mình luôn đọc file này, và từ đó chúng hoạt động nhanh hơn nhiều và hiệu quả token hơn
Tôi dùng trực tiếp hằng ngày nên có thể khẳng định là chúng thực sự có đọc
Nếu có thể giảm tải cho máy chủ của bọn vẹt đạo văn thì tôi còn thấy tốt hơn
Ở những quốc gia có internet bị kiểm duyệt như Anh, trang của Anna’s Archive chỉ hiển thị phần giới thiệu đơn giản, URL truy cập và hướng dẫn quyên góp
Nghe nói nhà tài trợ lớn có thể được cấp quyền truy cập máy chủ SFTP
Khi truy cập sẽ hiện thông báo “không thể sử dụng vì lý do bản quyền”
Có thể xem thêm tại cuii.info
Cụm “có thể đã được huấn luyện trên dữ liệu của chúng tôi” nghe khá thú vị
Thông điệp rằng thông qua quyên góp có thể giải phóng và lưu giữ thêm tri thức của con người thật sự gây ấn tượng
Tôi nghĩ LLMs.txt là nỗ lực giải quyết sai vấn đề
Nút thắt thật sự không nằm ở việc “khám phá”, mà ở chỗ phần lớn ứng dụng LLM vẫn chỉ dừng ở mức chatbot phản hồi
Tôi đã tạo một trợ lý AI chạy trên WhatsApp, có thể tự động xử lý dọn email, quản lý lịch và theo dõi các việc tiếp theo
Giá trị thực sự nằm ở sự chuyển dịch từ “AI tìm kiếm” sang “AI thực thi”
llms.txt chỉ đang tối ưu hóa một bài toán truy xuất thông tin vốn đã bị hàng hóa hóa
Tôi là con người, nhưng đã đọc phần giới thiệu Anna’s Archive dành cho LLM, và nó giải thích rõ ràng hơn nhiều so với bản cho con người
Giờ thì tôi lại thấy ghen tị với các LLM
Nhìn thấy địa chỉ quyên góp XMR của OpenClaw, tôi tưởng tượng đến ngày các agent tự động vét sạch ví tiền
Tôi tò mò không biết câu “nếu có phương thức thanh toán thì hãy cân nhắc quyên góp” có thực sự hiệu quả hay không
Thật đáng tiếc khi thời đại AI lại đang lãng mạn hóa những tàn tích cuối cùng của internet tự do
Hiện thực rằng chỉ sau khi dữ liệu bị đem đi huấn luyện bằng cách lách bản quyền thì giá trị của nó mới được công nhận nghe thật chua chát
Tôi ước các trang lưu trữ sẽ có lập trường cứng rắn hơn với LLM
Việc lưu giữ vì con người còn là vùng xám về mặt đạo đức, nhưng huấn luyện vì lợi nhuận doanh nghiệp thì thấy không công bằng
Thật đáng buồn khi số tiền lẽ ra có thể dùng để trả công xứng đáng cho nghệ sĩ cuối cùng lại biến thành giá RAM tăng và lãng phí tài nguyên
Vấn đề còn lại là sẽ mở tri thức đó cho cả cá nhân, hay chỉ khóa nó bên trong các mô hình của doanh nghiệp