ArchiveBox đang tiến hóa: tương lai của kho lưu trữ Internet tự lưu trữ
(docs.sweeting.me)- ArchiveBox giới thiệu các tính năng mới để có thể tự lưu trữ một kho lưu trữ Internet
- Sau các cuộc tấn công gần đây nhằm vào Archive.org, mức độ quan tâm đến ArchiveBox đang gia tăng
- ArchiveBox nhấn mạnh rằng họ ủng hộ sứ mệnh của Archive.org và dịch vụ của họ mang lại giá trị quan trọng cho nhân loại
Giới hạn của kho lưu trữ công cộng
- Mọi người thường ngần ngại lưu trữ vì lo sợ việc lưu trữ vĩnh viễn
- Cần có quyền để mỗi cá nhân có thể lưu trữ những gì họ cho là quan trọng
- Cần một giải pháp có thể lưu trữ nội dung cá nhân và bán riêng tư phù hợp với môi trường web hiện đại
Tầm quan trọng của lưu trữ
- Gia đình, cá nhân và doanh nghiệp đều muốn bảo tồn những nội dung quan trọng đối với họ
- Việc lưu trữ nội dung cá nhân có những thách thức về bảo mật và cần được thực hiện cẩn trọng
Nội dung độc hại
- Kho lưu trữ công cộng đôi khi có thể gây vấn đề khi bảo tồn các nội dung như phân biệt chủng tộc, bạo lực và phát ngôn thù ghét
- Cần cân nhắc cách thức bảo tồn những nội dung như vậy
Giới thiệu hệ sinh thái plugin mới của ArchiveBox
- ArchiveBox v0.8 là bản cập nhật lớn nhất trong lịch sử dự án, giới thiệu một hệ sinh thái plugin mới
- Bao gồm các plugin cung cấp nhiều tính năng do cộng đồng hỗ trợ
yt-dlptải xuống video, âm thanh và phụ đề từ YouTube, Soundcloud, YouKu và nhiều nguồn khácpapers-dltự động tải xuống PDF bài báo khoa học khi phát hiện số DOIgallery-dltải xuống thư viện ảnh từ Flickr, Instagram và nhiều nguồn khácforum-dltải xuống các diễn đàn cũ và các luồng bình luận lồng sâureadabilitytrích xuất văn bản bài viết sang .txt, .md, .epubaigửi ảnh chụp màn hình trang và văn bản đến LLM kèm prompt tùy chỉnh của người dùng rồi lưu phản hồiwebhookskích hoạt API bên ngoài mỗi khi một số kết quả được lưu và gửi ping đến Slack, N8N cùng các nơi khác- Ngoài ra còn nhiều tính năng khác
- Hệ thống plugin được xây dựng dựa trên các thư viện pluggy và pydantic
Các phát triển bổ sung
- REST API mới được xây dựng bằng django-ninja
- Bổ sung hỗ trợ kho lưu trữ bên ngoài
- Giới thiệu giai đoạn đầu của hệ thống lưu trữ có thể đánh địa chỉ theo nội dung
- Bổ sung hệ thống tác vụ nền
- Dự kiến phát hành công cụ mới abx-dl dành cho người dùng đơn giản
"ArchiveBox được thiết kế theo hướng local-first bằng SQLite, và P2P luôn là tùy chọn"
Tóm tắt của GN⁺
- ArchiveBox là công cụ giúp cá nhân và doanh nghiệp xây dựng kho lưu trữ Internet của riêng mình, và những thay đổi gần đây càng củng cố điều đó
- Nó bổ sung cho các giới hạn của kho lưu trữ công cộng và cung cấp cách bảo tồn an toàn nội dung cá nhân và nhạy cảm
- Hệ sinh thái plugin mang lại nhiều tính năng đa dạng để cải thiện trải nghiệm người dùng
2 bình luận
ArchiveBox - công cụ lưu trữ web tự host
Ý kiến trên Hacker News
Có ý kiến cho rằng ArchiveBox cần tính bền vững và tiếp tục được cải thiện. Sự tham gia của cộng đồng là quan trọng, đồng thời cũng có thể hiểu được những khó khăn của một nhà phát triển đơn lẻ.
Có sự kỳ vọng vào API và plugin mới của ArchiveBox. Đã dùng nó để lưu trữ trong 2 năm.
Các công cụ như
grab-sitecó thể hữu ích cho việc tạo và lưu trữ kho lưu trữ WARC. Có thể cần hỗ trợ chỉ mục CDX và chữ ký mã hóa cho lưu trữ phân tán.Chia sẻ trải nghiệm dùng ArchiveBox để lưu trữ thông tin về những chiếc thuyền cũ. Bày tỏ sự tiếc nuối khi các diễn đàn web ngày xưa đã biến mất.
Đang dùng Readeck.org để lưu trữ các trang web cá nhân và quan tâm đến hướng đi lưu trữ phân tán của ArchiveBox.
Đặt câu hỏi về khả năng sẵn có của
abx-dlvà bày tỏ sẵn sàng hỗ trợ đóng gói.Có kỳ vọng vào REST API, đồng thời tiếc vì thiếu tính năng tìm kiếm. Cần khả năng truy vấn thông qua chỉ mục FTS.
Cảm thấy cần thử dùng ArchiveBox để lưu trữ website. Tính năng xuất kho lưu trữ trong gói đăng ký Pinboard không hoạt động.
Đề xuất tạo cây Merkle cho dữ liệu đã được lưu trữ. Có thể cân nhắc blockchain như một cách để chứng minh tính xác thực của dữ liệu.
Yêu cầu gợi ý về hệ thống tự lưu trữ để giám sát thay đổi website. Đang dùng Huginn nhưng gặp khó với các trang hiện đại dựa trên JS.