18 điểm bởi GN⁺ 2024-10-17 | 2 bình luận | Chia sẻ qua WhatsApp
  • ArchiveBox giới thiệu các tính năng mới để có thể tự lưu trữ một kho lưu trữ Internet
  • Sau các cuộc tấn công gần đây nhằm vào Archive.org, mức độ quan tâm đến ArchiveBox đang gia tăng
    • ArchiveBox nhấn mạnh rằng họ ủng hộ sứ mệnh của Archive.org và dịch vụ của họ mang lại giá trị quan trọng cho nhân loại

Giới hạn của kho lưu trữ công cộng

  • Mọi người thường ngần ngại lưu trữ vì lo sợ việc lưu trữ vĩnh viễn
  • Cần có quyền để mỗi cá nhân có thể lưu trữ những gì họ cho là quan trọng
  • Cần một giải pháp có thể lưu trữ nội dung cá nhân và bán riêng tư phù hợp với môi trường web hiện đại

Tầm quan trọng của lưu trữ

  • Gia đình, cá nhân và doanh nghiệp đều muốn bảo tồn những nội dung quan trọng đối với họ
  • Việc lưu trữ nội dung cá nhân có những thách thức về bảo mật và cần được thực hiện cẩn trọng

Nội dung độc hại

  • Kho lưu trữ công cộng đôi khi có thể gây vấn đề khi bảo tồn các nội dung như phân biệt chủng tộc, bạo lực và phát ngôn thù ghét
  • Cần cân nhắc cách thức bảo tồn những nội dung như vậy

Giới thiệu hệ sinh thái plugin mới của ArchiveBox

  • ArchiveBox v0.8 là bản cập nhật lớn nhất trong lịch sử dự án, giới thiệu một hệ sinh thái plugin mới
  • Bao gồm các plugin cung cấp nhiều tính năng do cộng đồng hỗ trợ
    • yt-dlp tải xuống video, âm thanh và phụ đề từ YouTube, Soundcloud, YouKu và nhiều nguồn khác
    • papers-dl tự động tải xuống PDF bài báo khoa học khi phát hiện số DOI
    • gallery-dl tải xuống thư viện ảnh từ Flickr, Instagram và nhiều nguồn khác
    • forum-dl tải xuống các diễn đàn cũ và các luồng bình luận lồng sâu
    • readability trích xuất văn bản bài viết sang .txt, .md, .epub
    • ai gửi ảnh chụp màn hình trang và văn bản đến LLM kèm prompt tùy chỉnh của người dùng rồi lưu phản hồi
    • webhooks kích hoạt API bên ngoài mỗi khi một số kết quả được lưu và gửi ping đến Slack, N8N cùng các nơi khác
    • Ngoài ra còn nhiều tính năng khác
  • Hệ thống plugin được xây dựng dựa trên các thư viện pluggy và pydantic

Các phát triển bổ sung

  • REST API mới được xây dựng bằng django-ninja
  • Bổ sung hỗ trợ kho lưu trữ bên ngoài
  • Giới thiệu giai đoạn đầu của hệ thống lưu trữ có thể đánh địa chỉ theo nội dung
  • Bổ sung hệ thống tác vụ nền
  • Dự kiến phát hành công cụ mới abx-dl dành cho người dùng đơn giản

"ArchiveBox được thiết kế theo hướng local-first bằng SQLite, và P2P luôn là tùy chọn"

Tóm tắt của GN⁺

  • ArchiveBox là công cụ giúp cá nhân và doanh nghiệp xây dựng kho lưu trữ Internet của riêng mình, và những thay đổi gần đây càng củng cố điều đó
  • Nó bổ sung cho các giới hạn của kho lưu trữ công cộng và cung cấp cách bảo tồn an toàn nội dung cá nhân và nhạy cảm
  • Hệ sinh thái plugin mang lại nhiều tính năng đa dạng để cải thiện trải nghiệm người dùng

2 bình luận

 
GN⁺ 2024-10-17
Ý kiến trên Hacker News
  • Có ý kiến cho rằng ArchiveBox cần tính bền vững và tiếp tục được cải thiện. Sự tham gia của cộng đồng là quan trọng, đồng thời cũng có thể hiểu được những khó khăn của một nhà phát triển đơn lẻ.

    • ArchiveBox cần sự hỗ trợ từ cộng đồng để trở thành một dự án ổn định và đáng tin cậy hơn.
    • Việc lưu trữ không chỉ dành cho quá khứ mà còn cho tương lai, và có thể cần một tổ chức phát triển bền vững.
  • Có sự kỳ vọng vào API và plugin mới của ArchiveBox. Đã dùng nó để lưu trữ trong 2 năm.

  • Các công cụ như grab-site có thể hữu ích cho việc tạo và lưu trữ kho lưu trữ WARC. Có thể cần hỗ trợ chỉ mục CDX và chữ ký mã hóa cho lưu trữ phân tán.

  • Chia sẻ trải nghiệm dùng ArchiveBox để lưu trữ thông tin về những chiếc thuyền cũ. Bày tỏ sự tiếc nuối khi các diễn đàn web ngày xưa đã biến mất.

  • Đang dùng Readeck.org để lưu trữ các trang web cá nhân và quan tâm đến hướng đi lưu trữ phân tán của ArchiveBox.

  • Đặt câu hỏi về khả năng sẵn có của abx-dl và bày tỏ sẵn sàng hỗ trợ đóng gói.

  • Có kỳ vọng vào REST API, đồng thời tiếc vì thiếu tính năng tìm kiếm. Cần khả năng truy vấn thông qua chỉ mục FTS.

  • Cảm thấy cần thử dùng ArchiveBox để lưu trữ website. Tính năng xuất kho lưu trữ trong gói đăng ký Pinboard không hoạt động.

  • Đề xuất tạo cây Merkle cho dữ liệu đã được lưu trữ. Có thể cân nhắc blockchain như một cách để chứng minh tính xác thực của dữ liệu.

  • Yêu cầu gợi ý về hệ thống tự lưu trữ để giám sát thay đổi website. Đang dùng Huginn nhưng gặp khó với các trang hiện đại dựa trên JS.