32 điểm bởi xguru 2024-02-14 | 3 bình luận | Chia sẻ qua WhatsApp
  • Mã nguồn mở giúp lưu mọi trang web để có thể xem ngoại tuyến
  • Lưu HTML/JS/PDF/phương tiện từ URL tự thêm, lịch sử duyệt web (có tiện ích mở rộng), dấu trang, RSS, Pocket/Pinboard, v.v.
    • Có thể thêm từng cái một hoặc lên lịch nhập định kỳ
  • Cài đặt trên Linux, macOS, Windows (WSL2) hoặc chạy bằng Docker, sau đó sử dụng qua công cụ CLI, ứng dụng web, thư viện Python hoặc lệnh chạy một lần
  • Lưu ảnh chụp URL dưới nhiều định dạng dư thừa khác nhau, đồng thời phát hiện mọi nội dung có trong trang và trích xuất thành thư mục
    • HTML/mọi trang web: HTML+CSS+JS gốc, HTML singlefile, ảnh chụp màn hình PNG, PDF, WARC, tiêu đề, văn bản nội dung, favicon, headers, …
    • Mạng xã hội/tin tức: TXT nội dung bài viết, bình luận, tiêu đề, bản lưu, hình ảnh, …
    • YouTube/SoundCloud/v.v.: MP3/MP4s, phụ đề, metadata, ảnh thu nhỏ, …
    • Liên kết Github/Gitlab/v.v.: clone mã nguồn GIT, README, hình ảnh, …
  • Không dùng định dạng riêng, mà dùng các công cụ tiêu chuẩn như Chrome, wget, yt-dlp để lưu vào các tệp/thư mục thông thường. Nghĩa là có thể đọc toàn bộ dữ liệu ngay cả khi không có ArchiveBox
  • Gửi các URL cần lưu tới archive.org để xử lý yêu cầu lưu riêng (lưu trữ trùng lặp, có thể tắt bằng chế độ chỉ cục bộ)

3 bình luận

 
ninebow 2024-02-21

Dạo này khi thử dùng Obsidian, tôi đang lưu thử dưới dạng markdown bằng plugin Instapaper -> Obsidian, nhưng dữ liệu lại không được lấy sang gọn gàng cho lắm.
Tôi từng định dựng một Go-Readability trên AWS Lambda rồi lại lười nên dừng mất, chắc cũng phải tìm xem có thứ gì tích hợp tốt với những công cụ kiểu này không nữa. Cảm ơn bạn!

 
galadbran 2024-02-17

Khi thấy từ khóa lưu trữ, tôi thường đọc kỹ hơn. Đây là những bài viết liên quan trên GeekNews trước đây.

 
galadbran 2024-02-17

À, liên kết GeekNews của Shori là https://vi.news.hada.io/topic?id=577.