- Trình phân tích nội dung loại bỏ các bình luận, thanh bên, header, footer không cần thiết của trang web và chỉ trích xuất phần nội dung cốt lõi đã được làm sạch dưới dạng HTML/Markdown
- Với video YouTube, có thể trích xuất hội thoại theo từng người nói (từ 0.12.0)
- Được phát triển cho Obsidian Web Clipper, nhưng có thể dùng trong nhiều môi trường như trình duyệt, Node.js, v.v.
- Được thiết kế để thay thế Mozilla Readability, cung cấp khả năng xử lý linh hoạt hơn và đầu ra nhất quán hơn
- Giảm thiểu việc loại bỏ các thành phần chưa chắc chắn
- Hỗ trợ đầu ra chuẩn hóa cho chú thích cuối trang, công thức, khối mã, v.v.
- Phát hiện thành phần không cần thiết thông qua phân tích kiểu dáng di động
- Tự động trích xuất nhiều metadata hơn, bao gồm metadata schema.org
- Hỗ trợ giao diện CLI để phân tích HTML·URL trực tiếp từ terminal
- Giấy phép MIT
7 bình luận
Defuddle - mã nguồn mở HTML-to-Markdown thay thế Readability
Khoảng 10 tháng trước cũng đã từng được đăng một lần, và lần này đã được bổ sung tính năng trích xuất hội thoại từ video YouTube kèm tách biệt người nói.
Ngoài ra trong thời gian qua cũng đã thêm nhiều tính năng như trích xuất bất đồng bộ URL X, trích xuất bài viết, hỗ trợ ứng dụng Substack, bổ sung CLI và hỗ trợ URL GitHub.
Jina AI Reader - công cụ chuyển URL thành đầu vào thân thiện với LLM
Giá như các liên kết nội bộ của GeekNews được tự động gắn tiêu đề...
Tôi đã chỉnh sửa sẵn. Từ giờ các bình luận mới sẽ tự động được chuyển đổi tiêu đề.
Wow, cảm ơn nhé
Có vẻ Markdown được trích xuất hơi không ổn lắm. Hình như nó chỉ trích xuất tốt khi trang web được tối ưu SEO đúng chuẩn thôi thì phải. Có đúng vậy không?
Khi kết hợp dùng với Claude Code thì thực sự rất tiện.