- Công cụ mạnh mẽ để chuyển đổi HTML thành Markdown sạch sẽ và dễ đọc
- Hỗ trợ định dạng phức tạp, đồng thời cho phép kiểm soát hoàn toàn quá trình chuyển đổi thông qua các tùy chọn tùy chỉnh và plugin
- Có thể dùng thư viện Golang hoặc lệnh CLI, hoặc kiểm tra trực tiếp qua bản demo trực tuyến hay REST API
Tính năng chính
- Bold & Italic: Hỗ trợ in đậm và in nghiêng, kể cả trong cùng một từ
- List: Hỗ trợ lồng hoàn hảo cả danh sách có thứ tự lẫn danh sách không thứ tự
- Blockquote: Có thể chứa các phần tử khác bên trong trích dẫn và hỗ trợ mượt mà cả trích dẫn lồng nhau
- Inline Code & Code Block: Xử lý chính xác dấu backtick và các khối mã nhiều dòng để giữ nguyên cấu trúc mã
- Link & Image: Định dạng chính xác các liên kết nhiều dòng và thêm escape cho các dòng trống
- Smart Escaping: Chỉ escape các ký tự đặc biệt khi cần để tránh việc Markdown được render ngoài ý muốn
- Remove/Keep HTML: Cung cấp tùy chọn xóa hoặc giữ lại các thẻ HTML cụ thể
- Plugin: Có thể dễ dàng mở rộng plugin hoặc tạo plugin tùy chỉnh để nâng cao tính năng
- Nếu cần logic tùy chỉnh, bạn có thể viết mã và đăng ký nó
- Nếu không thích thiết lập mặc định, có thể dùng
PriorityEarly để chạy logic của bạn trước những logic khác
Converter có thể được sử dụng từ nhiều goroutine và dùng mutex ở bên trong
1 bình luận
Ý kiến trên Hacker News
Có thể dùng API miễn phí của Jina.ai để lấy URL và nhận tài liệu Markdown mà không cần xác thực hay API key
Tò mò liệu công cụ dùng giấy phép MIT này có thể thay thế p2k, Instapaper, v.v. để đọc trên Kindle hay không
Dùng thư viện này trong một hàm Lambda để chuyển URL sang Markdown và lưu vào S3
Hữu ích để cung cấp dữ liệu trang web cho LLM
Sẽ rất hay nếu công cụ có tính năng loại bỏ trùng lặp n-gram
Có thể dùng Urlbox để lấy ảnh chụp màn hình chính xác và Markdown của trang web
RedditToMarkdown và urltomarkdown.com hữu ích để xây dựng ứng dụng LLM và AI
Đang tìm một thư viện tương tự để dùng trong ứng dụng Kotlin/Spring
Một trong những khó khăn khi dùng công cụ này là xử lý các khối mã có tô sáng cú pháp