9 điểm bởi GN⁺ 2024-11-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công cụ mạnh mẽ để chuyển đổi HTML thành Markdown sạch sẽ và dễ đọc
  • Hỗ trợ định dạng phức tạp, đồng thời cho phép kiểm soát hoàn toàn quá trình chuyển đổi thông qua các tùy chọn tùy chỉnh và plugin
  • Có thể dùng thư viện Golang hoặc lệnh CLI, hoặc kiểm tra trực tiếp qua bản demo trực tuyến hay REST API

Tính năng chính

  • Bold & Italic: Hỗ trợ in đậm và in nghiêng, kể cả trong cùng một từ
  • List: Hỗ trợ lồng hoàn hảo cả danh sách có thứ tự lẫn danh sách không thứ tự
  • Blockquote: Có thể chứa các phần tử khác bên trong trích dẫn và hỗ trợ mượt mà cả trích dẫn lồng nhau
  • Inline Code & Code Block: Xử lý chính xác dấu backtick và các khối mã nhiều dòng để giữ nguyên cấu trúc mã
  • Link & Image: Định dạng chính xác các liên kết nhiều dòng và thêm escape cho các dòng trống
  • Smart Escaping: Chỉ escape các ký tự đặc biệt khi cần để tránh việc Markdown được render ngoài ý muốn
  • Remove/Keep HTML: Cung cấp tùy chọn xóa hoặc giữ lại các thẻ HTML cụ thể
  • Plugin: Có thể dễ dàng mở rộng plugin hoặc tạo plugin tùy chỉnh để nâng cao tính năng
    • Nếu cần logic tùy chỉnh, bạn có thể viết mã và đăng ký nó
    • Nếu không thích thiết lập mặc định, có thể dùng PriorityEarly để chạy logic của bạn trước những logic khác
  • Converter có thể được sử dụng từ nhiều goroutine và dùng mutex ở bên trong

1 bình luận

 
GN⁺ 2024-11-10
Ý kiến trên Hacker News
  • Có thể dùng API miễn phí của Jina.ai để lấy URL và nhận tài liệu Markdown mà không cần xác thực hay API key

    • Một số website không xử lý được, nhưng trong đa số trường hợp có thể làm được 90% công việc
    • Có thể dùng Pandoc để chuyển HTML sang Markdown
  • Tò mò liệu công cụ dùng giấy phép MIT này có thể thay thế p2k, Instapaper, v.v. để đọc trên Kindle hay không

    • Các dịch vụ đó render không chính xác và yêu cầu phí thuê bao
    • Nếu dự án được duy trì tích cực, có thể thử với nhiều bài viết khác nhau và báo cáo vấn đề
  • Dùng thư viện này trong một hàm Lambda để chuyển URL sang Markdown và lưu vào S3

    • Kết nối bằng webhook với mọi ứng dụng bookmark để lưu mọi thứ đã đánh dấu thành Markdown
    • Thuận tiện để nhập vào Obsidian
  • Hữu ích để cung cấp dữ liệu trang web cho LLM

    • Đã làm một công cụ tương tự cho hệ sinh thái Elixir nhưng còn hạn chế
    • Có thể mượn ý tưởng này
  • Sẽ rất hay nếu công cụ có tính năng loại bỏ trùng lặp n-gram

    • Cần tính năng loại bỏ cùng một nội dung ở header và footer
  • Có thể dùng Urlbox để lấy ảnh chụp màn hình chính xác và Markdown của trang web

    • Có thể dùng tính năng này bằng công cụ miễn phí
  • RedditToMarkdown và urltomarkdown.com hữu ích để xây dựng ứng dụng LLM và AI

  • Đang tìm một thư viện tương tự để dùng trong ứng dụng Kotlin/Spring

    • Khi chuyển từ HTML sang Markdown, chuỗi tài liệu HTML đã được làm sạch sẵn
  • Một trong những khó khăn khi dùng công cụ này là xử lý các khối mã có tô sáng cú pháp

    • Tò mò không biết html-to-markdown hoạt động thế nào trong các tình huống này