- Công cụ chuyển đổi website nhanh và gọn nhẹ sang định dạng Markdown và llms.txt, hỗ trợ tạo ngữ cảnh LLM để AI có thể tìm kiếm
- Các bộ chuyển đổi HTML→Markdown truyền thống không dành cho LLM nên tốn nhiều token hơn và cũng chậm hơn
- Lõi
mdream là bộ chuyển đổi HTML→Markdown được tối ưu cho LLM, tạo đầu ra tối ưu với ít hơn khoảng 50% token, đồng thời có thể chuyển đổi siêu nhanh 1.4MB HTML trong khoảng 50ms
- Thư viện kích thước 5kB gzip, không có phụ thuộc bên ngoài
- Với gói
@mdream/crawl, có thể crawl toàn bộ website để tạo llms.txt, llms-full.txt và các tệp Markdown riêng lẻ, đồng thời tích hợp với các công cụ AI như Claude Code
- Có thể chạy trong nhiều môi trường như CLI, Docker, GitHub Actions, Vite, Nuxt
- Có thể bổ sung lọc nội dung, chuyển đổi node và các hành vi tùy chỉnh thông qua hook pipeline bằng hệ thống plugin
- extractionPlugin: Trích xuất phần tử cụ thể bằng bộ chọn CSS, dùng cho phân tích dữ liệu
- filterPlugin: Có thể bao gồm/loại trừ phần tử dựa trên bộ chọn CSS hoặc ID thẻ
- frontmatterPlugin: Tạo YAML frontmatter từ thông tin trong HTML head (title, meta, v.v.)
- isolateMainPlugin: Chỉ trích xuất nội dung chính từ phần tử
<main> hoặc phạm vi từ header đến footer
- tailwindPlugin: Chuyển các lớp Tailwind CSS thành định dạng Markdown như in đậm, in nghiêng, v.v.
- readabilityPlugin: Chấm điểm và trích xuất độ dễ đọc của nội dung (tính năng thử nghiệm)
1 bình luận
Tôi đã thử nhưng bị lỗi và không hoạt động đúng. Tôi đã đăng bài trong issue trên Eldan.