Microsoft MarkItDown - công cụ Python chuyển đổi tệp và tài liệu Office sang Markdown
(github.com/microsoft)- Công cụ tiện ích chuyển đổi nhiều loại tệp sang Markdown
- Định dạng được hỗ trợ:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Hình ảnh (siêu dữ liệu EXIF và OCR), âm thanh (siêu dữ liệu EXIF và chuyển giọng nói thành văn bản)
- HTML (đặc biệt có xử lý riêng cho Wikipedia, v.v.) và nhiều định dạng dựa trên văn bản khác (csv, json, xml, v.v.)
- Cách dùng API rất đơn giản:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 bình luận
Ồ, có vẻ ngay cả trong nội bộ Microsoft họ cũng đang định open source nó nhỉ?
Ý kiến trên Hacker News
Nếu đã cài
uv, bạn có thể chạy với tệp bằng lệnhuvx markitdown path-to-file.pdfmà không cần cài đặt riêngCó kinh nghiệm phát triển tính năng chuyển đổi tệp thành văn bản thân thiện với LLM ở công ty
Nhiều startup và dự án mã nguồn mở đang làm lĩnh vực này trở nên phức tạp, nhưng mục tiêu cuối cùng là một dự án đơn giản, dễ hiểu và dễ triển khai
Với xử lý PDF, sẽ tốt hơn nếu có tính năng điều chỉnh "muốn xử lý đến mức nào"
Với xử lý PDF, có thể tích hợp trực tiếp PDFMiner sẽ tốt hơn
Có thể dùng Pandoc để chuyển tệp .docx sang Markdown và các định dạng khác
Đã lập chỉ mục sách tabletop RPG có bố cục trực quan phức tạp và nhiều bảng ở định dạng PDF
Việc README không nhắc tới LLM là điều bất ngờ nhưng tích cực
Chia sẻ trải nghiệm khi nộp bài tập qua Slack trong lớp học ngôn ngữ trực tuyến
.md, nhưng giáo viên không hiểu nóTò mò về việc so sánh với docling
Tự hỏi có thư viện nào tốt để chuyển từ Markdown sang PDF hoặc .docx không
Nếu là Microsoft, có lẽ họ sẽ cho ra kết quả tạm ổn với HTML của Outlook và
.docx