Microsoft MarkItDown - công cụ Python chuyển đổi tệp và tài liệu Office sang Markdown

(github.com/microsoft)

31 điểm bởi GN⁺ 2024-12-14 | 2 bình luận | Chia sẻ qua WhatsApp

Công cụ tiện ích chuyển đổi nhiều loại tệp sang Markdown
Định dạng được hỗ trợ:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Hình ảnh (siêu dữ liệu EXIF và OCR), âm thanh (siêu dữ liệu EXIF và chuyển giọng nói thành văn bản)
- HTML (đặc biệt có xử lý riêng cho Wikipedia, v.v.) và nhiều định dạng dựa trên văn bản khác (csv, json, xml, v.v.)

Cách dùng API rất đơn giản:

from markitdown import MarkItDown  
markitdown = MarkItDown()  
result = markitdown.convert("test.xlsx")  
print(result.text_content)

2 bình luận

kandk 2024-12-16

Ồ, có vẻ ngay cả trong nội bộ Microsoft họ cũng đang định open source nó nhỉ?

GN⁺ 2024-12-14

Ý kiến trên Hacker News

Nếu đã cài uv, bạn có thể chạy với tệp bằng lệnh uvx markitdown path-to-file.pdf mà không cần cài đặt riêng
- Lần chạy đầu tiên sẽ cache các gói cần thiết, và các lần sau sẽ tái sử dụng các gói đã cache
- Khi thử với HTML và PDF, hiệu năng cho thấy khá ổn
Có kinh nghiệm phát triển tính năng chuyển đổi tệp thành văn bản thân thiện với LLM ở công ty
- Sau khi đọc mã nguồn, cách triển khai này khá hợp lý
- Không nên dùng cho hình ảnh hoặc bảng tính
- Với hình ảnh, có thể gửi trực tiếp cho nhà cung cấp LLM; còn bảng tính thì LLM xử lý bảng Markdown khá kém
Nhiều startup và dự án mã nguồn mở đang làm lĩnh vực này trở nên phức tạp, nhưng mục tiêu cuối cùng là một dự án đơn giản, dễ hiểu và dễ triển khai
Với xử lý PDF, sẽ tốt hơn nếu có tính năng điều chỉnh "muốn xử lý đến mức nào"
- Khi trích xuất văn bản từ PDF, либо phải dùng heuristic rất nhạy với cách PDF được xuất ra, либо phải dùng OCR hoàn toàn
- Việc dự án bị cố định vào chỉ một cách làm là khá bất tiện
- Sẽ không dùng tính năng speech-to-text, vì đặc tính hiệu năng của nó có thể khác với text-to-text
Với xử lý PDF, có thể tích hợp trực tiếp PDFMiner sẽ tốt hơn
Có thể dùng Pandoc để chuyển tệp .docx sang Markdown và các định dạng khác
- Pandoc không thể chuyển đổi file PowerPoint và Excel
Đã lập chỉ mục sách tabletop RPG có bố cục trực quan phức tạp và nhiều bảng ở định dạng PDF
- Nếu đây chỉ là một wrapper của PDFMiner thì không thấy giá trị bổ sung của công cụ này
- Nó không nhận diện hay xử lý bảng, nhưng ít nhất có nhận diện ô bảng ở mức tối thiểu
- Xử lý khá tốt các cột có độ rộng biến thiên hoặc văn bản được xuống dòng theo cách phức tạp
- Nó chèn khoảng trắng không cần thiết vào văn bản vốn đã căn chỉnh hoàn chỉnh, và thêm xuống dòng thừa khi tách cột giữa câu
- Vấn đề lớn nhất là bỏ sót tiêu đề hoàn toàn
Việc README không nhắc tới LLM là điều bất ngờ nhưng tích cực
- Đọc mã khá thú vị
- Phần lớn là glue code nằm trong một file đơn dài 1101 dòng
Chia sẻ trải nghiệm khi nộp bài tập qua Slack trong lớp học ngôn ngữ trực tuyến
- Đã nộp bài bằng file .md, nhưng giáo viên không hiểu nó
- Từ đó mới biết vẫn có người thích tài liệu Word
Tò mò về việc so sánh với docling
- docling có dùng LLM
Tự hỏi có thư viện nào tốt để chuyển từ Markdown sang PDF hoặc .docx không
- Pandoc xử lý được trong đa số trường hợp, nhưng gặp khó với một số hạng mục nhất định như bảng
Nếu là Microsoft, có lẽ họ sẽ cho ra kết quả tạm ổn với HTML của Outlook và .docx
- Đã đánh giá hầu hết các giải pháp trả phí, nhưng chưa thấy cái nào đủ tốt để chạy production
- Sẽ thử công cụ này

Microsoft MarkItDown - công cụ Python chuyển đổi tệp và tài liệu Office sang Markdown

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News