31 điểm bởi GN⁺ 2024-12-14 | 2 bình luận | Chia sẻ qua WhatsApp
  • Công cụ tiện ích chuyển đổi nhiều loại tệp sang Markdown
  • Định dạng được hỗ trợ:
    • PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
    • Hình ảnh (siêu dữ liệu EXIF và OCR), âm thanh (siêu dữ liệu EXIF và chuyển giọng nói thành văn bản)
    • HTML (đặc biệt có xử lý riêng cho Wikipedia, v.v.) và nhiều định dạng dựa trên văn bản khác (csv, json, xml, v.v.)
  • Cách dùng API rất đơn giản:
    from markitdown import MarkItDown  
    markitdown = MarkItDown()  
    result = markitdown.convert("test.xlsx")  
    print(result.text_content)  
    

2 bình luận

 
kandk 2024-12-16

Ồ, có vẻ ngay cả trong nội bộ Microsoft họ cũng đang định open source nó nhỉ?

 
GN⁺ 2024-12-14
Ý kiến trên Hacker News
  • Nếu đã cài uv, bạn có thể chạy với tệp bằng lệnh uvx markitdown path-to-file.pdf mà không cần cài đặt riêng

    • Lần chạy đầu tiên sẽ cache các gói cần thiết, và các lần sau sẽ tái sử dụng các gói đã cache
    • Khi thử với HTML và PDF, hiệu năng cho thấy khá ổn
  • Có kinh nghiệm phát triển tính năng chuyển đổi tệp thành văn bản thân thiện với LLM ở công ty

    • Sau khi đọc mã nguồn, cách triển khai này khá hợp lý
    • Không nên dùng cho hình ảnh hoặc bảng tính
    • Với hình ảnh, có thể gửi trực tiếp cho nhà cung cấp LLM; còn bảng tính thì LLM xử lý bảng Markdown khá kém
  • Nhiều startup và dự án mã nguồn mở đang làm lĩnh vực này trở nên phức tạp, nhưng mục tiêu cuối cùng là một dự án đơn giản, dễ hiểu và dễ triển khai

  • Với xử lý PDF, sẽ tốt hơn nếu có tính năng điều chỉnh "muốn xử lý đến mức nào"

    • Khi trích xuất văn bản từ PDF, либо phải dùng heuristic rất nhạy với cách PDF được xuất ra, либо phải dùng OCR hoàn toàn
    • Việc dự án bị cố định vào chỉ một cách làm là khá bất tiện
    • Sẽ không dùng tính năng speech-to-text, vì đặc tính hiệu năng của nó có thể khác với text-to-text
  • Với xử lý PDF, có thể tích hợp trực tiếp PDFMiner sẽ tốt hơn

  • Có thể dùng Pandoc để chuyển tệp .docx sang Markdown và các định dạng khác

    • Pandoc không thể chuyển đổi file PowerPoint và Excel
  • Đã lập chỉ mục sách tabletop RPG có bố cục trực quan phức tạp và nhiều bảng ở định dạng PDF

    • Nếu đây chỉ là một wrapper của PDFMiner thì không thấy giá trị bổ sung của công cụ này
    • Nó không nhận diện hay xử lý bảng, nhưng ít nhất có nhận diện ô bảng ở mức tối thiểu
    • Xử lý khá tốt các cột có độ rộng biến thiên hoặc văn bản được xuống dòng theo cách phức tạp
    • Nó chèn khoảng trắng không cần thiết vào văn bản vốn đã căn chỉnh hoàn chỉnh, và thêm xuống dòng thừa khi tách cột giữa câu
    • Vấn đề lớn nhất là bỏ sót tiêu đề hoàn toàn
  • Việc README không nhắc tới LLM là điều bất ngờ nhưng tích cực

    • Đọc mã khá thú vị
    • Phần lớn là glue code nằm trong một file đơn dài 1101 dòng
  • Chia sẻ trải nghiệm khi nộp bài tập qua Slack trong lớp học ngôn ngữ trực tuyến

    • Đã nộp bài bằng file .md, nhưng giáo viên không hiểu nó
    • Từ đó mới biết vẫn có người thích tài liệu Word
  • Tò mò về việc so sánh với docling

    • docling có dùng LLM
  • Tự hỏi có thư viện nào tốt để chuyển từ Markdown sang PDF hoặc .docx không

    • Pandoc xử lý được trong đa số trường hợp, nhưng gặp khó với một số hạng mục nhất định như bảng
  • Nếu là Microsoft, có lẽ họ sẽ cho ra kết quả tạm ổn với HTML của Outlook và .docx

    • Đã đánh giá hầu hết các giải pháp trả phí, nhưng chưa thấy cái nào đủ tốt để chạy production
    • Sẽ thử công cụ này