26 điểm bởi shuggie 2025-12-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tôi đã phát triển công cụ này để giải quyết sự bất tiện khi làm việc với tài liệu HWP sau 9 năm làm việc tại viện nghiên cứu nhà nước.

Bối cảnh phát triển

  • Năm 2018: thời mới làm quen với Python, đã thử tạo bộ chuyển đổi HML/HWPML dựa trên biểu thức chính quy - https://github.com/msjang/md2hml
  • Tháng 1 năm 2025: phát triển hwpfy
    • Tổng hợp báo cáo công việc hằng tuần của khoảng 20 người dựa trên wiki chỉnh sửa cộng tác thời gian thực
    • Wiki → xuất ra DOCX → chuyển thành DOCX áp dụng biểu mẫu hành chính (hwpfy) → mở bằng ứng dụng Hancom Hangul và lưu thành HWPX → chia sẻ HWPX cho bộ phận cấp trên trong viện
  • Tháng 12 năm 2025: pypandoc-hwpx
    • Lúc này tôi nghĩ mình đã tích lũy đủ nội công, nên dành thời gian nghiêm túc để phát triển.

Cách phát triển

  1. Tôi tạo DOCX theo đúng định dạng mong muốn rồi lưu thành HWPX.
  2. Tôi giải nén DOCX và HWPX đã tạo để xem XML, loại bỏ các thuộc tính không cần thiết và tinh chỉnh lại. Sau đó cũng kiểm tra xem chúng có mở tốt trong Word và ứng dụng Hangul hay không.
  3. Tôi tạo một tài liệu so sánh các định dạng md, html, docx, hwpx. - https://github.com/msjang/pypandoc-hwpx/…
  4. Ban đầu tôi định dùng format_comparison.md ở trên để nhờ LLM viết mã, nhưng rồi nhận ra rằng mình đã có sẵn HWPX đáp án.
  5. Tôi đã xây dựng nó bằng cách nhiều lần nhận phản hồi từ Antigravity (Gemini Pro 3). Vì kết quả không ra đúng định dạng mong muốn, tôi đã soi rất kỹ XML để đưa phản hồi. Dù không nhắc trực tiếp đến tài liệu so sánh định dạng, việc nắm rõ nội dung của nó đã giúp ích rất nhiều trong quá trình rà soát.

Việc sẽ làm tiếp theo

Tôi muốn loại bỏ phần Python khỏi Pypandoc, viết bằng Haskell và đóng góp HWPX writer cho Pandoc.

Chưa có bình luận nào.

Chưa có bình luận nào.