- Giải thích cấu trúc của HWPX, một định dạng tài liệu mở, và cách lưu trữ cũng như quản lý dữ liệu
- Giải thích sự khác biệt giữa HWPX và định dạng HWP hiện có, đồng thời phân tích các thành phần chính của định dạng HWPX và vai trò của từng tệp
Giới thiệu
- Điểm khác biệt lớn nhất là HWP là định dạng nhị phân, còn HWPX là tập hợp các tệp XML trong cấu trúc ZIP
- Với định dạng HWP, các stream được tổ chức theo dạng record nên cần trải qua quá trình phân tích riêng để trích xuất dữ liệu
- Trong khi đó, vì các tệp chính của định dạng HWPX là XML nên việc trích xuất dữ liệu dễ dàng hơn
HWPX là gì
- Đây là định dạng tài liệu mở dựa trên XML do Hancom phát triển, tuân theo OWPML, tiêu chuẩn quốc gia (KS X 6101)
- OWPML là viết tắt của ‘Open Word-Processor Markup Language’, một ngôn ngữ đánh dấu trình xử lý văn bản dạng mở dựa trên XML
- Đây là Tiêu chuẩn Công nghiệp Hàn Quốc (KS) được ban hành ngày 30 tháng 12 năm 2011; việc phát triển tiêu chuẩn được tiến hành trong khoảng 2 năm thông qua Ủy ban Tiêu chuẩn hóa Tài liệu trong nước
- Là tiêu chuẩn quốc gia được đồng phát triển cùng các chuyên gia đang trực tiếp tham gia vào quá trình phát triển tiêu chuẩn trong nước
- Đây là định dạng tệp được phát triển nhằm đảm bảo tính mở, khả năng tương thích và khả năng bảo tồn cho định dạng nhị phân của HWP
- Vì mục tiêu đó, nó được cấu thành dưới dạng định dạng gói dựa trên XML
Cấu trúc tệp HWPX
- HWPX là định dạng dựa trên XML có cấu trúc tệp ZIP
- Khi giải nén, nó bao gồm nhiều tệp XML và thư mục
- Các thành phần chính:
mimetype: Chứa thông tin về loại tệp, là thông tin chữ ký để xác nhận đây là định dạng HWPX
settings.xml: Bao gồm thông tin về các yếu tố thiết lập bên ngoài như vị trí con trỏ
version.xml: Chứa thông tin phiên bản định dạng tệp OWPML và thông tin về môi trường lưu tài liệu
BinData/: Lưu các tệp nhị phân như hình ảnh, đối tượng OLE có trong tài liệu
Contents/: Chứa thông tin định dạng và nội dung phần thân tài liệu, gồm các tệp như content.hpf, header.xml, section0.xml
content.hpf : Danh sách các tệp chính trong gói. Được định nghĩa theo tiêu chuẩn PF (Open Packaging Format) và được chia thành ba phần: metadata, manifest, spine
header.xml : Bao gồm mọi thiết lập liên quan đến nội dung tài liệu, đồng thời chứa thông tin ánh xạ cho kiểu chữ, kiểu đoạn văn, v.v.
section0.xml : Lưu nội dung phần thân theo từng khu vực, trong đó mỗi khu vực của tài liệu được lưu thành một tệp riêng
META-INF/: Bao gồm các tệp manifest.xml, container.rdf, container.xml; với tài liệu được mã hóa, thông tin mã hóa cho từng tệp sẽ được lưu tại đây
Scripts/: Thông tin script được lưu trong các tệp headerScripts và sourceScripts
Preview/: Chứa tệp hình ảnh và văn bản xem trước. Đây là thông tin hiển thị khi mở khung xem trước trong trình quản lý tệp. Với tài liệu được mã hóa, các tệp này sẽ không được lưu vì lý do bảo mật
Kết luận
- Trước khi ứng dụng HWPX, bài viết giải thích cấu trúc tổng thể và vai trò của từng tệp cấu thành bên trong
- Trong loạt bài tiếp theo, tác giả sẽ chia sẻ các ví dụ trích xuất dữ liệu mong muốn từ tài liệu HWPX thực tế
- Hy vọng nội dung này sẽ hữu ích khi tận dụng các thành phần và dữ liệu của HWPX
4 bình luận
Cảm ơn bài viết hay. Tôi muốn các tệp được tạo trên AWS (chẳng hạn như báo cáo) ở định dạng HWP, nhưng đang gặp khó khăn vì thiếu tài liệu tham khảo liên quan. Hiện tại tôi đang làm bằng Word. Nếu có tài liệu nào có thể tham khảo được, mong bạn chia sẻ liên kết giúp.
Trước đây tôi từng nghe rằng hwpx chỉ đơn giản là bung dữ liệu nhị phân của hwp thành XML rồi nén lại bằng zip.
Dù vậy ít nhất thì vẫn có thể đọc được...
Nghe nói đó là thứ làm theo y nguyên
docx.Trước đây chính MS cũng đã làm như vậy khi chuyển từ
docsangdocx.Định dạng tệp tài liệu Han/Geul: Khảo sát cấu trúc định dạng HWP