Mở đầu
- Trong xã hội hiện đại, công nghệ trí tuệ nhân tạo đang thúc đẩy đổi mới trong nhiều lĩnh vực, và tầm quan trọng của dữ liệu ngày càng tăng.
- Định dạng HWP có những yếu tố thuận lợi cho việc huấn luyện AI.
- Không chỉ gồm văn bản thuần túy mà còn bao gồm nhiều thành phần như hình ảnh, bảng, biểu đồ, từ đó cung cấp thông tin phong phú.
- Được cấu trúc theo nhiều định dạng như tiêu đề, đoạn văn, bảng, nên có thể giúp mô hình AI hiểu và phân tích tài liệu.
- Trong bài viết này, chúng ta sẽ tìm hiểu cấu trúc của định dạng HWP và cách lưu trữ thông tin tài liệu của nó.
HWP là gì?
- HWP là định dạng tài liệu do Hancom phát triển, lần đầu được công bố vào năm 1997.
- Định dạng này được cấu thành theo CFB(Compound File Binary File Format), tức là cách lưu nhiều luồng dữ liệu trong một tệp duy nhất.
- Tệp HWP bao gồm các thông tin như File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage, PrvText.
1. File Header
- Phần file header của tệp HWP chứa thông tin nhận diện tài liệu Han/Geul.
- Bao gồm thông tin chữ ký, phiên bản tài liệu, thông tin nhận diện tệp, và thông qua đó có thể xác định loại tài liệu của tệp HWP.
2. DocInfo
- Đây là luồng chứa các thông tin dùng chung trong tài liệu như phông chữ được sử dụng, thuộc tính ký tự, thuộc tính đoạn văn.
- DocInfo được lưu ở dạng nén bằng zlib, và có thể kiểm tra dữ liệu gốc sau khi giải nén.
- Nhiều loại thông tin được lưu dưới dạng bản ghi.
3. DocOptions
- Các thông tin như tài liệu liên kết, tài liệu phân phối, chứng thư số được lưu dưới dạng luồng.
4. BodyText (Section)
- Nội dung thực tế tương ứng với phần thân tài liệu được lưu tại đây.
- Tùy theo số lượng khu vực trong phần thân, nó được cấu thành từ nhiều luồng Section.
5. Script
- Đây là storage ghi lại thông tin script được định nghĩa trong chức năng macro script.
6. HwpSummaryInformation
- Thông tin tóm tắt của tài liệu được lưu tại đây, và có cấu trúc PropertySet của Microsoft.
7. PrvImage
- Đây là ảnh xem trước của tài liệu, lưu hình ảnh của trang đầu tiên.
8. PrvText
- Đây là văn bản xem trước của tài liệu, nội dung của trang đầu tiên được lưu dưới dạng chuỗi Unicode.
Kết luận
- Định dạng HWP được lưu dưới dạng nhị phân nên con người khó đọc trực tiếp, và được thiết kế để chỉ có thể mở xem và chỉnh sửa bằng phần mềm nhất định.
- Ngược lại, định dạng HWPX là định dạng dựa trên Open XML, trong đó dữ liệu được cấu trúc hóa để con người có thể dễ dàng hiểu nội dung.
- Trong bài tiếp theo, chúng ta sẽ tìm hiểu HWPX lưu trữ thông tin theo cách khác biệt như thế nào so với định dạng HWP.
13 bình luận
Tôi là hahnlee, người từng phát triển hwp.js (https://github.com/hahnlee/hwp.js) :)
Khi phát triển dự án đó, và cả bây giờ nữa, tôi không thực sự thích HWP lắm. Đặc biệt là về mức độ công khai của nó.
Tuy vậy, tôi phần nào đồng ý với ý rằng "định dạng HWP có những yếu tố thuận lợi cho việc huấn luyện AI".
Nói từ kinh nghiệm khi xây dựng RAG, ở Hàn Quốc người ta đặc biệt dùng bảng rất nhiều. Với PDF, vì đây là định dạng được tạo ra với giả định để in ấn, nên trong PDF không có khái niệm "bảng". Chỉ có các đoạn thẳng và văn bản mà thôi.
Vì vậy, việc trích xuất dữ liệu từ thông tin bảng phức tạp trên tài liệu PDF là rất khó. Đặc biệt là cả trong trường hợp bảng kéo dài sang trang khác.
Nói ví von một cách thô thì nếu HWP giống như một loại tài liệu rich text, thì PDF cho cảm giác như tài liệu txt. Tất nhiên đây chỉ là câu chuyện giới hạn trong phạm vi "bảng".
Nhưng nếu hỏi đó có phải là ưu điểm đặc trưng của định dạng HWP hay không, thì tôi nghĩ là không. Những gì đơn giản thì Markdown là đủ, còn nếu phức tạp hơn thì tôi nghĩ định nghĩa bằng HTML sẽ tốt hơn.
Và quan trọng nhất là docx hay odt cũng có cùng những ưu điểm đó.
Sau khi Netscape bị IE đánh cho tơi tả, rồi mới tung mã nguồn ra các kiểu và cuống cuồng gõ nhịp trễ mất rồi.
Tôi không thích hwp và cũng không thể nói tốt về các sản phẩm của công ty Hancom hiện nay, nhưng tôi nghĩ rằng ngày trước bản thân sản phẩm này là phần mềm xuất sắc hơn Word rất nhiều.
Tôi cũng nghĩ rằng đó là một phần mềm tuyệt vời, ít nhất cho đến khi Hangul 97 ra mắt.
Cái này là thật à?
Một số phận kém may mắn khi không thể trở thành tiêu chuẩn thế giới
Tôi từng học trình xử lý văn bản bằng Arae-a Hangeul, nhưng giờ có lẽ đây là một di vật nên biến mất vì sự phát triển của Hàn Quốc.
So với MS Word hay Libre Office, tôi thấy Hancom Office tiện hơn rất nhiều để tạo ra tài liệu đúng theo hình thức mình muốn. Còn khi phát hành thì chỉ cần xuất PDF là được.
Tất nhiên, chắc cũng một phần vì tôi đã quen dùng Hancom Office nên mới cảm thấy như vậy.
"Định dạng HWP có những yếu tố thuận lợi cho việc huấn luyện AI"
Cái này thật luôn à..?
Có lẽ AI cứ nên tập trung vào việc học trên PDF, còn Hangeul thì chỉ cần làm tốt bộ chuyển đổi sang PDF thôi, nhỉ haha
Tôi cũng đọc đến đoạn đó và thấy khó hiểu, nhưng nhìn vào domain của bản gốc thì hiểu ngay haha
À ha... giờ thì hiểu rồi... hahahaha
Tôi không thấy đặc biệt đồng cảm lắm. Nếu là
hwpxnhư cũng đã được nhắc đến trong bài thì còn có thể hiểu được...