Công báo có thể đọc bởi AI - 128 nghìn công báo của Hàn Quốc từ PDF thành kho ngữ liệu Markdown

(github.com/hosungseo)

16 điểm bởi hosungseo2026 2026-04-19 | 2 bình luận | Chia sẻ qua WhatsApp

Công báo của nước ta vốn đã được công khai. Có thể tải dưới dạng PDF từ Cổng dữ liệu công cộng, và cũng không có kiểm duyệt. Nhưng tại sao nhà nghiên cứu, nhà báo, lập trình viên, tổ chức công dân và công chức lại cứ phải tự phân tích lại cùng một bộ công báo đó hết lần này đến lần khác.
Khoảng 128 nghìn công báo của Hàn Quốc (2020.01.02 ~ 2026.04.07, 1.474 nhóm ngày) được lập chỉ mục lại thành Markdown và hiệu chỉnh OCR tích lũy bằng từ điển, tạo thành một kho ngữ liệu công báo phái sinh mà con người và AI có thể cùng đọc
Tác giả là một cán bộ hành chính cấp vụ của cơ quan trung ương
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

Giới hạn của việc công khai cho con người

Khoảng cách giữa “đã công khai” và “tác tử AI có thể sử dụng” lớn hơn nhiều so với tưởng tượng
PDF không cho phép so sánh theo từng điều khoản, khó lọc theo cơ quan, ngày tháng hay vụ việc; OCR thì lỗi, cấu trúc bảng bị hỏng
Kết quả là chi phí tiền xử lý tiếp tục bị đẩy sang phía người dùng (tác tử). Nhà báo, nhà nghiên cứu và công chức đều đang tự mổ xẻ lại cùng một file PDF
Bước tiếp theo của tính minh bạch không phải là “công khai nhiều hơn” mà là “biến cùng một dữ liệu thành thứ máy có thể đọc được”

Có gì bên trong

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 file Markdown đã hiệu chỉnh xong
Trong frontmatter có title / publisher / date / source_raw_md — có thể đưa thẳng vào pipeline chunk → embedding → RAG như nguyên trạng
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — chỉ mục JSON tĩnh. Có thể fetch từ trang ngoài mà không bị giới hạn CORS
Live Reader là HTML thuần có thể mở không cần công cụ build (bao gồm tìm kiếm, heatmap, TOC, chế độ tối và phím tắt)
Phạm vi bao phủ cơ quan: bộ ngành trung ương ~108.800 mục, tư pháp ~7.700 mục, giáo dục ~4.100 mục, chính quyền địa phương ~3.300 mục, v.v. với khoảng 1.600 cơ quan

OCR: trên nền mã nguồn mở nội địa

OCR trích xuất văn bản từ PDF sử dụng opendataloader, công cụ mã nguồn mở của Hancom
Việc chọn công cụ này thay vì công cụ khác là có chủ đích. Vì đây là công việc xử lý dữ liệu công là công báo, nên tác giả cho rằng công cụ cũng nên chạy trên nền mã nguồn mở nội địa
Nếu bản thân opendataloader tiếp tục phát triển, số ký tự lỗi sẽ giảm đi, và từ điển hiệu chỉnh cũng sẽ tự nhiên trở nên gọn nhẹ hơn
Khi công cụ tốt hơn thì kho ngữ liệu cũng tốt lên theo

Thêm một lớp phía trên PDF

Công bố dưới dạng PDF là lựa chọn hợp lý ở khía cạnh chống giả mạo, nên bản thân việc dùng PDF làm bản gốc không phải là vấn đề
Giải pháp không phải là “bỏ công bố PDF” mà là “giữ PDF làm bản gốc, rồi thêm một lớp phái sinh AI-readable ở phía trên”
Kho lưu trữ này không xóa hay thay thế nguyên văn. PDF gốc được giữ nguyên, phía trên chỉ bổ sung một kho ngữ liệu đọc được phái sinh theo cấu trúc hai lớp

2 bình luận

meta1001 9 ngày trước

Quá tuyệt. Như vậy có thể để AI phân tích theo thời gian thực và đưa ra kết quả khi các chính sách đang được đẩy mạnh trong bản tin chính sách thực sự thay đổi ở cấp chính sách quốc gia và pháp lệnh.

limhasic 2026-04-20

Haha, làm gì được với cái này?

Công báo có thể đọc bởi AI - 128 nghìn công báo của Hàn Quốc từ PDF thành kho ngữ liệu Markdown

Bài viết liên quan

2 bình luận