Công báo có thể đọc bởi AI - 128 nghìn công báo của Hàn Quốc từ PDF thành kho ngữ liệu Markdown
(github.com/hosungseo)Công báo của nước ta vốn đã được công khai. Có thể tải dưới dạng PDF từ Cổng dữ liệu công cộng, và cũng không có kiểm duyệt. Nhưng tại sao nhà nghiên cứu, nhà báo, lập trình viên, tổ chức công dân và công chức lại cứ phải tự phân tích lại cùng một bộ công báo đó hết lần này đến lần khác.
Khoảng 128 nghìn công báo của Hàn Quốc (2020.01.02 ~ 2026.04.07, 1.474 nhóm ngày) được lập chỉ mục lại thành Markdown và hiệu chỉnh OCR tích lũy bằng từ điển, tạo thành một kho ngữ liệu công báo phái sinh mà con người và AI có thể cùng đọc
Tác giả là một cán bộ hành chính cấp vụ của cơ quan trung ương
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
Giới hạn của việc công khai cho con người
- Khoảng cách giữa “đã công khai” và “tác tử AI có thể sử dụng” lớn hơn nhiều so với tưởng tượng
- PDF không cho phép so sánh theo từng điều khoản, khó lọc theo cơ quan, ngày tháng hay vụ việc; OCR thì lỗi, cấu trúc bảng bị hỏng
- Kết quả là chi phí tiền xử lý tiếp tục bị đẩy sang phía người dùng (tác tử). Nhà báo, nhà nghiên cứu và công chức đều đang tự mổ xẻ lại cùng một file PDF
- Bước tiếp theo của tính minh bạch không phải là “công khai nhiều hơn” mà là “biến cùng một dữ liệu thành thứ máy có thể đọc được”
Có gì bên trong
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128.403 file Markdown đã hiệu chỉnh xong- Trong frontmatter có
title / publisher / date / source_raw_md— có thể đưa thẳng vào pipeline chunk → embedding → RAG như nguyên trạng docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— chỉ mục JSON tĩnh. Có thểfetchtừ trang ngoài mà không bị giới hạn CORS- Live Reader là HTML thuần có thể mở không cần công cụ build (bao gồm tìm kiếm, heatmap, TOC, chế độ tối và phím tắt)
- Phạm vi bao phủ cơ quan: bộ ngành trung ương ~108.800 mục, tư pháp ~7.700 mục, giáo dục ~4.100 mục, chính quyền địa phương ~3.300 mục, v.v. với khoảng 1.600 cơ quan
OCR: trên nền mã nguồn mở nội địa
- OCR trích xuất văn bản từ PDF sử dụng opendataloader, công cụ mã nguồn mở của Hancom
- Việc chọn công cụ này thay vì công cụ khác là có chủ đích. Vì đây là công việc xử lý dữ liệu công là công báo, nên tác giả cho rằng công cụ cũng nên chạy trên nền mã nguồn mở nội địa
- Nếu bản thân opendataloader tiếp tục phát triển, số ký tự lỗi sẽ giảm đi, và từ điển hiệu chỉnh cũng sẽ tự nhiên trở nên gọn nhẹ hơn
- Khi công cụ tốt hơn thì kho ngữ liệu cũng tốt lên theo
Thêm một lớp phía trên PDF
- Công bố dưới dạng PDF là lựa chọn hợp lý ở khía cạnh chống giả mạo, nên bản thân việc dùng PDF làm bản gốc không phải là vấn đề
- Giải pháp không phải là “bỏ công bố PDF” mà là “giữ PDF làm bản gốc, rồi thêm một lớp phái sinh AI-readable ở phía trên”
- Kho lưu trữ này không xóa hay thay thế nguyên văn. PDF gốc được giữ nguyên, phía trên chỉ bổ sung một kho ngữ liệu đọc được phái sinh theo cấu trúc hai lớp
2 bình luận
Quá tuyệt. Như vậy có thể để AI phân tích theo thời gian thực và đưa ra kết quả khi các chính sách đang được đẩy mạnh trong bản tin chính sách thực sự thay đổi ở cấp chính sách quốc gia và pháp lệnh.
Haha, làm gì được với cái này?