7 điểm bởi ninebow 13 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

Sau lần được giới thiệu qua Show GN, tôi xin tổng hợp và chia sẻ các cập nhật của dự án legalize-kr trong 1 tháng (31 ngày) vừa qua. Nhờ nhiều người quan tâm và cổ vũ, tôi đã có thể cải thiện thêm khá nhiều thứ. Xin cảm ơn!

legalize-kr là gì?

legalize-kr là một dự án lưu trữ các luật và án lệ của Hàn Quốc do Nền tảng chia sẻ thông tin pháp luật quốc gia của Bộ Pháp chế cung cấp, dưới dạng Markdown + lịch sử Git. Tất cả luật được lưu trữ thành tài liệu Markdown, mọi lần sửa đổi được lưu thành Git Commit; án lệ cũng được lưu trữ dưới dạng tài liệu Markdown cùng Git History dựa trên ngày tuyên án.

Vì sao tôi tạo ra nó?

Vào ngày 30 tháng 3 vừa qua, tôi phát hiện trên GitHub Trending một dự án tên là legalize.dev dùng Markdown và Git Commit để quản lý các văn bản pháp luật của Tây Ban Nha và khối Anh ngữ. Tôi nghĩ chắc hẳn cũng phải có nơi nào làm điều này cho luật Hàn Quốc, nhưng tìm thì lại không thấy. Tôi thấy sẽ rất tốt nếu có ít nhất một dự án như vậy, nên đã tạo nó.

Cập nhật 1. Bổ sung kho cho quy định hành chính / pháp quy địa phương

Trước đây dự án chỉ xử lý luật và án lệ, nhưng giờ tôi đã bổ sung thêm cả quy định hành chính và pháp quy địa phương do cùng nền tảng chia sẻ thông tin pháp luật quốc gia cung cấp, dưới dạng các kho riêng biệt. Giờ đây có thể theo dõi các tài liệu pháp lý công khai quan trọng của Hàn Quốc tại một nơi bằng Markdown + Git History:

Quy định hành chính là các huấn lệnh/chỉ thị/công báo của từng bộ ngành, còn pháp quy địa phương là các điều lệ/quy tắc của chính quyền địa phương. Khối lượng của chúng còn lớn hơn luật và tần suất sửa đổi cũng cao hơn, nên tôi nghĩ giá trị của việc theo dõi bằng Git History sẽ khá lớn. Tuy nhiên, với quy định hành chính thì việc theo dõi các thay đổi về tên bộ ngành hoặc phân công vai trò giữa các cơ quan khá phức tạp; tôi đã cải thiện nhiều lần nhưng xem ra vẫn còn một chặng đường khá dài phía trước. Rất mong nhận được sự quan tâm và tham gia của mọi người T_T

Cập nhật 2. Bổ sung công cụ CLI, MCP và Agent Skill

Cách tiện và tốt nhất vẫn là git clone toàn bộ kho để sử dụng, nhưng việc tải các kho hàng chục GB mỗi lần có thể là gánh nặng, nên tôi đã tạo một công cụ CLI dựa trên GitHub REST API. Ngoài ra, trên cùng codebase đó, tôi cũng cung cấp luôn máy chủ MCP và bổ sung Agent Skill có thể dùng trực tiếp trong Claude Code / Codex:

Không cần tải toàn bộ kho, bạn vẫn có thể tìm kiếm luật/án lệ cụ thể, tra cứu theo từng điều khoản, hoặc theo dõi lịch sử sửa đổi; thông qua MCP, LLM/Agent cũng có thể gọi trực tiếp. AGENT SKILL cũng bao gồm hướng dẫn về việc nên dùng CLI / MCP / git clone / truy cập GitHub trực tiếp trong từng tình huống. Tuy nhiên, GitHub REST API nếu không xác thực riêng thì chỉ cho phép tối đa 60 yêu cầu mỗi giờ, vì vậy khi cần bạn sẽ phải phát hành và sử dụng GitHub token (có thể tăng lên tối đa 5.000 yêu cầu mỗi giờ).

Cập nhật 3. Bổ sung trang ví dụ ứng dụng / hệ sinh thái

Đang dần xuất hiện thêm các dự án sử dụng những bộ dữ liệu do legalize-kr cung cấp, nên tôi đã bắt đầu tổng hợp chúng ở cuối trang chính của website và trong mục 'Cách sử dụng'. Ngoài những dự án trực tiếp sử dụng dữ liệu này, tôi cũng giới thiệu thêm các dự án hoặc công cụ khác có mục tiêu tương tự (như Beommang, Korean Law MCP từng được giới thiệu trên GN trước đó).

Nếu bạn đang sử dụng một hay nhiều bộ dữ liệu của legalize-kr, hoặc đang thực hiện một dự án trong lĩnh vực tương tự, hãy cho tôi biết qua PR, issue hoặc bình luận dưới bài viết này để tôi cùng tổng hợp.

Cập nhật 4. Những cải tiến khác để tận dụng dữ liệu tốt hơn

Tôi đang tham khảo các issue ở nhiều kho khác nhau để tiếp tục chỉnh sửa quy tắc parsing dữ liệu và sắp xếp metadata. Các thay đổi chính như sau:

  • Bổ sung quy tắc parsing cho các đơn vị như 'khoản / mục con' ngoài các đơn vị hiện có như 'phần / chương / mục / quan' (legalize-kr/legalize-kr#32)
  • Sửa hiện tượng mất mẫu <제M조의 N> (legalize-kr/legalize-kr#31legalize-kr/legalize-pipeline#2)
  • Bổ sung các luật còn thiếu - ví dụ: Bộ luật Thương mại và Nghị định thi hành Bộ luật Thương mại (legalize-kr/legalize-kr#9)
  • Sửa lỗi git log ghi nhận là 'thêm mới' thay vì 'sửa đổi' do còn sót file quy tắc thi hành trước khi sửa đổi (legalize-kr/legalize-kr#24)
  • Đổi tên file án lệ và phân loại thư mục theo ngày tuyên án (legalize-kr/precedent-kr#4)
  • Sửa lỗi hỏng định dạng địa chỉ tiếng Hàn trong URL nguồn án lệ (law.go.kr 404) (legalize-kr/precedent-kr#3)
  • Bổ sung 17 Git commit bị thiếu cho ngày tuyên án theo niên hiệu Dangi (檀紀) (legalize-kr/precedent-kr#1)
  • Thêm các liên kết tệp đính kèm liên quan đến từng luật / án lệ / quy định hành chính / pháp quy địa phương vào Markdown Frontmatter theo dạng List

Bạn có thể xem chi tiết hơn trong các issue đã đóng của những kho chính:

Cuối cùng

Ban đầu tôi chỉ nghĩ kiểu như "cứ làm ra rồi thế nào đó cũng sẽ có chỗ dùng", nhưng sau lần Show GN trước, cùng với rất nhiều ⭐ và các issue nhận được, phạm vi dự án đã tự nhiên mở rộng hơn. Tôi vẫn đang duy trì và quản lý đều đặn, rất mong nhận được nhiều sự quan tâm, cổ vũ và chia sẻ hơn nữa. Xin cảm ơn!

2 bình luận

 

Bên bộ của chúng tôi đang phát triển một hệ thống RAG, nên muốn clone rồi chỉ trích xuất và sử dụng các luật, quy định liên quan đến phía chúng tôi thôi,
làm vậy có được không?

 

Vâng, dù hiện tại tôi không rõ pipeline đang được cấu hình như thế nào, nhưng về cơ bản có vẻ bạn chỉ cần bổ sung các tác vụ liên quan trước khi đưa tài liệu vào Vector DB cho cấu hình RAG hiện tại.

Tuy nhiên, điểm mấu chốt có lẽ là bạn sẽ trích xuất “các văn bản pháp luật liên quan” như thế nào; có vẻ bạn có thể thử lọc dựa trên tên văn bản pháp luật hoặc các từ khóa chính. ^^;

Xin cảm ơn!