5 điểm bởi wellsa 14 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Khi tìm kiếm văn bản pháp luật, việc phải biết chính xác như "Điều 14 Luật xử phạt tội phạm bạo lực tình dục" mới tra ra được khá bất tiện, nên tôi đã làm một bản demo RAG trả về các điều khoản liên quan khi người dân hỏi bằng ngôn ngữ đời thường.

Dữ liệu được lấy từ OpenAPI công khai của Bộ Pháp chế và sắp xếp dưới dạng Markdown, đồng thời được cập nhật hằng ngày bằng cron.

• Pháp luật (law-kr): 5,589
• Quy tắc hành chính (regulate-kr): 10,765
• Án lệ (precedent-kr): 171,014
• Ví dụ giải thích pháp luật (interpretation-kr): 8,728
• Quyết định của Tòa Hiến pháp (constitution-kr): 38,092
• Quy phạm địa phương (localrule-kr): 159,910
• Điều ước (treaty-kr): 6,907

Tổng cộng hơn 397K tài liệu Markdown.
Đã lập chỉ mục hơn 1.36M điều khoản trong DB vận hành.

• Demo: https://minilex.wellsa.ai
• Dữ liệu/mã nguồn (MIT): https://github.com/wellsa-ai
• HF Mirror: https://huggingface.co/wellsa-ai

Tôi đã xác nhận rằng với khoảng 5 kịch bản cho người dân (deepfake / nợ lương / sa thải trái luật / rò rỉ thông tin cá nhân / stalking), hệ thống có thể trả về kèm các điều khoản nguồn; tuy nhiên khả năng tổng quát hóa vẫn còn khá xa.
Mức độ phụ thuộc vào từ khóa + mở rộng từ đồng nghĩa còn cao, nên bài toán tiếp theo là cải thiện khả năng tổng quát hóa của xếp hạng.

Stack thì khá phổ thông: Next.js + FastAPI + Celery + PostgreSQL + pgvector, phần embedding dùng nomic-embed-text-v2-moe(768d).
Trên benchmark mẫu an toàn tự xây dựng, kết quả đạt khoảng R@5 0.86 / MRR 0.753.

Đây không phải là công cụ thay thế tư vấn pháp lý, mà chỉ để hỗ trợ tra cứu các điều khoản nguồn.
Vui lòng trao đổi với chuyên gia có đủ tư cách chuyên môn trước khi đưa ra quyết định thực tế.

Hoan nghênh feedback / PR.

Chưa có bình luận nào.

Chưa có bình luận nào.