Garu: Trình phân tích hình thái tiếng Hàn 1.7MB chạy trong trình duyệt (F1 95.3%, WASM)
(github.com/ongjin)Tôi đã tạo ra một trình phân tích hình thái tiếng Hàn chạy trong trình duyệt mà không cần máy chủ.
Các trình phân tích hình thái hiện có (Kiwi ~40MB, MeCab-ko ~50MB) được thiết kế với giả định chạy trong môi trường máy chủ, nên trước đây gần như không có lựa chọn nào nếu cần phân tích hình thái ở phía client.
Garu là một kiến trúc phi nơ-ron dựa trên codebook + Viterbi, chạy trực tiếp trong trình duyệt chỉ với mô hình 1.7MB và engine WASM 93KB.
- Kích thước mô hình: 1.7MB (gzip ~950KB, truyền qua mạng khoảng 1MB)
- Độ chính xác: F1 95.3% (theo kho ngữ liệu NIKL Everyone's Corpus)
- So sánh: Kiwi 87.9% / MeCab-ko ~85%
- Không dùng mạng nơ-ron: 0 tham số huấn luyện, lookup thuần túy + giải mã Viterbi
- Có thể dùng trên cả server/trình duyệt với
npm install garu-ko
Sau hai lần thất bại với chưng cất tri thức BiLSTM và gán nhãn chuỗi ở đơn vị jaso, tôi đã đi đến kiến trúc phi nơ-ron codebook + Viterbi. Quá trình tối ưu từ 76.1% lên 95.3% (huấn luyện trực tiếp trên dữ liệu gold của NIKL, smart eojeol cache, các quy tắc hậu xử lý dựa trên ngữ cảnh, v.v.) đã được tổng hợp trong bài báo kỹ thuật.
GitHub: https://github.com/ongjin/garu
Bài báo kỹ thuật: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko
1 bình luận
Đã chuyển sang Show GN.
Xin lưu ý rằng các bài viết được moderator điều chỉnh phân loại có thể bị hạn chế hiển thị trên trang chủ, vì vậy vui lòng kiểm tra lại danh mục một lần nữa trước khi đăng ký.