Stanza - Thư viện NLP Python mã nguồn mở
(stanfordnlp.github.io)-
Bộ công cụ xử lý ngôn ngữ tự nhiên độc lập với ngôn ngữ, hỗ trợ 66 ngôn ngữ bao gồm cả tiếng Hàn
-
Dựa trên PyTorch
-
Pipeline mạng nơ-ron hoàn chỉnh cho phân tích văn bản
-
Phân tách token, mở rộng multi-word token (MWT), lemmatization
-
Gán nhãn từ loại (POS) và hình vị, phân tích phụ thuộc, nhận dạng thực thể có tên
-
Được phát triển và công bố bởi Stanford NLP Group
-→ Cũng bao gồm giao diện có thể liên kết với CoreNLP Java đã được công bố trước đó
2 bình luận
Có vẻ như NER (nhận dạng thực thể có tên) tiếc là chỉ hỗ trợ khá ít ngôn ngữ.
Không bao gồm tiếng Hàn, và được cho là hỗ trợ 8 ngôn ngữ: tiếng Ả Rập, tiếng Trung, tiếng Đức, tiếng Anh, tiếng Pháp, tiếng Hà Lan và tiếng Tây Ban Nha.
Có hai mô hình tiếng Hàn.
Có vẻ như họ lấy Kaist và GSD, là hai bộ có nhiều token trong số những bộ được đăng ký tại Universal Dependencies (UD) https://universaldependencies.org/.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html