Stanza - Thư viện NLP Python mã nguồn mở

(stanfordnlp.github.io)

7 điểm bởi xguru 2020-03-25 | 2 bình luận | Chia sẻ qua WhatsApp

Bộ công cụ xử lý ngôn ngữ tự nhiên độc lập với ngôn ngữ, hỗ trợ 66 ngôn ngữ bao gồm cả tiếng Hàn
Dựa trên PyTorch
Pipeline mạng nơ-ron hoàn chỉnh cho phân tích văn bản
Phân tách token, mở rộng multi-word token (MWT), lemmatization
Gán nhãn từ loại (POS) và hình vị, phân tích phụ thuộc, nhận dạng thực thể có tên
Được phát triển và công bố bởi Stanford NLP Group

-→ Cũng bao gồm giao diện có thể liên kết với CoreNLP Java đã được công bố trước đó

2 bình luận

sftblw 2020-03-25

Có vẻ như NER (nhận dạng thực thể có tên) tiếc là chỉ hỗ trợ khá ít ngôn ngữ.

Không bao gồm tiếng Hàn, và được cho là hỗ trợ 8 ngôn ngữ: tiếng Ả Rập, tiếng Trung, tiếng Đức, tiếng Anh, tiếng Pháp, tiếng Hà Lan và tiếng Tây Ban Nha.

xguru 2020-03-25

Có hai mô hình tiếng Hàn.

Có vẻ như họ lấy Kaist và GSD, là hai bộ có nhiều token trong số những bộ được đăng ký tại Universal Dependencies (UD) https://universaldependencies.org/.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - Thư viện NLP Python mã nguồn mở

Bài viết liên quan

2 bình luận