9 điểm bởi mrchypark 2022-04-03 | 1 bình luận | Chia sẻ qua WhatsApp

elbird là gói mà cá nhân tôi xem là mục tiêu cuối cùng của kiwigo đã công bố trước đây.

Trong hệ sinh thái R, các gói phân tích hình thái tiếng Hàn hiện chủ yếu được chia thành KoNLP (dựa trên Java, hiện đã bị gỡ khỏi * cran) và RcppMecab (dựa trên mecab, nhanh, nhưng không khôi phục nguyên văn), bên cạnh đó còn có thêm một vài gói khác.

Trong bối cảnh KoNLP từng là lựa chọn chủ đạo, việc cài đặt JDK khó khăn cộng với chuyện hiện không còn trên cran đã khiến tôi nỗ lực đưa lên cran một gói phân tích hình thái mới, dễ cài đặt và được duy trì liên tục.

Trong quá trình đó, tôi biết đến kiwi, một dự án đang được phát triển bằng C++ với tính di động rất cao.

Sau một thời gian dài, cuối cùng tôi đã có thể tạo một gói R bọc các chức năng C++ và hoàn tất việc đăng ký trên cran.

Hiện tại phiên bản 0.1.1 đã được đăng ký, và dự kiến sẽ sớm cập nhật lên 0.1.2.
Các chức năng hiện đã được triển khai ở mức có thể sử dụng cơ bản; sau khi hiện thực toàn bộ tính năng của kiwi, tôi dự định sẽ tiến hành đồng bộ theo phiên bản của kiwi.

Trong readme có ví dụ mã sử dụng cơ bản, đồng thời các chức năng để dùng cùng tidytext, gói phân tích văn bản nổi tiếng trong hệ sinh thái R, cũng đã được tính đến.

Rất mong nhận được nhiều sự quan tâm.

* cran: kho lưu trữ gói chính thức của R. Đây là kho lưu trữ được quản lý, có kiểm thử tự động và quy trình rà soát của quản trị viên; do áp dụng chính sách evergreen (hủy đăng ký nếu kiểm thử thất bại), nên cần được bảo trì liên tục.

1 bình luận

 
mrchypark 2022-04-03

Tôi chưa có nhiều kinh nghiệm với phát triển và biên dịch C++, nên cũng rất cần nhiều sự giúp đỡ về phần này.
Nếu có ai có thể đưa ra lời khuyên, mong mọi người tham khảo tab Issues.