12 điểm bởi xguru 2021-07-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dựa trên Rust + Tantivy (một dự án mã nguồn mở tương tự Apache Lucene được triển khai bằng Rust, hỗ trợ bộ tách từ tiếng Hàn)

  • Được thiết kế phù hợp để lập chỉ mục các bộ dữ liệu lớn

→ Tách biệt Compute và Storage: có thể tìm kiếm trên các kho lưu trữ như S3

→ Quản lý cụm tìm kiếm dễ dàng: có thể thêm/xóa instance chỉ trong vài giây

  • Các tính năng được hỗ trợ

→ CLI đơn giản để quản lý index và cluster

→ Index cục bộ/từ xa

→ Instance stateless

→ Có thể dùng với bất kỳ object storage nào hỗ trợ truy vấn Byte Range

→ Tìm kiếm toàn văn bản (bao gồm Phrase Query)

→ Tích hợp sẵn hỗ trợ phân vùng theo thời gian

→ Hỗ trợ truy vấn Boolean

→ Hỗ trợ các kiểu dữ liệu text, i64, f64, date, bytes, composite types object, array

1 bình luận

 
xguru 2021-07-21

Cách họ triển khai để đạt hiệu quả về chi phí được trình bày trong bài viết giới thiệu trên blog.

Trước đây khi giới thiệu " Bayard - máy chủ tìm kiếm toàn văn & lập chỉ mục được triển khai bằng Rust https://vi.news.hada.io/topic?id=841 " thì Tantivy chưa có tokenizer tiếng Hàn, nhưng giờ đã được bổ sung rồi.

https://github.com/lindera-morphology/lindera-ko-dic-builder

tokenizer tiếng Hàn