-
Dựa trên Rust + Tantivy (một dự án mã nguồn mở tương tự Apache Lucene được triển khai bằng Rust, hỗ trợ bộ tách từ tiếng Hàn)
-
Được thiết kế phù hợp để lập chỉ mục các bộ dữ liệu lớn
→ Tách biệt Compute và Storage: có thể tìm kiếm trên các kho lưu trữ như S3
→ Quản lý cụm tìm kiếm dễ dàng: có thể thêm/xóa instance chỉ trong vài giây
- Các tính năng được hỗ trợ
→ CLI đơn giản để quản lý index và cluster
→ Index cục bộ/từ xa
→ Instance stateless
→ Có thể dùng với bất kỳ object storage nào hỗ trợ truy vấn Byte Range
→ Tìm kiếm toàn văn bản (bao gồm Phrase Query)
→ Tích hợp sẵn hỗ trợ phân vùng theo thời gian
→ Hỗ trợ truy vấn Boolean
→ Hỗ trợ các kiểu dữ liệu text, i64, f64, date, bytes, composite types object, array
1 bình luận
Cách họ triển khai để đạt hiệu quả về chi phí được trình bày trong bài viết giới thiệu trên blog.
Quickwit: A highly cost-efficient search engine in Rust https://quickwit.io/blog/quickwit-first-release/
Tantivy https://github.com/tantivy-search/tantivy
Trước đây khi giới thiệu " Bayard - máy chủ tìm kiếm toàn văn & lập chỉ mục được triển khai bằng Rust https://vi.news.hada.io/topic?id=841 " thì Tantivy chưa có tokenizer tiếng Hàn, nhưng giờ đã được bổ sung rồi.
https://github.com/lindera-morphology/lindera-ko-dic-builder
tokenizer tiếng Hàn