ir - Công cụ tìm kiếm cục bộ thay thế qmd (hỗ trợ tiền xử lý tiếng Hàn)
(github.com/vlwkaos)Tôi đã dùng qmd hiện có và phát hiện ra một vài vấn đề, nên đã tạo một công cụ tìm kiếm cục bộ để thay thế.
Bất tiện ở chỗ phải indexing/embedding tất cả collection cùng lúc vào một DB sqlite duy nhất
-> Nếu tách phần này ra thì có thể quản lý collection theo từng dự án, và ngay cả khi nhiều agent làm việc đồng thời thì việc cập nhật chỉ mục cũng diễn ra thuận lợi hơn.
Vấn đề là chỉ hỗ trợ tiền xử lý mặc định dựa trên tiếng Anh
-> Hỗ trợ thêm trực tiếp preprocessor dựa trên i/o của command. Trong repo, tôi để lại lindera-ko, công cụ cho hiệu năng tốt nhất sau nhiều lần benchmarking. Vui lòng xem hướng dẫn để cài đặt.
Vấn đề là khi bài kiểm tra BM25 gap thất bại, việc cold loading model cho tìm kiếm hybrid mất rất nhiều thời gian
-> Có daemon chạy nền và giữ model trong bộ nhớ.
So với qmd, ở trạng thái warm nó nhanh hơn hơn 20 lần,
và khác với qmd vốn không có benchmark cho điểm mức độ liên quan,
tôi đã tinh chỉnh nhẹ score trên corpus thực tế.
Đây là lần công bố đầu tiên nên có thể phát sinh vấn đề; nếu gặp lỗi, tôi rất cảm kích nếu bạn báo qua bình luận hoặc đăng issue.
Hướng dẫn tiếng Hàn: https://github.com/vlwkaos/ir/blob/main/README.ko.md
2 bình luận
Vì những hạn chế của QMD nên tôi đã băn khoăn, và điều này khiến tôi rất kỳ vọng!
Ồ, tôi sẽ dùng thật tốt!