sgrep là công cụ dòng lệnh thực hiện tìm kiếm ngữ nghĩa cho đầu vào văn bản bằng cách sử dụng word embedding
- Vượt qua việc khớp chuỗi đơn thuần để tìm các kết quả khớp tương đồng về mặt ngữ nghĩa với truy vấn
- Được thiết kế để mang lại trải nghiệm tương tự
grep
- Tính năng
- Tìm kiếm ngữ nghĩa bằng embedding Word2Vec
- Có thể thiết lập ngưỡng độ tương đồng
- Hiển thị ngữ cảnh trước và sau dòng khớp
- Xuất kết quả có mã màu cho từ khớp và số dòng
- Hỗ trợ đọc từ tệp hoặc đầu vào chuẩn
- Có thể cấu hình qua tệp JSON và tham số dòng lệnh
- Ví dụ sử dụng
- Mô hình Word2Vec
sgrep yêu cầu mô hình Word2Vec ở định dạng nhị phân. Có thể dùng mô hình được huấn luyện sẵn như Word2Vec của Google hoặc tự huấn luyện bằng các công cụ như gensim
- Tải tệp
.bin về máy cục bộ và cập nhật config.json
download-model.sh là một script trợ giúp đơn giản để lưu mô hình word2vec nhỏ do eyaler host vào thư mục models/googlenews-slim/
Tổng hợp của GN⁺
sgrep là công cụ dùng word embedding để tìm các từ tương đồng về mặt ngữ nghĩa trong văn bản
- Công cụ này mang lại trải nghiệm sử dụng tương tự
grep nhưng cung cấp khả năng vượt ra ngoài việc khớp chuỗi đơn giản
- Công cụ dùng mô hình Word2Vec để đánh giá độ tương đồng và có thể sử dụng linh hoạt nhờ nhiều tùy chọn cấu hình
- Có thể hữu ích trong các tác vụ phân tích văn bản và xử lý ngôn ngữ tự nhiên, đặc biệt mạnh khi cần tìm kiếm dựa trên ngữ cảnh
1 bình luận
Ý kiến trên Hacker News
Chia sẻ một vài mẹo nhỏ khi đọc mã
Ý tưởng này rất hữu ích và khiến tôi tự hỏi sao mình lại không nghĩ ra
Đã có một công cụ và công ty tên là semgrep rồi
Công cụ này sẽ rất hữu ích nếu có thể xử lý các cụm từ mô tả hoặc cụm từ ghép
Đây là một công cụ rất hay
Công cụ này rất hay và tôi chắc chắn muốn thử dùng
Đề xuất fltr như một công cụ tương tự
Rất hay, và tôi tò mò không biết có thể tìm cả tên tệp hay không
Thật tuyệt khi phát hiện ra một công cụ rất hay