Hiện tại GeekNews đang nhúng và sử dụng Google Search,
cá nhân tôi cảm thấy hơi bất tiện.
Khi nhớ các từ khóa đại khái của một bài đã xem gần đây rồi đem đi tìm,
không có cách sắp xếp theo mới nhất nên cũng khó tìm lại.
Tôi cũng từng thấy có người triển khai bằng cách đưa vector store vào bằng wasm,
nhưng vì search engine không phải lĩnh vực của tôi nên khá khó hình dung.
Nếu triển khai fuzzy search ở phía frontend thì có vẻ dù sao cũng sẽ làm tăng tải cho server,
Dù chỉ là để bàn chuyện cho vui, có cách nào triển khai việc này hiệu quả không?
7 bình luận
Tôi là kiểu người rất thích tìm kiếm, nên tò mò là mỗi ngày lượng tìm kiếm khoảng bao nhiêu?
Nếu không nhiều thì vẫn có thể giữ tương đối cách tìm kiếm hiện tại và thử dùng tìm kiếm ngôn ngữ tự nhiên bằng cách áp dụng mô hình rerank.
Đây là cấu trúc tìm kiếm tổng quan của dịch vụ tôi từng làm trước đây.
Đại khái là trước tiên gửi truy vấn bằng
es, sau đó áp dụngcohere rerank api, rồi phục vụ kết quả dựa trên phần nội dung córerank scorekhớp nhất theo ngôn ngữ tự nhiên.Nhưng nghĩ lại thì nếu bạn nói đã nhúng Google vào, có lẽ sẽ không có cách nào thật sự để lấy phần nội dung HTML bên trong từng mục kết quả tìm kiếm. Dù vậy tôi vẫn để lại link ở đây.
Link: https://dev-wiki.dev/reading/tech/1
Vì tôi đang rất rảnh và thích tìm kiếm, nên nếu vẫn còn điều gì liên quan để bàn thì mong mọi người để lại nhé : )
Trong trường hợp của tôi, việc kết quả mới nhất không xuất hiện trước khiến tôi thấy hơi bất tiện. Có vẻ cách tìm kiếm đơn giản bằng truy vấn LIKE như các bảng tin BBS ngày xưa sẽ phù hợp hơn với nhu cầu của tôi. Tuy vậy, vì vấn đề tốc độ nên cũng cần cân nhắc thêm về range..
Đây cũng là một điểm bất tiện mà tôi đồng cảm. Ví dụ, khi tìm kiếm "AI", khá thường xuyên các bài viết từ 5 năm trước lại xuất hiện ở trang đầu.
Có vẻ kết quả của tìm kiếm Google được nhúng được trả ra dưới dạng JSON, vậy hãy lấy nó về rồi sắp xếp.
Hãy kiểm tra request tới https://cse.google.com/cse/element/v1
Tìm kiếm trực tiếp bằng Google thì sao?
query: site:news.hada.io duckdb
https://google.com/search/…