1 điểm bởi GN⁺ 2023-09-03 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết về một công cụ tìm kiếm Wikipedia mới chạy trên trình duyệt, có thể tìm kiếm ngoại tuyến
  • Công cụ tìm kiếm có khả năng tìm kiếm theo thời gian thực trên một triệu trang Wikipedia, trả kết quả mỗi 10ms trên thiết bị di động
  • Kích thước nhỏ của cơ sở dữ liệu công cụ tìm kiếm, hỗ trợ một triệu embedding mà không cần xử lý đặc biệt cho các trường hợp sử dụng thông thường
  • Công cụ tìm kiếm sử dụng sentence transformer để tạo embedding tài liệu, nén embedding bằng product quantization, và dùng pq.js để thực hiện tính toán khoảng cách trong trình duyệt
  • Công cụ tìm kiếm dùng transformers.js để chạy sentence transformer trong trình duyệt cho truy vấn
  • Công cụ tìm kiếm sắp xếp embedding theo kích thước trang đã nén, để các trang có mật độ thông tin cao được phân tích trước và trả về trong top 10
  • Công cụ tìm kiếm dùng Arrow thay vì JSON để đạt hiệu năng cao; Arrow có thể lưu trữ gọn các mảng product quantization số nguyên 8-bit
  • Công cụ tìm kiếm sử dụng mô hình ONNX chạy trong WebAssembly, hiện chưa có tăng tốc GPU
  • Công cụ tìm kiếm nhúng toàn bộ Wikipedia bằng sentence transformer, nén embedding bằng product quantization, và tự viết ONNX thủ công
  • Công cụ tìm kiếm xuất numpy sang Arrow để lưu trữ embedding và metadata, giúp gọn hơn nhiều cả trong bộ nhớ lẫn trên đĩa
  • Công cụ tìm kiếm hỗ trợ tìm kiếm đa diện, cho phép tìm kiếm theo thời gian thực trong các danh mục con của sản phẩm
  • Tác giả mời gọi phản hồi và đề xuất cải tiến, đặc biệt về việc hỗ trợ các mức lượng tử hóa khác nhau và các chiều embedding khác nhau

1 bình luận

 
GN⁺ 2023-09-03
Ý kiến trên Hacker News
  • Bài viết về một công cụ mới cho phép tìm kiếm Wikipedia khi ngoại tuyến
  • Một số người dùng cho biết công cụ này kém chính xác hơn các dịch vụ AI như ChatGPT
  • Công cụ sử dụng text embedding để khớp truy vấn tìm kiếm
  • Một bài báo gần đây có tiêu đề "Tìm kiếm văn bản dựa trên mô tả trừu tượng" cho phép các truy vấn tìm kiếm mang tính trừu tượng hơn
  • Một số người dùng nhận thấy công cụ này kém hiệu quả hơn Google trong việc trả về kết quả như mong đợi
  • Một người dùng đề xuất rằng công cụ có thể được cải thiện nếu chỉ embedding các câu hoặc đoạn định nghĩa thay vì toàn bộ bài viết Wikipedia
  • Có lời khen cho khả năng hoạt động ngoại tuyến và cách triển khai của công cụ, dù vẫn có một số chỉ trích về độ chính xác
  • Một số người dùng gặp các vấn đề kỹ thuật liên quan đến công cụ, chẳng hạn như thời gian tải chậm
  • Có nhắc đến một dự án tương tự tên là SemanticFinder, cho phép người dùng sao chép và dán văn bản với độ dài bất kỳ rồi trả về các đoạn tương đồng nhất
  • Một người dùng chỉ ra rằng hiệu quả của công cụ có thể bị giới hạn bởi chất lượng cách biểu đạt chủ đề trên Wikipedia
  • Một số người dùng thất vọng với kết quả của công cụ, nhưng vẫn thừa nhận công nghệ đằng sau nó rất ấn tượng
  • Một người dùng cho rằng cách tiếp cận embedding toàn bộ bài viết của công cụ có thể không phải là tốt nhất cho kiểu ứng dụng này