1 bình luận

 
GN⁺ 2024-12-26
Ý kiến trên Hacker News
  • Có câu hỏi về lý do sử dụng mô hình mixbread
  • Có câu hỏi về việc nhị phân hóa embedding và dùng khoảng cách Hamming để cải thiện hiệu suất
  • Có câu hỏi về lý do chọn Milvus thay vì các vector database khác
  • Có câu hỏi về việc có tự động hóa siêu dữ liệu hàng tuần hay không
  • Có phản hồi tốt về việc tìm kiếm “Byte-level Transformer”, nhưng không tìm thấy bài báo mới nhất
    • Nếu muốn có mật độ kết quả cao hơn, có thể cân nhắc thêm tuỳ chọn giao diện để thu gọn phần tóm tắt, giúp hiển thị nhiều hơn ngay từ đầu
  • Khi mở rộng ngoài arXiv, các nhà xuất bản lớn bắt buộc loại bỏ phần tóm tắt từ các nguồn như OpenAlex, nên có thể khó khăn cho review tài liệu
  • Có câu hỏi về việc đã kiểm tra các công cụ khác như undermind.ai, scite.ai, elicit.org hay chưa
  • Cần cân nhắc trong quy trình sản phẩm dành riêng cho literature review, ngoài tìm kiếm thì còn gì có thể được đưa vào
  • Trước đây, việc brute force trên CPU thời gian thực có thể thực hiện được trên các vector database như gensim/doc2vec
  • Có ý tưởng về các lĩnh vực khác mà tìm kiếm ngữ nghĩa có thể hữu ích
    • Tìm kiếm quảng cáo trực tuyến: nhúng và lập chỉ mục video, hình ảnh quảng cáo để tìm cảm hứng marketing
    • Tìm kiếm đa nền tảng thương mại điện tử: tìm sản phẩm trên Sephora, zara, h&m, v.v.
  • Có ý kiến rằng việc thêm liên kết “bài báo tương tự” cho mỗi bài báo sẽ hữu ích trong việc khám phá chủ đề
  • Có câu hỏi về lợi ích của semantic search so với text search
    • Có câu hỏi về benchmark nào để kiểm tra xem khả năng tìm kiếm có được cải thiện hay không
  • Có câu hỏi về việc nó có giống Semantic Scholar của Allen Institute for AI không
  • Có đề xuất thêm client công cụ tìm kiếm vào backend của paper-qa
  • Có ý kiến muốn crawl và kết nối với Sci-hub
  • Có ý kiến về vấn đề mã hóa
    • Khi tìm kiếm “đánh giá hiệu năng siêu máy tính UPC”, tìm thấy bài báo có lỗi trong tên tác giả