HN giới thiệu: Tạo một trang web tìm kiếm ngữ nghĩa các bài báo ArXiv

(papermatch.mitanshu.tech)

2 điểm bởi GN⁺ 2024-12-26 | 1 bình luận | Chia sẻ qua WhatsApp

1 bình luận

GN⁺ 2024-12-26

Ý kiến trên Hacker News

Thật vui khi thấy những dự án như thế này. Nếu mở rộng vượt ra ngoài arXiv, thì với việc tổng quan tài liệu, độ bao phủ là rất quan trọng
Đáng tiếc là các nhà xuất bản lớn như Elsevier và Springer đang gây áp lực để các chỉ mục khác như OpenAlex gỡ phần tóm tắt, khiến việc truy cập càng khó hơn
Không biết bạn đã xem qua các công cụ như undermind.ai, scite.ai, elicit.org chưa
Ngoài tìm kiếm, cũng đáng để nghĩ xem luồng sản phẩm dành riêng cho tổng quan tài liệu nên bao gồm những gì. Tôi từng làm ở scite.ai
- Có PaperMatchBio cho bioRxiv(https://papermatchbio.mitanshu.tech/) và PaperMatchMed cho medRxiv(https://papermatchmed.mitanshu.tech/), nhưng tôi đồng ý là có nhiều website riêng theo từng lĩnh vực thì không lý tưởng
  Tôi vẫn chưa tạo được pipeline đồng bộ hóa cho hai cái này nên kết quả có thể hơi cũ
  Việc các nhà xuất bản lớn buộc phải gỡ tóm tắt có vẻ sẽ là một vấn đề thực sự khi mở rộng độ bao phủ
  Tôi có xem undermind.ai, scite.ai, elicit.org rồi, nhưng có thể chưa xem đủ sâu nên sẽ kiểm tra lại và thử bổ sung các tính năng tương ứng
  Tôi tự hỏi liệu luồng tổng quan tài liệu ngoài tìm kiếm có phải là ý bạn nói đến hệ thống quản lý tài liệu tham khảo như Mendeley/Zotero không
- Màn hình thử thách Cloudflare hiện ra ngay từ đầu là chí mạng
  Tôi thắc mắc vì sao lại thiếu nhiều bài báo ngoài arXiv đến vậy. Có phải tác giả phải tự nộp không? Tôi thường tìm được các bài toán, vật lý, khoa học máy tính, nhưng thường không có các bài về sinh học, hóa học, y học
  Một cơ sở dữ liệu chứa mọi ID bài báo hiện có và chỉ ra bài nào có ở đâu, thiếu ở đâu cũng có thể hữu ích tương đương. Bất kỳ bài báo nào có dùng dù chỉ một phần vốn công cũng không nên bị thiếu
1. Tôi muốn biết vì sao bạn dùng mô hình mixbread
2. Tôi muốn biết hiệu quả đã cải thiện đến mức nào khi nhị phân hóa embedding và dùng khoảng cách Hamming
3. Tôi muốn biết vì sao bạn chọn Milvus thay vì các vector store khác
4. Tôi muốn biết việc nhập metadata hằng tuần đã được tự động hóa chưa, chỉ là một tác vụ cron đơn giản hay còn gì khác cần điều phối nữa
  Khi tìm với “transformers on byte level not token level” thì kết quả khá ổn, nhưng bài mới hơn https://arxiv.org/abs/2412.09871 lại không xuất hiện, trong khi có lẽ nhiều người sẽ muốn tìm nó
  Cũng nên tăng mật độ kết quả. Ví dụ, sẽ hay nếu có tùy chọn UI thu gọn phần tóm tắt để hiển thị được nhiều hơn ngay màn hình đầu
- 1. Tài nguyên tôi có hạn nên kích thước mô hình đủ nhỏ để xử lý corpus tương đối nhanh. Ngoài ra nó còn hỗ trợ MRL và embedding nhị phân, có thể hữu ích khi cần giảm kích cỡ VM
  2. Gần như khoảng 500ms. Xem https://news.ycombinator.com/item?id=42507116#42509636
  3. Tôi chọn Milvus vì https://benchmark.vectorview.ai/vectordbs.html. Tôi giả định rằng nhiều sao hơn thì cộng đồng sẽ lớn hơn, việc phát hiện/sửa lỗi sẽ nhanh hơn và hỗ trợ tính năng cũng tốt hơn
  4. Việc nhập hằng tuần được tự động hóa tại https://huggingface.co/spaces/bluuebunny/update_arxiv_embeddings. Do tài nguyên khả dụng bị giới hạn nên tôi để HuggingFace Spaces tự động hóa thay
    Nhưng Space cứ liên tục ngủ, nên để tránh điều đó tôi định dùng api/gradio_client để tiếp tục gọi chính Space đó
    Bạn nói đúng về tính cập nhật nên tôi định thêm tùy chọn sắp xếp theo Recency. Cần cân bằng giữa độ tương đồng và ngày xuất bản
    Tôi cũng sẽ xem xét việc thu gọn tóm tắt và cải thiện mật độ kết quả
Tuyệt vời. Tôi đã thử một vài truy vấn và kết quả dựa trên ngữ nghĩa khá ổn
Tuy vậy, nếu nó trở thành một phần của quy trình làm việc hằng ngày thay vì chỉ là công cụ kiểu Google Scholar, thì sẽ tốt hơn nếu có thể xem bài báo đã được phản biện và trích dẫn như thế nào. Có OpenReview cho việc này, ví dụ là https://openreview.net/forum?id=jhKbnNhwhc
Ngoài ra cũng sẽ hay nếu có tính năng kiểu “hãy kể cho tôi để tôi nhanh chóng bắt kịp” cho một nhóm bài báo. Mô hình sinh có thể hỗ trợ, ý tôi là cuối cùng nó có thể viết ra những đoạn văn kèm trích dẫn phù hợp để đưa vào phần tổng quan tài liệu/nghiên cứu liên quan của bài báo
- Tôi chưa biết OpenReview. Tôi thích tính minh bạch của nó nên chắc chắn sẽ cân nhắc tích hợp
  Việc để mô hình viết phần giới thiệu cũng là một góp ý hay. Tôi đã cố giữ công cụ tìm kiếm này truyền thống hơn một chút, nhưng nếu kết quả tốt thì đó có thể là hướng nên đi trong tương lai
Trước đây, tức là vài năm trước khi cơn sốt LLM bùng lên, khi tôi dùng một cơ sở dữ liệu vector cỡ tương tự (gensim/doc2vec), thì chỉ cần dùng các lệnh như SSE hay AVX để brute-force tìm kiếm vector là cũng khả thi
Viết bằng C rồi gắn thêm Python API là được. Nếu dữ liệu chỉ vài GB thì brute-force thời gian thực trên CPU cũng có thể làm được và có thể dưới 200ms
- Câu hỏi thú vị đấy, tôi đã thêm vào danh sách TODO
Đây là một dự án tuyệt vời
Gần đây tôi đã tạo một cơ sở dữ liệu embedding từ bộ dữ liệu arXiv: https://huggingface.co/NeuML/txtai-arxiv
Nếu bạn quan tâm đến lĩnh vực truy hồi tài liệu, cũng có thêm vài dự án liên quan
annotateai(https://github.com/neuml/annotateai) dùng LLM để chú thích bài báo và hỗ trợ tìm kiếm trong cơ sở dữ liệu arXiv ở trên
paperai(https://github.com/neuml/paperai) cung cấp tìm kiếm ngữ nghĩa và quy trình làm việc cho các bài báo y học·khoa học, dựa trên txtai(https://github.com/neuml/txtai)
paperetl(https://github.com/neuml/paperetl) là quy trình ETL cho các bài báo y học·khoa học và hỗ trợ toàn bộ tài liệu PDF
- Trông đều là những dự án hay, tôi nhất định sẽ xem thử
- paperetl rất ấn tượng. Tôi đã lưu lại để xem sau. Trước đây bên công ty tôi từng làm thứ tương tự với grobid, một dự án rất hay do patrice tạo ra
Nhân tiện, txtai đã công bố embedding arXiv từ 8 ngày trước
https://huggingface.co/NeuML/txtai-arxiv
- Đúng vậy
Mỗi khi tìm kiếm ngữ nghĩa được áp dụng, tôi đều muốn thấy nó có lợi thế gì so với tìm kiếm văn bản
Tôi cũng tò mò liệu có benchmark nào để kiểm chứng xem việc tìm kiếm có thực sự tốt hơn không. Về mặt chủ quan, tôi cũng muốn biết liệu nó có giúp bộc lộ các bài báo mới tốt hơn hay hữu ích hơn trong một số lĩnh vực nhất định không
- Lợi ích hoàn toàn phụ thuộc vào năng lực của mô hình embedding. Embedding ngữ nghĩa hiểu được sắc thái nên có thể tìm ra các abstract phù hợp về mặt khái niệm ngay cả khi không có đúng cùng từ khóa
  Ví dụ, “neural networks” và “deep learning” có thể và nên trả về các bài báo tương tự
  Về mặt chủ quan thì tôi nghĩ là có. Tôi đã chia sẻ với đồng nghiệp và họ nói nó giúp họ tìm tác giả mới và bài báo mới trong lĩnh vực khi đang chuẩn bị bản thảo
  Còn việc nó có hữu ích hơn trong lĩnh vực cụ thể nào không thì tôi không đủ khả năng để trả lời
- Một yếu tố là cách người dùng diễn đạt truy vấn. Ở một mức độ nào đó, mọi người đã quen với tìm kiếm chuyên biệt, nhưng tìm kiếm ngữ nghĩa thực sự tỏa sáng khi bạn đặt những câu hỏi theo nghĩa đen mà câu trả lời và thuật ngữ có thể không khớp nhau
Tôi tự hỏi còn những lĩnh vực hay nào khác mà tìm kiếm ngữ nghĩa có thể hữu ích. Tôi đã muốn làm một webapp như thế này từ lâu
Ý tưởng vừa nảy ra là tìm kiếm quảng cáo trực tuyến cho dân marketing. Nhúng và lập chỉ mục quảng cáo video·hình ảnh để họ tìm cảm hứng marketing bằng tìm kiếm ngôn ngữ tự nhiên
Ngoài ra còn có tìm kiếm mua sắm bao trùm nhiều nền tảng thương mại điện tử như Sephora, Zara, H&M
Chỉ là tôi chưa biết bên nào trong hai hướng đó đủ tốt để trở thành một bài toán kinh doanh đáng giải hay không
- 1. Tìm kiếm nhanh tài liệu nội bộ. Hầu như công ty nào cũng cần. Việc duyệt qua phân cấp như hệ thống tệp thì chậm, hạn chế và là cách cũ
  2. Tìm kiếm nhanh mã nguồn để tìm các phần liên quan ngay cả khi cách diễn đạt trong chú thích khác nhau
- Mong là bạn đừng góp phần làm ad tech tốt hơn nữa. Có thể sẽ có người khác làm, nhưng không nhất thiết phải là bạn
Tôi tự hỏi liệu nó có giống https://www.semanticscholar.org của Allen Institute for AI không
- Có vẻ nó gần với website này hơn: https://arxivxplorer.com/
- Nó giống hơn với bình luận của triilman, nhưng mọi thành phần đều là mã nguồn mở. Tôi định sớm thêm bộ lọc và hỗ trợ từ khóa. Thực ra hiện giờ tôi đang chờ Milvus
Ý tưởng rất hay
Góp ý là tôi đã tìm “wave function collapse algorithm”, “gumin wave function collapse”, “wfc”, “model synthesis”, nhưng không ra kết quả liên quan đến mảng nghiên cứu tôi quan tâm. Có rất nhiều bài về điện toán lượng tử và vật lý khác
WFC algorithm có thể là một ví dụ không tốt cho kiểu tìm kiếm này vì thuật ngữ này bị dùng chồng lấn và hoàn toàn không liên quan đến cơ học lượng tử. Model synthesis cũng có thể là một ví dụ không tốt vì quá chung chung
Trang đầu tiên khi tìm “wave function collapse algorithm” trên chính arXiv thì có hiện kết quả liên quan
- arXiv là công cụ tìm kiếm dựa trên từ khóa, nên nó tìm đúng các từ có trong văn bản. PaperMatch thì cố tìm các bài báo tương tự gần hơn về mặt ngữ nghĩa
  Theo một cách tiếp cận khác, hãy chọn một bài báo bạn thích, sao chép abstract hoặc arXiv ID từ arXiv rồi dán vào PaperMatch, cách đó có thể sẽ giúp tìm các bài báo tương tự

HN giới thiệu: Tạo một trang web tìm kiếm ngữ nghĩa các bài báo ArXiv

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News