1 điểm bởi GN⁺ 2024-11-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Tìm hiểu thuật toán BM25

    • BM25 là một thuật toán tìm kiếm toàn văn được sử dụng rất phổ biến, mặc định có trong Lucene/Elasticsearch, SQLite và nhiều hệ thống khác.
    • Gần đây, việc kết hợp tìm kiếm toàn văn với tìm kiếm tương đồng vector để triển khai "tìm kiếm lai" đã trở nên phổ biến.
    • Bài viết bắt đầu từ câu hỏi liệu có thể so sánh điểm BM25 giữa nhiều truy vấn hay không.
  • Xếp hạng tài liệu

    • Mục tiêu cơ bản của thuật toán tìm kiếm toàn văn là tìm ra tài liệu liên quan nhất với truy vấn.
    • BM25 xếp hạng tài liệu dựa trên xác suất tài liệu đó có liên quan đến truy vấn.
  • Các thành phần của BM25

    • Thuật ngữ truy vấn: Với truy vấn gồm nhiều thuật ngữ, hệ thống tính điểm riêng cho từng thuật ngữ rồi cộng lại.
    • Tần suất tài liệu nghịch đảo (IDF): Tính độ hiếm của một thuật ngữ tìm kiếm cụ thể trong toàn bộ tập tài liệu.
    • Tần suất thuật ngữ trong tài liệu: Tính số lần thuật ngữ tìm kiếm xuất hiện trong một tài liệu cụ thể.
    • Chuẩn hóa độ dài tài liệu: Chuẩn hóa độ dài của tài liệu bằng cách so sánh với các tài liệu khác.
  • Biểu diễn toán học của BM25

    • Thuật toán BM25 có thể trông phức tạp về mặt toán học, nhưng khi hiểu từng thành phần thì sẽ dễ nắm bắt hơn.
    • Công thức chính được tính bằng cách cộng điểm của từng thuật ngữ trong truy vấn.
  • Tính độc đáo của BM25

    • Xếp hạng dựa trên xác suất mà không cần trực tiếp tính xác suất: BM25 xếp hạng tài liệu dựa trên khung liên quan xác suất.
    • Giả định rằng phần lớn tài liệu không liên quan: BM25 giả định đa số tài liệu không liên quan đến truy vấn, nhờ đó vẫn hữu ích ngay cả khi không dùng thông tin liên quan trực tiếp.
  • Kết luận

    • Điểm BM25 có thể được so sánh giữa các truy vấn trong cùng một tập tài liệu.
    • BM25 không tập trung vào việc ước lượng chính xác mức độ liên quan của tài liệu, mà tập trung vào việc xếp hạng mức độ liên quan đối với truy vấn.
    • Có thể so sánh điểm BM25 của cùng một tài liệu trong cùng một tập tài liệu.
  • Đọc thêm

    • Nếu muốn tìm hiểu thêm về lý thuyết và lịch sử của BM25, bài viết gợi ý bài nói chuyện năm 2016 của kỹ sư Elastic Britta Weber và bài "The Probabilistic Relevance Framework: BM25 and Beyond" của Stephen Robertson và Hugo Zaragoza.

Chưa có bình luận nào.

Chưa có bình luận nào.