21 điểm bởi xguru 2023-05-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Các ứng dụng AI phụ thuộc vào vector embedding
    • Embedding được tạo bởi các mô hình AI và khó quản lý vì có số lượng lớn thuộc tính/đặc trưng
    • Trong AI và ML, các đặc trưng này biểu diễn những chiều dữ liệu khác nhau, vốn thiết yếu để hiểu các mẫu, mối quan hệ và cấu trúc nền tảng
  • Các vector DB như Pinecone là những cơ sở dữ liệu được chuyên biệt hóa để lưu trữ và truy vấn loại dữ liệu embedding này theo cách tối ưu
  • Thông qua vector DB, có thể triển khai cho AI các tính năng nâng cao như truy xuất thông tin ngữ nghĩa, bộ nhớ dài hạn, v.v.
    • Tạo vector embedding cho nội dung cần lập chỉ mục thông qua mô hình embedding
    • Chèn các vector embedding vào vector DB, kèm theo tham chiếu đến nội dung gốc nơi embedding được tạo ra
    • Khi ứng dụng thực hiện truy vấn, sử dụng cùng mô hình embedding để tạo embedding cho truy vấn, rồi dùng embedding này để tìm kiếm trong DB nhằm tìm các vector embedding tương tự
    • Các embedding này được liên kết với nội dung gốc

Sự khác biệt giữa Vector Index và Vector DB

  • Các vector index như FAISS(Facebook AI Similarity Search) cũng cải thiện việc tìm kiếm vector embedding, nhưng không có các chức năng của một DB
  • Vector DB có nhiều ưu điểm
    • Chức năng quản lý dữ liệu: dễ chèn, xóa và cập nhật dữ liệu
    • Lưu trữ và lọc metadata: có thể lưu metadata cho từng vector
    • Khả năng mở rộng: cung cấp các tính năng xử lý phân tán và song song
    • Hỗ trợ cập nhật theo thời gian thực
    • Tính năng sao lưu và collection (chỉ chọn một phần chỉ mục để sao lưu)
    • Tích hợp hệ sinh thái: tích hợp với ETL(Spark), công cụ phân tích(Tableau, Segment), trực quan hóa(Grafana), cũng như công cụ AI(LangChain, LlamaIndex, ChatGPT Plugins)
    • Bảo mật dữ liệu và quản lý quyền truy cập

Vector DB hoạt động như thế nào? (chỉ chuyển phần tiêu đề phụ)

  • Thuật toán: ANN, Random Projection, Product Quantization, Locality-sensitive hashing, Hierarchical Navigable Small World (HSNW)
  • Đo độ tương đồng
  • Lọc
  • Các thao tác cơ sở dữ liệu

Tóm tắt

  • Khi vector embedding bùng nổ trong NLP, computer vision và các ứng dụng AI khác, vector database đã xuất hiện
  • Vector database được tạo ra chuyên biệt để giải quyết những vấn đề phát sinh khi quản lý vector embedding trong các kịch bản production
  • Mang lại những lợi thế đáng kể so với cơ sở dữ liệu dựa trên scalar truyền thống và vector index độc lập

Chưa có bình luận nào.

Chưa có bình luận nào.