27 điểm bởi xguru 2024-05-31 | 3 bình luận | Chia sẻ qua WhatsApp

Các loại vector embedding

  • Word embedding: Biểu diễn từ trong NLP và nắm bắt quan hệ ngữ nghĩa giữa các từ. Được dùng cho dịch ngôn ngữ, độ tương đồng từ, phân tích cảm xúc, v.v.
  • Sentence embedding: Nắm bắt ý nghĩa và ngữ cảnh của câu, được dùng cho truy xuất thông tin, phân loại văn bản, phân tích cảm xúc, v.v.
  • Document embedding: Nắm bắt nội dung của các tài liệu như báo cáo hoặc bài báo, được dùng cho hệ thống gợi ý, truy xuất thông tin, độ tương đồng tài liệu và phân loại, v.v.
  • Graph embedding: Biểu diễn các node và edge của đồ thị trong không gian vector, được dùng cho phân loại node, phát hiện cộng đồng, dự đoán liên kết, v.v.
  • Image embedding: Biểu diễn nhiều khía cạnh khác nhau của hình ảnh, được dùng cho hệ thống gợi ý dựa trên nội dung, nhận dạng hình ảnh và đối tượng, hệ thống tìm kiếm hình ảnh, v.v.
  • Product embedding: Biểu diễn sản phẩm số hoặc sản phẩm vật lý, được dùng cho hệ thống gợi ý và phân loại sản phẩm, tìm kiếm sản phẩm, v.v.
  • Audio embedding: Biểu diễn nhịp điệu, âm sắc, cao độ của tín hiệu âm thanh, được dùng cho phát hiện cảm xúc, nhận dạng giọng nói, gợi ý âm nhạc, v.v.

Cách mạng nơ-ron tạo ra embedding

  • Học biểu diễn: Mạng nơ-ron ánh xạ dữ liệu nhiều chiều vào không gian có số chiều thấp hơn để giữ lại các đặc trưng quan trọng.
  • Quá trình huấn luyện: Mạng nơ-ron được huấn luyện để chuyển đổi dữ liệu thành các embedding có ý nghĩa. Điều này diễn ra trong quá trình điều chỉnh trọng số và bias của các neuron.
  • Ví dụ: Trong một mạng nơ-ron dùng để phân loại tích cực/tiêu cực cho review phim, word embedding được học. Các từ như "good" và "excellent" sẽ có embedding tương tự nhau.

Nguyên lý hoạt động của vector embedding

  • Không gian vector: Biểu diễn đối tượng hoặc đặc trưng dưới dạng các điểm trong không gian vector đa chiều, trong đó các mục tương tự nằm gần nhau.
  • Đo khoảng cách: Dùng khoảng cách Euclid, độ tương đồng cosine, v.v. để định lượng quan hệ giữa các vector.
  • Ví dụ: Vector của "cat" và "dog" sẽ nằm gần nhau hơn so với vector của "cat" và "car".

Phát triển ứng dụng với vector embedding

  • Chatbot: Phản hồi truy vấn của người dùng tốt hơn, tạo phản hồi liên quan về mặt ngữ cảnh và duy trì hội thoại nhất quán.
  • Công cụ tìm kiếm ngữ nghĩa: Cung cấp kết quả tìm kiếm dựa trên độ tương đồng ngữ nghĩa thay vì khớp từ khóa.
  • Hệ thống phân loại văn bản: Phân loại tài liệu dựa trên cú pháp và từ ngữ.
  • Hệ thống gợi ý: Gợi ý nội dung dựa trên độ tương đồng giữa từ khóa và mô tả.

Cách tạo vector embedding cho dữ liệu

  • Thu thập dữ liệu: Thu thập nhiều loại dữ liệu như văn bản, âm thanh, hình ảnh, dữ liệu chuỗi thời gian, v.v.
  • Tiền xử lý dữ liệu: Xử lý dữ liệu sao cho phù hợp với phân tích, chẳng hạn như tokenization, loại bỏ nhiễu, thay đổi kích thước ảnh, chuẩn hóa, v.v.
  • Phân chia dữ liệu: Chia văn bản thành câu hoặc từ, chia hình ảnh thành các segment, chia dữ liệu chuỗi thời gian theo khoảng.
  • Vector hóa: Chuyển từng phần dữ liệu thành vector. Dữ liệu văn bản dùng mô hình text embedding của OpenAI, dữ liệu hình ảnh dùng mô hình CNN, dữ liệu âm thanh dùng spectrogram, v.v.

Cách lưu trữ vector embedding

  • Cơ sở dữ liệu vector: Sử dụng cơ sở dữ liệu có thể lưu trữ và tìm kiếm dữ liệu vector hiệu quả.
  • PostgreSQL: Có thể lưu trữ dữ liệu vector cùng với dữ liệu quan hệ khác. Có thể dùng tiện ích mở rộng pgvector để lưu trữ và truy vấn vector.

3 bình luận

 
gcback 2024-05-31

Các mô hình ngôn ngữ đã tăng kích thước vector để nâng cao khả năng nắm bắt ngữ cảnh và ý nghĩa. Tuy nhiên, quan điểm chung là khi kích thước vector càng lớn thì do lời nguyền chiều không gian, khoảng cách Euclid không còn phù hợp làm thước đo độ tương đồng. Vì vậy, quan hệ giữa các vector (độ tương đồng) thường chủ yếu được đo bằng độ tương đồng cosine.

 
soon0698 2024-06-03

Đây là một ý kiến khiến tôi nhớ đến một bài báo gần đây tôi đã đọc. Đôi khi, tùy theo mô hình, ngay cả độ tương đồng cosine cũng có thể không có ý nghĩa. "Is Cosine-Similarity of Embeddings Really About Similarity?" (2024)