Gemini Embedding 2: Mô hình embedding đa phương thức native đầu tiên

(blog.google)

14 điểm bởi GN⁺ 2026-03-11 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình embedding đa phương thức hoàn chỉnh đầu tiên ánh xạ văn bản, hình ảnh, video, âm thanh và tài liệu vào một không gian embedding duy nhất đã được công bố ở bản xem trước công khai
Dựa trên kiến trúc Gemini, mô hình nắm bắt ý định ngữ nghĩa trong hơn 100 ngôn ngữ và hỗ trợ nhiều tác vụ hạ nguồn như RAG, tìm kiếm ngữ nghĩa, phân tích cảm xúc và phân cụm dữ liệu
Áp dụng kỹ thuật Matryoshka Representation Learning(MRL) để có thể linh hoạt giảm từ mặc định 3072 chiều, giúp cân bằng giữa hiệu năng và chi phí lưu trữ
Thiết lập chuẩn hiệu năng mới vượt qua các mô hình dẫn đầu hiện tại trong các tác vụ văn bản, hình ảnh và video, đồng thời mới bổ sung năng lực embedding giọng nói
Có thể dùng ngay qua Gemini API và Vertex AI, đồng thời hỗ trợ tích hợp với các framework bên thứ ba như LangChain, LlamaIndex và Weaviate

Modalities mới và kích thước đầu ra linh hoạt

Tận dụng năng lực hiểu đa phương thức dựa trên Gemini để tạo embedding chất lượng cao cho nhiều loại đầu vào khác nhau
- Văn bản: hỗ trợ ngữ cảnh rộng với tối đa 8192 token đầu vào
- Hình ảnh: xử lý tối đa 6 hình ảnh mỗi yêu cầu, hỗ trợ định dạng PNG và JPEG
- Video: hỗ trợ đầu vào video tối đa 120 giây ở định dạng MP4, MOV
- Âm thanh: embedding native dữ liệu âm thanh mà không cần chuyển thành văn bản trung gian
- Tài liệu: embedding trực tiếp PDF tối đa 6 trang
Không chỉ một modality đơn lẻ mà còn có thể gửi đầu vào xen kẽ (ví dụ: hình ảnh + văn bản) trong một yêu cầu, nhờ đó nắm bắt được cả những mối quan hệ phức tạp và tinh vi giữa các loại media khác nhau
Với kỹ thuật Matryoshka Representation Learning(MRL), thông tin được lồng theo tầng (nest) để có thể giảm số chiều một cách động
- Linh hoạt scale down từ mặc định 3072 chiều xuống 1536, 768...
- Để đạt chất lượng cao nhất, khuyến nghị dùng các mức 3072, 1536, 768 chiều

Không chỉ là cải tiến đơn thuần so với mô hình legacy mà còn thiết lập tiêu chuẩn hiệu năng mới về chiều sâu đa phương thức
Vượt qua các mô hình dẫn đầu hiện tại trong các tác vụ văn bản, hình ảnh và video, đồng thời mới giới thiệu năng lực embedding giọng nói mạnh mẽ
Mang lại mức cải thiện hiệu năng có thể đo lường được cùng phạm vi bao phủ đa phương thức độc đáo để đáp ứng nhiều nhu cầu embedding khác nhau

Công nghệ embedding là công nghệ cốt lõi vận hành trải nghiệm trong nhiều sản phẩm của Google, được ứng dụng từ context engineering cho RAG đến quản lý dữ liệu quy mô lớn, tìm kiếm và phân tích
Everlaw (Max Christoff, CTO): áp dụng Gemini Embedding để giúp chuyên gia pháp lý tìm thông tin trọng yếu trong quy trình discovery tố tụng, cải thiện precision và recall trên hàng triệu bản ghi, đồng thời tận dụng khả năng tìm kiếm mới mạnh mẽ cho hình ảnh và video
Sparkonomy (Guneet Singh, đồng sáng lập): sử dụng làm nền tảng cho Creator Economic Equality Engine; nhờ đa phương thức native đã giảm độ trễ tới 70%, gần như tăng gấp đôi điểm tương đồng ngữ nghĩa của các cặp văn bản-hình ảnh và văn bản-video từ 0.4 lên 0.8, đồng thời lập chỉ mục hàng triệu phút video với độ chính xác chưa từng có
Mindlid (Ertuğrul Çavuşoğlu, đồng sáng lập): có tính liên tục API vượt trội cho phép áp dụng ngay với thay đổi tối thiểu trong workflow hiện tại; đang thử nghiệm cách embedding bộ nhớ hội thoại dựa trên văn bản cùng với embedding âm thanh và hình ảnh, và đã xác nhận top-1 recall tăng 20% trong ứng dụng chăm sóc sức khỏe cá nhân

Có thể sử dụng mô hình Gemini Embedding 2 qua Gemini API hoặc Vertex AI
Cung cấp ví dụ mã bằng Python SDK để embedding văn bản, hình ảnh và âm thanh trong một lần gọi duy nhất
Cung cấp notebook Colab tương tác cho Gemini API và Vertex AI
Hỗ trợ tích hợp với các công cụ bên thứ ba chủ chốt như LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB và Vector Search