19 điểm bởi davespark 2025-11-27 | 1 bình luận | Chia sẻ qua WhatsApp

LEAF (Lightweight Embedding Alignment Framework) là mô hình embedding do MongoDB Research phát triển, sử dụng kỹ thuật chưng cất tri thức để giải quyết bài toán chi phí và tốc độ của các hệ thống RAG (Retrieval-Augmented Generation). Trong khi các mô hình embedding hiệu năng cao hiện nay đòi hỏi máy chủ GPU, LEAF là một mô hình nhỏ chỉ với 23M tham số nhưng vẫn đạt 97% hiệu năng của text-embedding-3-large của OpenAI và có thể chạy hoàn toàn bằng CPU.

Bối cảnh và vấn đề
  • Trong hệ thống RAG, việc lập chỉ mục tài liệu có thể chậm, nhưng phản hồi truy vấn của người dùng phải diễn ra trong vòng vài trăm mili giây.
  • Khi dùng mô hình hiệu năng cao, chi phí GPU trở thành gánh nặng; còn nếu chuyển sang mô hình chi phí thấp thì hiệu năng lại suy giảm.
  • LEAF giải quyết vấn đề này bằng “tính tương thích giữa mô hình giáo viên và học sinh”.
  • Thay vì căn chỉnh mọi lớp như các phương pháp chưng cất truyền thống, LEAF chỉ căn chỉnh đầu ra cuối cùng (embedding). Nhờ vậy, có thể dùng mô hình giáo viên lớn để lập chỉ mục tài liệu và dùng mô hình học sinh nhỏ để xử lý truy vấn nhanh trên CPU, đồng thời vẫn tái sử dụng được chỉ mục hiện có khi thay đổi mô hình.
  • Mô hình có thể được huấn luyện chỉ với một GPU A100 mà không cần gán nhãn dữ liệu, giúp tăng đáng kể tính tiếp cận.
Các mô hình được công bố và hiệu năng

MongoDB đã công bố hai mô hình theo giấy phép Apache 2.0:

  • mdbr-leaf-ir: mô hình tối ưu cho tìm kiếm/RAG. Đạt 53,55 điểm trên benchmark BEIR (vượt OpenAI small với 51,08 điểm và bằng 97% mức 55,43 điểm của large).
  • mdbr-leaf-mt: mô hình đa dụng (phân loại/clustering). Đạt 63,97 điểm trên MTEB v2 (tiệm cận OpenAI small với 64,56 điểm), là mức hiệu năng cao nhất trong nhóm dưới 30M tham số.

Các mô hình này có thể xử lý 120 truy vấn/giây trên CPU 2 lõi, chỉ dùng 87MB bộ nhớ, nên có thể chạy offline trên smartphone hoặc thiết bị IoT.

Kết luận và ý nghĩa
  • LEAF giúp dân chủ hóa embedding hiệu năng cao bằng cách giảm phụ thuộc vào GPU, đồng thời thúc đẩy việc triển khai RAG trong các startup hoặc môi trường edge computing.
  • Hạn chế là mức suy giảm hiệu năng khoảng 3% so với mô hình gốc, nhưng trong phần lớn bài toán thực tế có thể xem là không đáng kể.
  • Mô hình và công thức huấn luyện có thể tải từ Hugging Face, đồng thời dễ fine-tune với dữ liệu theo từng miền.

1 bình luận

 
kaydash 2025-11-28

bge-m3 và gemma 300m chẳng phải cũng đã làm tốt và đủ nhỏ rồi sao