- PaliGemma là một mô hình đa phương thức, cho thấy hiệu năng vượt trội so với các VLM (mô hình thị giác-ngôn ngữ) khác trong các tác vụ như phát hiện và phân đoạn đối tượng
- Có thể fine-tune để cải thiện hiệu năng cho các tác vụ cụ thể
- Được công bố tại sự kiện Google I/O 2024. Kết hợp một mô hình thị giác tên là SigLIP với một mô hình ngôn ngữ lớn tên là Gemma.
- Gồm bộ giải mã Transformer và bộ mã hóa hình ảnh Vision Transformer, nhận cả hình ảnh lẫn văn bản làm đầu vào và xuất ra văn bản, đồng thời hỗ trợ nhiều ngôn ngữ
- Mô hình có kích thước tương đối nhỏ với 3 tỷ tham số kết hợp, được phép sử dụng thương mại và có thể fine-tune cho các tác vụ như chú thích ảnh/video ngắn, hỏi đáp trực quan, đọc văn bản, phát hiện đối tượng và phân đoạn đối tượng
- Là một VLM single-turn, hoạt động tốt nhất khi được fine-tune cho các trường hợp sử dụng cụ thể
- Phù hợp với các tác vụ như tạo chú thích ảnh, tạo chú thích video, trả lời câu hỏi trực quan và phân đoạn chi tiết
- Cho thấy hiệu năng xuất sắc trong nhiều tác vụ computer vision như OCR, hiểu tài liệu, visual question answering (VQA) và phát hiện đối tượng
- Hữu ích để xây dựng các ứng dụng tùy biến mà mô hình đóng khó giải quyết, đồng thời cho thấy hiệu năng hàng đầu về cả chất lượng lẫn chi phí trong lĩnh vực OCR
- Tuy vậy, do các giới hạn của VLM, mô hình không phù hợp với các bài toán suy luận mở, phức tạp và tinh vi; ngoài ra còn nhạy với prompt nên cần thận trọng khi sử dụng
- Việc công khai PaliGemma được kỳ vọng sẽ thúc đẩy mạnh mẽ AI đa phương thức. Đây là một mô hình mở gọn nhẹ, cho phép bất kỳ ai cũng có thể tự huấn luyện một mô hình thị giác-ngôn ngữ lớn theo nhu cầu và triển khai cho mục đích thương mại
- Các LMM trước đây rất đắt đỏ và đòi hỏi năng lực tính toán lớn, nhưng PaliGemma vượt qua những giới hạn này và là một mô hình đột phá để tạo ra các ứng dụng AI tùy biến
Chưa có bình luận nào.