Ra mắt PaliGemma 2
(developers.googleblog.com)Google đã công bố PaliGemma 2, mô hình thị giác-ngôn ngữ mới nhất trong dòng sản phẩm Gemma. PaliGemma 2 được xây dựng trên nền tảng mô hình Gemma 2 hiện có, đồng thời bổ sung khả năng hiểu và tương tác với hình ảnh để mở rộng tiềm năng cho nhiều ứng dụng AI khác nhau.
- Hiệu năng có thể mở rộng: Cung cấp nhiều kích thước mô hình (3B, 10B, 28B tham số) và độ phân giải (224px, 448px, 896px), mang lại hiệu năng tối ưu cho nhiều tác vụ khác nhau.
- Tạo chú thích dài: Tạo chú thích chi tiết và phù hợp ngữ cảnh cho hình ảnh, vượt ra ngoài việc chỉ nhận diện đối tượng đơn thuần để mô tả hành động, cảm xúc và câu chuyện tổng thể của khung cảnh.
- Mở rộng sang các lĩnh vực mới: Cho thấy hiệu năng vượt trội trong nhiều lĩnh vực như nhận diện công thức hóa học, nhận diện bản nhạc, suy luận không gian và tạo báo cáo X-quang ngực.
- Nâng cấp và tinh chỉnh dễ dàng: Người dùng PaliGemma hiện tại có thể nâng cấp một cách đơn giản, đồng thời dễ dàng tinh chỉnh mô hình cho các tác vụ và bộ dữ liệu cụ thể.
Mở rộng hệ sinh thái Gemmaverse:
Kể từ khi PaliGemma ra mắt, dòng sản phẩm Gemma đã nhanh chóng phát triển thành Gemmaverse, một hệ sinh thái sôi động với hàng chục nghìn mô hình và ứng dụng. Nhiều ví dụ đổi mới như bước tiến của ColPali trong tìm kiếm tài liệu trực quan, kỹ thuật tinh chỉnh của RoboFlow và các tiến bộ trong theo dõi đối tượng theo thời gian thực cho thấy tiềm năng của Gemmaverse.
Chưa có bình luận nào.