- Một phiên bản nhỏ hơn của mô hình đa phương thức (hình ảnh + văn bản) mà họ sử dụng trong sản phẩm
- Kiến trúc và quy trình huấn luyện rất đơn giản (không có bộ mã hóa hình ảnh)
- Được thiết kế cho tác tử số, hỗ trợ độ phân giải hình ảnh tùy ý và có thể trả lời về biểu đồ, sơ đồ cũng như các câu hỏi dựa trên UI
- Nhanh đến mức có thể tạo câu trả lời trong vòng 100ms ngay cả với hình ảnh lớn
- Dù được tối ưu cho các trường hợp sử dụng của họ, hiệu năng trên các benchmark tiêu chuẩn về hiểu hình ảnh vẫn rất xuất sắc
- Được phát hành theo giấy phép CC-BY-NC
Chưa có bình luận nào.