• Grok-1.5V, mô hình đa phương thức thế hệ đầu tiên, giờ đây ngoài khả năng xử lý văn bản mạnh mẽ còn có thể xử lý phạm vi rộng thông tin thị giác, bao gồm tài liệu, sơ đồ, biểu đồ, ảnh chụp màn hình và ảnh chụp.
• Grok-1.5V vượt trội hơn các mô hình đa phương thức hiện có trên nhiều lĩnh vực như suy luận liên ngành, hiểu tài liệu, sơ đồ khoa học, biểu đồ, ảnh chụp màn hình và ảnh chụp, đồng thời cho thấy khả năng xuất sắc trong việc hiểu thế giới vật lý.
• Giới thiệu RealWorldQA, một benchmark mới để đánh giá năng lực hiểu không gian thực tế cơ bản của mô hình đa phương thức, gồm hơn 700 hình ảnh với các câu hỏi và câu trả lời có thể dễ dàng kiểm chứng.
• Grok-1.5V sẽ sớm khả dụng cho những người thử nghiệm sớm và người dùng Grok hiện tại, đồng thời đang tích cực mở rộng các khả năng đa phương thức trên nhiều dạng dữ liệu như hình ảnh, âm thanh và video.
Chưa có bình luận nào.