- Dựa trên dòng Qwen2.5-VL ra mắt vào tháng 1, mô hình đã được tối ưu hóa thông qua học tăng cường, và mô hình VL mới quy mô 32B tham số Qwen2.5-VL-32B-Instruct được mã nguồn mở theo giấy phép Apache 2.0
- So với các mô hình trước đó, mô hình VL 32B này có những đặc điểm sau:
- Phản hồi phù hợp hơn với sở thích của con người: Điều chỉnh phong cách đầu ra để cung cấp câu trả lời chi tiết hơn và được tổ chức tốt hơn.
- Suy luận toán học: Độ chính xác trong việc giải các bài toán phức tạp được cải thiện đáng kể.
- Hiểu và suy luận hình ảnh tinh vi: Độ chính xác và khả năng phân tích chi tiết được tăng cường trong các tác vụ như phân tích cú pháp hình ảnh, nhận diện nội dung và suy luận logic thị giác.
Hiệu năng
- Qua quá trình benchmark rộng rãi với các mô hình mới nhất cùng phân khúc, Qwen2.5-VL-32B-Instruct vượt qua các mô hình tham chiếu như Mistral-Small-3.1-24B và Gemma-3-27B-IT, đồng thời còn cho thấy kết quả vượt trội hơn cả Qwen2-VL-72B-Instruct lớn hơn.
- Đặc biệt, mô hình có lợi thế đáng kể trong các tác vụ đa phương thức đòi hỏi suy luận phức tạp và nhiều bước như MMMU, MMMU-Pro và MathVista.
- Trên MM-MT-Bench, vốn nhấn mạnh đánh giá trải nghiệm người dùng mang tính chủ quan, mô hình cho kết quả vượt trội hơn Qwen2-VL-72B-Instruct với khoảng cách đáng kể.
- Không chỉ ở năng lực thị giác, mô hình còn đạt hiệu năng hàng đầu trong năng lực thuần văn bản ở cùng quy mô.
1 bình luận
Ý kiến trên Hacker News
uvmà không cần cài thư viện