5 điểm bởi GN⁺ 2025-03-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dựa trên dòng Qwen2.5-VL ra mắt vào tháng 1, mô hình đã được tối ưu hóa thông qua học tăng cường, và mô hình VL mới quy mô 32B tham số Qwen2.5-VL-32B-Instruct được mã nguồn mở theo giấy phép Apache 2.0
  • So với các mô hình trước đó, mô hình VL 32B này có những đặc điểm sau:
    • Phản hồi phù hợp hơn với sở thích của con người: Điều chỉnh phong cách đầu ra để cung cấp câu trả lời chi tiết hơn và được tổ chức tốt hơn.
    • Suy luận toán học: Độ chính xác trong việc giải các bài toán phức tạp được cải thiện đáng kể.
    • Hiểu và suy luận hình ảnh tinh vi: Độ chính xác và khả năng phân tích chi tiết được tăng cường trong các tác vụ như phân tích cú pháp hình ảnh, nhận diện nội dung và suy luận logic thị giác.

Hiệu năng

  • Qua quá trình benchmark rộng rãi với các mô hình mới nhất cùng phân khúc, Qwen2.5-VL-32B-Instruct vượt qua các mô hình tham chiếu như Mistral-Small-3.1-24B và Gemma-3-27B-IT, đồng thời còn cho thấy kết quả vượt trội hơn cả Qwen2-VL-72B-Instruct lớn hơn.
  • Đặc biệt, mô hình có lợi thế đáng kể trong các tác vụ đa phương thức đòi hỏi suy luận phức tạp và nhiều bước như MMMU, MMMU-ProMathVista.
  • Trên MM-MT-Bench, vốn nhấn mạnh đánh giá trải nghiệm người dùng mang tính chủ quan, mô hình cho kết quả vượt trội hơn Qwen2-VL-72B-Instruct với khoảng cách đáng kể.
  • Không chỉ ở năng lực thị giác, mô hình còn đạt hiệu năng hàng đầu trong năng lực thuần văn bản ở cùng quy mô.

1 bình luận

 
GN⁺ 2025-03-25
Ý kiến trên Hacker News
  • Đây là một ngày lớn cho việc ra mắt các mô hình mã nguồn mở của Trung Quốc. DeepSeek-v3-0324 đã được cập nhật và phát hành hôm nay với giấy phép MIT (trước đó là giấy phép DeepSeek tùy chỉnh)
  • Vài tháng trước tôi đã dùng Llama vision 3.2 và rất thất vọng về cả tốc độ lẫn chất lượng kết quả. Khi tìm giải pháp thay thế trên Hugging Face, tôi phát hiện ra Qwen. Sự khác biệt về độ chính xác và tốc độ là cực kỳ lớn. Khi yêu cầu nó phân tích hình ảnh và phản hồi, tôi nhận được câu trả lời đúng trong hầu hết trường hợp chỉ sau nửa giây trên 4090. Điều còn đáng kinh ngạc hơn là khi trích xuất tên thực thể từ hình ảnh, ngay cả khi tên bị cắt bớt, nó vẫn đưa ra tên đầy đủ (ví dụ: nếu "Coca-C" hiện mờ ở nền thì nó trả về "Coca-Cola"). Nó cũng xử lý tốt các thực thể ít được biết đến hoặc chỉ nổi tiếng ở một khu vực cụ thể. Từ khi dùng Qwen, tôi chưa quay lại Llama hay các mô hình thị giác khác
  • Mô hình 32B hiện là một trong những kích thước mô hình tôi thích nhất. Nó rất mạnh nhưng vẫn đủ nhỏ để chạy trên một GPU đơn hoặc một laptop Mac cấu hình vừa phải (từ 32GB RAM trở lên)
  • Mô hình này giờ đã có thể dùng trên MLX với nhiều kích cỡ khác nhau
    • Chạy bằng uv mà không cần cài thư viện
    • Tôi đã tải mô hình khoảng 18GB và nhận được kết quả rất ấn tượng
  • Có thể đây là câu hỏi ngớ ngẩn, nhưng tôi thắc mắc vì sao OpenAI, Claude v.v. vẫn có thể được định giá cao như vậy khi xét đến tất cả các mô hình mã nguồn mở. Tôi không nói rằng họ sẽ biến mất hay thu nhỏ lại, nhưng tôi tò mò vì sao họ lại có giá trị lớn đến thế
  • Các mô hình open-weight xuất hiện quá nhanh nên rất khó theo dõi. Tôi tự hỏi có ai đang duy trì một danh sách để cập nhật những gì đang là "mới nhất" ở từng mô hình không
  • Tôi muốn biết việc biến một mô hình thành multimodal ảnh hưởng thế nào đến khả năng xử lý văn bản. Bài viết nói rằng nó cũng hoạt động tốt với tác vụ thuần văn bản, nhưng tôi muốn biết có phân tích nào về mức độ ảnh hưởng thực tế hay không. Một số người cho rằng mô hình sẽ tốt hơn ở văn bản, nhưng tôi thấy khó tin nếu không có dữ liệu
  • Tôi muốn hiểu rõ hơn cần loại card đồ họa dung lượng bao nhiêu. Theo liên kết HuggingFace thì đây là bfloat16, nên có vẻ sẽ cần tối thiểu 64GB. Bản -7B có thể chạy trên card AMD 16GB của tôi không?
  • Qwen được phát triển bởi Alibaba Cloud (không hề được nhắc tới ở bất kỳ chỗ nào trong bài blog)
  • Hôm nay là Qwen, ngày mai là mô hình SOTA mới của Google, tuần sau dự kiến là R2. Chúng ta vẫn chưa chạm tới giới hạn