7 điểm bởi GN⁺ 2024-11-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Nhóm nghiên cứu Qwen của Alibaba đã công bố Qwen2.5-Coder, một dòng LLM mã nguồn mở (giấy phép Apache 2.0)
  • Mô hình Qwen2.5-Coder-32B-Instruct được cho là có năng lực lập trình ở mức GPT-4o
  • Mô hình 32B là một mô hình tương đối nhỏ, đủ để chạy được ngay cả trên MacBook Pro M2 64GB
  • Trong các bài đo benchmark, mô hình này đạt điểm tương đương hoặc cao hơn GPT-4oClaude 3.5 Sonnet

So sánh hiệu năng benchmark

  • Mô hình Qwen2.5-Coder-32B-Instruct nổi bật trong các benchmark sau:
    • Trên LiveCodeBench, Spider, BIRD-SQL, mô hình đạt hiệu năng tốt hơn GPT-4o và Claude 3.5 Sonnet
    • Trên MBPP, Aider, CodeArena, hiệu năng hơi kém hơn một chút
    • Trên HumanEval, McEval, hiệu năng ở mức tương đương

Hiệu năng trong benchmark Aider

  • Mô hình cũng cho thấy kết quả tốt trong benchmark Aider của Paul Gauthier
    • Trong benchmark "Whole edit", Qwen2.5-Coder-32B-Instruct đạt hiệu năng nằm giữa GPT-4o và 3.5 Haiku
    • So sánh điểm số:
      • 3.5 Sonnet: 84%
      • 3.5 Haiku: 75%
      • Qwen2.5-Coder 32B: 74%
      • GPT-4o: 71%
      • Qwen2.5-Coder 14B: 69%
      • Qwen2.5-Coder 7B: 58%
    • Trong benchmark "Diff", mô hình đồng điểm với GPT-4ohơi kém Claude 3.5 Haiku

Thử nghiệm chạy Qwen2.5-Coder trên Mac

  • Người dùng đã thử chạy mô hình Qwen2.5-Coder-32B-Instruct-GGUF Q8 bằng llm-gguf, nhưng vì không sử dụng GPU nên tốc độ chậm
  • Các phiên bản OllamaMLX hoạt động tốt trên MacBook
  • Cách cài đặt Ollama:
    • Dùng lệnh ollama pull qwen2.5-coder:32b để tải về tệp lượng tử hóa dung lượng 20GB
    • Khi yêu cầu tạo hàm Python, mô hình hoạt động thành công ngoại trừ vấn đề ssl
  • Sử dụng MLX:
    • Hiệu năng được cải thiện nhờ framework MLX dành cho Apple Silicon
    • Đã chạy mã tạo fractal Mandelbrot trong terminal và hiển thị thành công dưới dạng ASCII art
    • Chỉ số hiệu năng:
      • Tốc độ sinh token: 10.016 tokens/sec
      • Mức dùng bộ nhớ: tối đa 32.685GB

Thử nghiệm bổ sung: benchmark Pelican on a bicycle

  • Thực hiện yêu cầu llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
  • Kết quả là một hình SVG chim bồ nông và xe đạp có hình dạng chưa thật rõ ràng, nhưng vẫn khá thú vị về mặt trải nghiệm người dùng

Kết luận và trải nghiệm người dùng

  • Mức sử dụng bộ nhớ 32GB đủ để chạy được trên Mac, vẫn có thể dùng mà không cần đóng các ứng dụng khác
  • Về tốc độ và chất lượng đầu ra, mô hình đủ sức cạnh tranh với các mô hình host hiện có
  • Do 80% nhu cầu dùng LLM của người dùng liên quan đến viết mã, Qwen2.5-Coder có vẻ sẽ là một cải thiện đáng kể

1 bình luận

 
savvykang 2024-11-15

Trường hợp này hơi khác với kịch bản người dùng về coding, nhưng tôi rất tò mò Claude đã triển khai chế độ JSON như thế nào. Một số mô hình được host, dù có hướng chúng tạo đầu ra JSON, vẫn lại tạo ra JavaScript có chú thích hoặc văn bản Markdown. Theo trải nghiệm đã thử vài lần với các mô hình được host, dùng dịch vụ managed cho kết quả khiến tôi hài lòng hơn. Có vẻ vẫn còn thứ gì đó mà mô hình được host không thể tự triển khai.