Qwen2.5 - Công bố nhiều foundation model

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 bao gồm các mô hình chuyên biệt như LLM Qwen2.5, Qwen2.5-Coder cho lập trình, và Qwen2.5-Math cho toán học Tất cả các mô hình open-weight đều là mô hình ngôn ngữ dense decoder-only và được cung cấp với nhiều kích thước từ 0.5B đến 72B Tất cả các mô hình mã nguồn mở, ngoại trừ bản 3B và 72B, đều được cung cấp theo giấy phép Apache 2.0 Các mô hình ngôn ngữ flagship Qwen-Plus và Qwen-Turbo được cung cấp dưới dạng API thông qua Model Studio Qwen2-VL-72B cũng đã được phát hành mã nguồn mở và có hiệu năng tốt hơn phiên bản tháng trước Điểm nổi bật của Qwen2.5 Được tiền huấn luyện trên tập dữ liệu quy mô lớn lên tới 18 nghìn tỷ token, giúp kiến thức tăng đáng kể so với Qwen2 (MMLU: 85+) Năng lực lập trình (HumanEval 85+) và toán học (MATH 80+) cũng được cải thiện mạnh Khả năng tuân theo chỉ thị, tạo văn bản dài (trên 8K token), hiểu dữ liệu có cấu trúc (ví dụ: bảng), và tạo đầu ra có cấu trúc như JSON đã được cải thiện đáng kể Trở nên vững vàng hơn trước sự đa dạng của system prompt, giúp việc thiết lập vai trò và điều kiện cho chatbot dễ dàng hơn Tương tự Qwen2, mô hình ngôn ngữ Qwen2.5 hỗ trợ tối đa 128K token và có thể tạo ra tối đa 8K token Hỗ trợ hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Đức, tiếng Ý, tiếng Nga, tiếng Nhật, tiếng Hàn, tiếng Việt, tiếng Thái và tiếng Ả Rập Hiệu năng Qwen2.5 Hiệu năng của Qwen2.5-72B (mô hình ngôn ngữ dense decoder-only 72B tham số, lớn nhất trong nhóm mã nguồn mở) được so sánh với các mô hình mã nguồn mở chủ chốt như Llama-3.1-70B và Mistral-Large-V2 Cung cấp kết quả toàn diện của các phiên bản instruction-tuned trên nhiều benchmark khác nhau, đánh giá cả năng lực mô hình lẫn mức độ ưa thích của con người Ngoài các mô hình ngôn ngữ đã instruction-tuned, mô hình base của Qwen2.5-72B cũng cho thấy hiệu năng hàng đầu ngay cả khi so với các mô hình lớn hơn như Llama-3-405B Phiên bản mới nhất của mô hình API Qwen-Plus được so sánh với các mô hình độc quyền và mã nguồn mở nổi tiếng như GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B và DeepSeek-V2.5 Qwen-Plus vượt trội đáng kể so với DeepSeek-V2.5 và cho hiệu năng ngang ngửa Llama-3.1-405B, nhưng ở một số khía cạnh vẫn chưa bằng GPT4-o và Claude-3.5-Sonnet Qwen2.5-14B và Qwen2.5-32B được giới thiệu trở lại. Các mô hình này vượt qua những mô hình đối chiếu có kích thước tương đương hoặc lớn hơn như Phi-3.5-MoE-Instruct và Gemma2-27B-IT Mô hình API Qwen-Turbo cung cấp dịch vụ nhanh với mức giá hợp lý và cho hiệu năng rất cạnh tranh so với hai mô hình mã nguồn mở Qwen2.5-3B đạt hiệu năng rất ấn tượng với khoảng 3 tỷ tham số, đồng thời vượt trội về hiệu quả và năng lực so với phiên bản trước Ngoài việc cải thiện đánh giá benchmark, phương pháp huấn luyện hậu kỳ cũng được nâng cấp. Bốn cập nhật chính gồm hỗ trợ tạo văn bản dài tới 8K token, cải thiện mạnh khả năng hiểu dữ liệu có cấu trúc, tăng độ tin cậy khi tạo đầu ra có cấu trúc như JSON, và nâng cao hiệu năng trên nhiều system prompt khác nhau để hỗ trợ thực hiện vai trò tốt hơn Qwen2.5-Coder Kể từ khi CodeQwen1.5 ra mắt, ngày càng nhiều người dùng dựa vào mô hình này cho nhiều tác vụ lập trình như gỡ lỗi, trả lời câu hỏi về code, và gợi ý mã Phiên bản mới nhất Qwen2.5-Coder được thiết kế đặc biệt cho các ứng dụng lập trình Dù kích thước nhỏ, nó vẫn thể hiện năng lực lập trình xuất sắc, thậm chí vượt qua các mô hình ngôn ngữ lớn hơn trên nhiều ngôn ngữ lập trình và tác vụ khác nhau Qwen2.5-Math Tháng trước, mô hình ngôn ngữ chuyên toán Qwen2-Math đã được phát hành lần đầu; so với Qwen2-Math, Qwen2.5-Math được tiền huấn luyện trên lượng dữ liệu liên quan đến toán học lớn hơn, bao gồm cả dữ liệu tổng hợp do Qwen2-Math tạo ra Lần này, hỗ trợ tiếng Trung đã được mở rộng, đồng thời mô hình được tăng cường khả năng thực hiện CoT, PoT và TIR để cải thiện năng lực suy luận Hiệu năng tổng thể của Qwen2.5-Math-72B-Instruct vượt qua Qwen2-Math-72B-Instruct và GPT4-o; ngay cả một mô hình chuyên biệt rất nhỏ như Qwen2.5-Math-1.5B-Instruct cũng có thể cho hiệu năng cực kỳ cạnh tranh khi so với các mô hình ngôn ngữ lớn Phát triển với Qwen2.5 Để sử dụng Qwen2.5 cùng với vLLM, có thể triển khai dịch vụ tương thích OpenAI API bằng lệnh sau: Qwen2.5 hỗ trợ tool calling tích hợp sẵn của vllm. Tính năng này yêu cầu vllm>=0.6 Qwen2.5 cũng hỗ trợ tool calling của Ollama Cũng có thể sử dụng hỗ trợ tool calling của transformers trên Hugging Face Trước đây, Qwen-Agent đã hỗ trợ tool calling bằng template tool calling riêng của Qwen2, và Qwen2.5 vẫn duy trì khả năng tương thích với template của Qwen2 cũng như Qwen-Agent Kế hoạch tiếp theo là gì? Dù vui mừng khi có thể đồng thời phát hành nhiều mô hình chất lượng cao, nhóm vẫn nhận thức rằng còn những thách thức lớn cần giải quyết Những đợt phát hành gần đây cho thấy họ đang nỗ lực phát triển các foundation model mạnh mẽ trong các lĩnh vực ngôn ngữ, thị giác-ngôn ngữ và âm thanh-ngôn ngữ Tuy nhiên, điều quan trọng là phải hợp nhất các modality khác nhau này vào một mô hình duy nhất để có thể xử lý thông tin liền mạch trên mọi lĩnh vực Dù đã cải thiện năng lực suy luận thông qua mở rộng dữ liệu, họ cũng đang lấy cảm hứng từ các tiến bộ gần đây trong học tăng cường để tập trung mở rộng inference compute nhằm tiếp tục nâng cao hơn nữa năng lực suy luận của mô hình

(qwenlm.github.io)

7 điểm bởi xguru 2024-09-20 | 1 bình luận | Chia sẻ qua WhatsApp

Qwen2.5 bao gồm các mô hình chuyên biệt như LLM Qwen2.5, Qwen2.5-Coder cho lập trình, và Qwen2.5-Math cho toán học
Tất cả các mô hình open-weight đều là mô hình ngôn ngữ dense decoder-only và được cung cấp với nhiều kích thước từ 0.5B đến 72B
Tất cả các mô hình mã nguồn mở, ngoại trừ bản 3B và 72B, đều được cung cấp theo giấy phép Apache 2.0
Các mô hình ngôn ngữ flagship Qwen-Plus và Qwen-Turbo được cung cấp dưới dạng API thông qua Model Studio
Qwen2-VL-72B cũng đã được phát hành mã nguồn mở và có hiệu năng tốt hơn phiên bản tháng trước

Điểm nổi bật của Qwen2.5

Được tiền huấn luyện trên tập dữ liệu quy mô lớn lên tới 18 nghìn tỷ token, giúp kiến thức tăng đáng kể so với Qwen2 (MMLU: 85+)
Năng lực lập trình (HumanEval 85+) và toán học (MATH 80+) cũng được cải thiện mạnh
Khả năng tuân theo chỉ thị, tạo văn bản dài (trên 8K token), hiểu dữ liệu có cấu trúc (ví dụ: bảng), và tạo đầu ra có cấu trúc như JSON đã được cải thiện đáng kể
Trở nên vững vàng hơn trước sự đa dạng của system prompt, giúp việc thiết lập vai trò và điều kiện cho chatbot dễ dàng hơn
Tương tự Qwen2, mô hình ngôn ngữ Qwen2.5 hỗ trợ tối đa 128K token và có thể tạo ra tối đa 8K token
Hỗ trợ hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Đức, tiếng Ý, tiếng Nga, tiếng Nhật, tiếng Hàn, tiếng Việt, tiếng Thái và tiếng Ả Rập

Hiệu năng

Qwen2.5

Hiệu năng của Qwen2.5-72B (mô hình ngôn ngữ dense decoder-only 72B tham số, lớn nhất trong nhóm mã nguồn mở) được so sánh với các mô hình mã nguồn mở chủ chốt như Llama-3.1-70B và Mistral-Large-V2
Cung cấp kết quả toàn diện của các phiên bản instruction-tuned trên nhiều benchmark khác nhau, đánh giá cả năng lực mô hình lẫn mức độ ưa thích của con người
Ngoài các mô hình ngôn ngữ đã instruction-tuned, mô hình base của Qwen2.5-72B cũng cho thấy hiệu năng hàng đầu ngay cả khi so với các mô hình lớn hơn như Llama-3-405B
Phiên bản mới nhất của mô hình API Qwen-Plus được so sánh với các mô hình độc quyền và mã nguồn mở nổi tiếng như GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B và DeepSeek-V2.5
- Qwen-Plus vượt trội đáng kể so với DeepSeek-V2.5 và cho hiệu năng ngang ngửa Llama-3.1-405B, nhưng ở một số khía cạnh vẫn chưa bằng GPT4-o và Claude-3.5-Sonnet
Qwen2.5-14B và Qwen2.5-32B được giới thiệu trở lại. Các mô hình này vượt qua những mô hình đối chiếu có kích thước tương đương hoặc lớn hơn như Phi-3.5-MoE-Instruct và Gemma2-27B-IT
Mô hình API Qwen-Turbo cung cấp dịch vụ nhanh với mức giá hợp lý và cho hiệu năng rất cạnh tranh so với hai mô hình mã nguồn mở
Qwen2.5-3B đạt hiệu năng rất ấn tượng với khoảng 3 tỷ tham số, đồng thời vượt trội về hiệu quả và năng lực so với phiên bản trước
Ngoài việc cải thiện đánh giá benchmark, phương pháp huấn luyện hậu kỳ cũng được nâng cấp. Bốn cập nhật chính gồm hỗ trợ tạo văn bản dài tới 8K token, cải thiện mạnh khả năng hiểu dữ liệu có cấu trúc, tăng độ tin cậy khi tạo đầu ra có cấu trúc như JSON, và nâng cao hiệu năng trên nhiều system prompt khác nhau để hỗ trợ thực hiện vai trò tốt hơn

Qwen2.5-Coder

Kể từ khi CodeQwen1.5 ra mắt, ngày càng nhiều người dùng dựa vào mô hình này cho nhiều tác vụ lập trình như gỡ lỗi, trả lời câu hỏi về code, và gợi ý mã
Phiên bản mới nhất Qwen2.5-Coder được thiết kế đặc biệt cho các ứng dụng lập trình
Dù kích thước nhỏ, nó vẫn thể hiện năng lực lập trình xuất sắc, thậm chí vượt qua các mô hình ngôn ngữ lớn hơn trên nhiều ngôn ngữ lập trình và tác vụ khác nhau

Qwen2.5-Math

Tháng trước, mô hình ngôn ngữ chuyên toán Qwen2-Math đã được phát hành lần đầu; so với Qwen2-Math, Qwen2.5-Math được tiền huấn luyện trên lượng dữ liệu liên quan đến toán học lớn hơn, bao gồm cả dữ liệu tổng hợp do Qwen2-Math tạo ra
Lần này, hỗ trợ tiếng Trung đã được mở rộng, đồng thời mô hình được tăng cường khả năng thực hiện CoT, PoT và TIR để cải thiện năng lực suy luận
Hiệu năng tổng thể của Qwen2.5-Math-72B-Instruct vượt qua Qwen2-Math-72B-Instruct và GPT4-o; ngay cả một mô hình chuyên biệt rất nhỏ như Qwen2.5-Math-1.5B-Instruct cũng có thể cho hiệu năng cực kỳ cạnh tranh khi so với các mô hình ngôn ngữ lớn

Phát triển với Qwen2.5

Để sử dụng Qwen2.5 cùng với vLLM, có thể triển khai dịch vụ tương thích OpenAI API bằng lệnh sau:
Qwen2.5 hỗ trợ tool calling tích hợp sẵn của vllm. Tính năng này yêu cầu vllm>=0.6
Qwen2.5 cũng hỗ trợ tool calling của Ollama
Cũng có thể sử dụng hỗ trợ tool calling của transformers trên Hugging Face
Trước đây, Qwen-Agent đã hỗ trợ tool calling bằng template tool calling riêng của Qwen2, và Qwen2.5 vẫn duy trì khả năng tương thích với template của Qwen2 cũng như Qwen-Agent

Kế hoạch tiếp theo là gì?

Dù vui mừng khi có thể đồng thời phát hành nhiều mô hình chất lượng cao, nhóm vẫn nhận thức rằng còn những thách thức lớn cần giải quyết
Những đợt phát hành gần đây cho thấy họ đang nỗ lực phát triển các foundation model mạnh mẽ trong các lĩnh vực ngôn ngữ, thị giác-ngôn ngữ và âm thanh-ngôn ngữ
Tuy nhiên, điều quan trọng là phải hợp nhất các modality khác nhau này vào một mô hình duy nhất để có thể xử lý thông tin liền mạch trên mọi lĩnh vực
Dù đã cải thiện năng lực suy luận thông qua mở rộng dữ liệu, họ cũng đang lấy cảm hứng từ các tiến bộ gần đây trong học tăng cường để tập trung mở rộng inference compute nhằm tiếp tục nâng cao hơn nữa năng lực suy luận của mô hình

1 bình luận

xguru 2024-09-20

Alibaba, công bố mô hình AI mã nguồn mở QWEN
Alibaba, công bố mô hình Qwen 2