Alibaba công bố mô hình Qwen 2

xguru · 2024-06-08T10:02:01+09:00

Qwen2 là mô hình phát triển từ Qwen1.5, bao gồm các mô hình tiền huấn luyện và tinh chỉnh theo chỉ thị với 5 kích thước Kích thước mô hình gồm Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B Ngoài tiếng Anh và tiếng Trung, mô hình được huấn luyện bổ sung dữ liệu bằng 27 ngôn ngữ khác Thể hiện hiệu năng tiên tiến hàng đầu trong nhiều bài đánh giá benchmark, với cải thiện lớn ở các lĩnh vực lập trình và toán học Các mô hình Qwen2-7B-Instruct và Qwen2-72B-Instruct hỗ trợ độ dài ngữ cảnh mở rộng lên tới 128K token nhờ sử dụng YARN Thông tin về mô hình Qwen2 Áp dụng Group Query Attention (GQA) cho mọi kích thước mô hình để tăng tốc suy luận và giảm mức sử dụng bộ nhớ Với các mô hình nhỏ, ưu tiên áp dụng kỹ thuật embedding tying Các mô hình tinh chỉnh theo chỉ thị được đánh giá khả năng xử lý độ dài ngữ cảnh thông qua tác vụ Needle in a Haystack Nhờ công nghệ YARN, Qwen2-7B-Instruct và Qwen2-72B-Instruct có thể xử lý tới 128K token Hiệu năng Tăng cường năng lực đa ngôn ngữ bằng cách tiền huấn luyện và tinh chỉnh theo chỉ thị trên bộ dữ liệu gồm 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung Khả năng xử lý code-switching được cải thiện đáng kể Nhờ sử dụng bộ dữ liệu tiền huấn luyện và phương pháp huấn luyện tối ưu, Qwen2-72B cho hiệu năng vượt trội so với các mô hình mới nhất như Llama-3-70B Thông qua hậu huấn luyện, mô hình tiếp tục được nâng cao năng lực về lập trình, toán học, suy luận, thực thi chỉ thị, hiểu đa ngôn ngữ, đồng thời đạt được sự căn chỉnh với các giá trị của con người Trên 16 benchmark, Qwen2-72B-Instruct vượt xa Qwen1.5-72B-Chat và cho thấy hiệu năng ngang tầm Llama-3-70B-Instruct Các mô hình Qwen2 kích thước nhỏ hơn cũng vượt qua những mô hình SOTA có quy mô tương đương hoặc lớn hơn. Đặc biệt nổi bật ở các chỉ số liên quan đến lập trình và tiếng Trung Các điểm chính Tích hợp kinh nghiệm và dữ liệu huấn luyện mã nguồn của CodeQwen1.5 để cải thiện mạnh hiệu năng của Qwen2-72B-Instruct trên nhiều ngôn ngữ lập trình Tăng cường khả năng giải toán của Qwen2-72B-Instruct bằng cách sử dụng bộ dữ liệu chất lượng cao và phạm vi rộng Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin với độ dài 128K Cũng đã mã nguồn mở một giải pháp agent hiệu quả để xử lý tài liệu dài 1 triệu token Kết quả đánh giá tỷ lệ phản hồi có hại trước 4 loại truy vấn độc hại đa ngôn ngữ cho thấy Qwen2-72B-Instruct có mức độ an toàn tương đương GPT-4 và vượt trội đáng kể so với Mistral-8x22B Ứng dụng của Qwen2 Tất cả mô hình đều được công bố trên Hugging Face và ModelScope để có thể tự do sử dụng Qwen2-72B và các mô hình tinh chỉnh theo chỉ thị sử dụng Qianwen License, các mô hình còn lại áp dụng giấy phép Apache 2.0 Cách sử dụng Qwen2 cùng nhiều framework bên thứ ba có thể tham khảo trong tài liệu của từng framework và tài liệu chính thức Kế hoạch tương lai của Qwen2 Dự kiến huấn luyện các mô hình Qwen2 lớn hơn để khám phá việc mở rộng quy mô mô hình cùng với mở rộng quy mô dữ liệu Có kế hoạch mở rộng Qwen2 thành mô hình ngôn ngữ đa phương thức có thể hiểu cả thông tin thị giác và thính giác Trong tương lai sẽ tiếp tục mã nguồn mở các mô hình mới để thúc đẩy sự phát triển của AI nguồn mở

(qwenlm.github.io)

5 điểm bởi xguru 2024-06-08 | 1 bình luận | Chia sẻ qua WhatsApp

Qwen2 là mô hình phát triển từ Qwen1.5, bao gồm các mô hình tiền huấn luyện và tinh chỉnh theo chỉ thị với 5 kích thước
- Kích thước mô hình gồm Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
Ngoài tiếng Anh và tiếng Trung, mô hình được huấn luyện bổ sung dữ liệu bằng 27 ngôn ngữ khác
Thể hiện hiệu năng tiên tiến hàng đầu trong nhiều bài đánh giá benchmark, với cải thiện lớn ở các lĩnh vực lập trình và toán học
Các mô hình Qwen2-7B-Instruct và Qwen2-72B-Instruct hỗ trợ độ dài ngữ cảnh mở rộng lên tới 128K token nhờ sử dụng YARN

Thông tin về mô hình Qwen2

Áp dụng Group Query Attention (GQA) cho mọi kích thước mô hình để tăng tốc suy luận và giảm mức sử dụng bộ nhớ
Với các mô hình nhỏ, ưu tiên áp dụng kỹ thuật embedding tying
Các mô hình tinh chỉnh theo chỉ thị được đánh giá khả năng xử lý độ dài ngữ cảnh thông qua tác vụ Needle in a Haystack
Nhờ công nghệ YARN, Qwen2-7B-Instruct và Qwen2-72B-Instruct có thể xử lý tới 128K token

Hiệu năng

Tăng cường năng lực đa ngôn ngữ bằng cách tiền huấn luyện và tinh chỉnh theo chỉ thị trên bộ dữ liệu gồm 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung
Khả năng xử lý code-switching được cải thiện đáng kể
Nhờ sử dụng bộ dữ liệu tiền huấn luyện và phương pháp huấn luyện tối ưu, Qwen2-72B cho hiệu năng vượt trội so với các mô hình mới nhất như Llama-3-70B
Thông qua hậu huấn luyện, mô hình tiếp tục được nâng cao năng lực về lập trình, toán học, suy luận, thực thi chỉ thị, hiểu đa ngôn ngữ, đồng thời đạt được sự căn chỉnh với các giá trị của con người
Trên 16 benchmark, Qwen2-72B-Instruct vượt xa Qwen1.5-72B-Chat và cho thấy hiệu năng ngang tầm Llama-3-70B-Instruct
Các mô hình Qwen2 kích thước nhỏ hơn cũng vượt qua những mô hình SOTA có quy mô tương đương hoặc lớn hơn. Đặc biệt nổi bật ở các chỉ số liên quan đến lập trình và tiếng Trung

Các điểm chính

Tích hợp kinh nghiệm và dữ liệu huấn luyện mã nguồn của CodeQwen1.5 để cải thiện mạnh hiệu năng của Qwen2-72B-Instruct trên nhiều ngôn ngữ lập trình
Tăng cường khả năng giải toán của Qwen2-72B-Instruct bằng cách sử dụng bộ dữ liệu chất lượng cao và phạm vi rộng
Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin với độ dài 128K
Cũng đã mã nguồn mở một giải pháp agent hiệu quả để xử lý tài liệu dài 1 triệu token
Kết quả đánh giá tỷ lệ phản hồi có hại trước 4 loại truy vấn độc hại đa ngôn ngữ cho thấy Qwen2-72B-Instruct có mức độ an toàn tương đương GPT-4 và vượt trội đáng kể so với Mistral-8x22B

Ứng dụng của Qwen2

Tất cả mô hình đều được công bố trên Hugging Face và ModelScope để có thể tự do sử dụng
Qwen2-72B và các mô hình tinh chỉnh theo chỉ thị sử dụng Qianwen License, các mô hình còn lại áp dụng giấy phép Apache 2.0
Cách sử dụng Qwen2 cùng nhiều framework bên thứ ba có thể tham khảo trong tài liệu của từng framework và tài liệu chính thức

Kế hoạch tương lai của Qwen2

Dự kiến huấn luyện các mô hình Qwen2 lớn hơn để khám phá việc mở rộng quy mô mô hình cùng với mở rộng quy mô dữ liệu
Có kế hoạch mở rộng Qwen2 thành mô hình ngôn ngữ đa phương thức có thể hiểu cả thông tin thị giác và thính giác
Trong tương lai sẽ tiếp tục mã nguồn mở các mô hình mới để thúc đẩy sự phát triển của AI nguồn mở

1 bình luận

xguru 2024-06-08

Alibaba, công bố mô hình AI mã nguồn mở QWEN
Qwen1.5-110B : mô hình 100B+ đầu tiên của dòng LLM mã nguồn mở Qwen1.5 của Alibaba