5 điểm bởi xguru 2024-06-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • Qwen2 là mô hình phát triển từ Qwen1.5, bao gồm các mô hình tiền huấn luyện và tinh chỉnh theo chỉ thị với 5 kích thước
    • Kích thước mô hình gồm Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • Ngoài tiếng Anh và tiếng Trung, mô hình được huấn luyện bổ sung dữ liệu bằng 27 ngôn ngữ khác
  • Thể hiện hiệu năng tiên tiến hàng đầu trong nhiều bài đánh giá benchmark, với cải thiện lớn ở các lĩnh vực lập trình và toán học
  • Các mô hình Qwen2-7B-Instruct và Qwen2-72B-Instruct hỗ trợ độ dài ngữ cảnh mở rộng lên tới 128K token nhờ sử dụng YARN

Thông tin về mô hình Qwen2

  • Áp dụng Group Query Attention (GQA) cho mọi kích thước mô hình để tăng tốc suy luận và giảm mức sử dụng bộ nhớ
  • Với các mô hình nhỏ, ưu tiên áp dụng kỹ thuật embedding tying
  • Các mô hình tinh chỉnh theo chỉ thị được đánh giá khả năng xử lý độ dài ngữ cảnh thông qua tác vụ Needle in a Haystack
  • Nhờ công nghệ YARN, Qwen2-7B-Instruct và Qwen2-72B-Instruct có thể xử lý tới 128K token

Hiệu năng

  • Tăng cường năng lực đa ngôn ngữ bằng cách tiền huấn luyện và tinh chỉnh theo chỉ thị trên bộ dữ liệu gồm 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung
  • Khả năng xử lý code-switching được cải thiện đáng kể
  • Nhờ sử dụng bộ dữ liệu tiền huấn luyện và phương pháp huấn luyện tối ưu, Qwen2-72B cho hiệu năng vượt trội so với các mô hình mới nhất như Llama-3-70B
  • Thông qua hậu huấn luyện, mô hình tiếp tục được nâng cao năng lực về lập trình, toán học, suy luận, thực thi chỉ thị, hiểu đa ngôn ngữ, đồng thời đạt được sự căn chỉnh với các giá trị của con người
  • Trên 16 benchmark, Qwen2-72B-Instruct vượt xa Qwen1.5-72B-Chat và cho thấy hiệu năng ngang tầm Llama-3-70B-Instruct
  • Các mô hình Qwen2 kích thước nhỏ hơn cũng vượt qua những mô hình SOTA có quy mô tương đương hoặc lớn hơn. Đặc biệt nổi bật ở các chỉ số liên quan đến lập trình và tiếng Trung
Quảng cáo

Các điểm chính

  • Tích hợp kinh nghiệm và dữ liệu huấn luyện mã nguồn của CodeQwen1.5 để cải thiện mạnh hiệu năng của Qwen2-72B-Instruct trên nhiều ngôn ngữ lập trình
  • Tăng cường khả năng giải toán của Qwen2-72B-Instruct bằng cách sử dụng bộ dữ liệu chất lượng cao và phạm vi rộng
  • Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin với độ dài 128K
  • Cũng đã mã nguồn mở một giải pháp agent hiệu quả để xử lý tài liệu dài 1 triệu token
  • Kết quả đánh giá tỷ lệ phản hồi có hại trước 4 loại truy vấn độc hại đa ngôn ngữ cho thấy Qwen2-72B-Instruct có mức độ an toàn tương đương GPT-4 và vượt trội đáng kể so với Mistral-8x22B

Ứng dụng của Qwen2

  • Tất cả mô hình đều được công bố trên Hugging Face và ModelScope để có thể tự do sử dụng
  • Qwen2-72B và các mô hình tinh chỉnh theo chỉ thị sử dụng Qianwen License, các mô hình còn lại áp dụng giấy phép Apache 2.0
  • Cách sử dụng Qwen2 cùng nhiều framework bên thứ ba có thể tham khảo trong tài liệu của từng framework và tài liệu chính thức

Kế hoạch tương lai của Qwen2

  • Dự kiến huấn luyện các mô hình Qwen2 lớn hơn để khám phá việc mở rộng quy mô mô hình cùng với mở rộng quy mô dữ liệu
  • Có kế hoạch mở rộng Qwen2 thành mô hình ngôn ngữ đa phương thức có thể hiểu cả thông tin thị giác và thính giác
  • Trong tương lai sẽ tiếp tục mã nguồn mở các mô hình mới để thúc đẩy sự phát triển của AI nguồn mở