- Mô hình QwQ-32B là mô hình có 32 tỷ tham số và cho thấy hiệu năng tương tự DeepSeek-R1
- Mô hình này tận dụng học tăng cường (RL) để nâng cao trí năng của mô hình ngôn ngữ lớn
- Mô hình được phát hành theo giấy phép Apache 2.0 trên Hugging Face và ModelScope, đồng thời có thể truy cập qua Qwen Chat
Hiệu năng
- QwQ-32B được thử nghiệm trên nhiều benchmark đánh giá suy luận toán học, năng lực lập trình và khả năng giải quyết vấn đề tổng quát.
- Hiệu năng được đánh giá bằng cách so sánh với DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini và DeepSeek-R1 gốc
- QwQ-32B đạt hiệu năng cao nhất trên LiveBench và BFCL, đồng thời ở mức tương đương DeepSeek-R1-671B trên IFEval và AIME24
- Trên LiveCodeBench, mô hình thấp hơn một chút so với DeepSeek-R1-671B, nhưng vẫn vượt trội so với các mô hình khác
- Nhìn chung, mô hình cho thấy hiệu năng tương đương hoặc tốt hơn DeepSeek-R1-671B trong khi chỉ dùng ít tham số hơn rất nhiều (32,5 tỷ so với 671 tỷ), qua đó chứng minh tính cạnh tranh
- Tức là, điểm mấu chốt là QwQ-32B là mô hình được tối ưu bằng học tăng cường và đã đạt hiệu năng hàng đầu dù quy mô nhỏ hơn nhiều
Học tăng cường
- Ở giai đoạn đầu, nhóm đã áp dụng cách tiếp cận mở rộng học tăng cường (RL scaling) cho các tác vụ toán học và lập trình
- Thay vì mô hình phần thưởng truyền thống, họ sử dụng bộ kiểm chứng độ chính xác và máy chủ thực thi mã để đảm bảo tính đúng đắn của lời giải cuối cùng
- Có thêm một giai đoạn RL cho các năng lực tổng quát, giúp cải thiện hiệu năng ở những khả năng chung như sở thích của con người và năng lực tác tử
Công việc tiếp theo
- Qwen hiện vẫn đang ở giai đoạn đầu trong việc mở rộng học tăng cường (RL) để cải thiện năng lực suy luận
- Việc kết hợp mô hình nền tảng đã được tăng cường với tài nguyên tính toán được mở rộng sẽ giúp tiến gần hơn tới trí tuệ nhân tạo tổng quát (AGI)
- Nhóm đang khám phá cách tích hợp tác tử và RL để cho phép suy luận dài hạn, từ đó phát huy trí năng lớn hơn
1 bình luận
Ý kiến trên Hacker News
Cần lưu ý độ dài ngữ cảnh lớn (130k token). Việc tạo CoT dài mà không có đủ ngữ cảnh là vô nghĩa
Việc học toán và lập trình giúp cải thiện năng lực suy luận tổng quát
Nhỏ hơn DeepSeek 20 lần. Tò mò không biết có thể chạy trên phần cứng nào
Chiến lược của Trung Quốc là kiếm tiền từ phần mềm mã nguồn mở và robot
Có cung cấp liên kết để thử Qwen2.5-plus
Được phát hành dưới dạng "preview" vào tháng 11 năm 2024
Xếp ngay dưới Deepseek-R1
Theo trải nghiệm cá nhân, đã thử bài kiểm tra đọc ngược và trả lời câu hỏi
Đã phản hồi ngay lập tức và đó là một trải nghiệm tích cực