QwQ-32B: đạt hiệu năng tương tự DeepSeek-R1 với số tham số nhỏ hơn nhờ học tăng cường

(qwenlm.github.io)

3 điểm bởi GN⁺ 2025-03-06 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình QwQ-32B là mô hình có 32 tỷ tham số và cho thấy hiệu năng tương tự DeepSeek-R1
Mô hình này tận dụng học tăng cường (RL) để nâng cao trí năng của mô hình ngôn ngữ lớn
Mô hình được phát hành theo giấy phép Apache 2.0 trên Hugging Face và ModelScope, đồng thời có thể truy cập qua Qwen Chat

Hiệu năng

QwQ-32B được thử nghiệm trên nhiều benchmark đánh giá suy luận toán học, năng lực lập trình và khả năng giải quyết vấn đề tổng quát.
Hiệu năng được đánh giá bằng cách so sánh với DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini và DeepSeek-R1 gốc
- QwQ-32B đạt hiệu năng cao nhất trên LiveBench và BFCL, đồng thời ở mức tương đương DeepSeek-R1-671B trên IFEval và AIME24
- Trên LiveCodeBench, mô hình thấp hơn một chút so với DeepSeek-R1-671B, nhưng vẫn vượt trội so với các mô hình khác
- Nhìn chung, mô hình cho thấy hiệu năng tương đương hoặc tốt hơn DeepSeek-R1-671B trong khi chỉ dùng ít tham số hơn rất nhiều (32,5 tỷ so với 671 tỷ), qua đó chứng minh tính cạnh tranh
- Tức là, điểm mấu chốt là QwQ-32B là mô hình được tối ưu bằng học tăng cường và đã đạt hiệu năng hàng đầu dù quy mô nhỏ hơn nhiều

Học tăng cường

Ở giai đoạn đầu, nhóm đã áp dụng cách tiếp cận mở rộng học tăng cường (RL scaling) cho các tác vụ toán học và lập trình
Thay vì mô hình phần thưởng truyền thống, họ sử dụng bộ kiểm chứng độ chính xác và máy chủ thực thi mã để đảm bảo tính đúng đắn của lời giải cuối cùng
Có thêm một giai đoạn RL cho các năng lực tổng quát, giúp cải thiện hiệu năng ở những khả năng chung như sở thích của con người và năng lực tác tử

Công việc tiếp theo

Qwen hiện vẫn đang ở giai đoạn đầu trong việc mở rộng học tăng cường (RL) để cải thiện năng lực suy luận
Việc kết hợp mô hình nền tảng đã được tăng cường với tài nguyên tính toán được mở rộng sẽ giúp tiến gần hơn tới trí tuệ nhân tạo tổng quát (AGI)
Nhóm đang khám phá cách tích hợp tác tử và RL để cho phép suy luận dài hạn, từ đó phát huy trí năng lớn hơn

1 bình luận

GN⁺ 2025-03-06

Ý kiến trên Hacker News

Cần lưu ý độ dài ngữ cảnh lớn (130k token). Việc tạo CoT dài mà không có đủ ngữ cảnh là vô nghĩa
- Prompt đầu tiên quá dài nên mô hình quên mất nhiệm vụ
- Người dùng không cung cấp tác vụ cụ thể
- Chỉ dẫn ban đầu là hành động như một AI agent
- Có vẻ người dùng muốn đưa ra một bài toán và yêu cầu suy luận từng bước
Việc học toán và lập trình giúp cải thiện năng lực suy luận tổng quát
Nhỏ hơn DeepSeek 20 lần. Tò mò không biết có thể chạy trên phần cứng nào
- Có lẽ không cần tới M3 Ultra 512GB
- Ngang tầm DeepSeek nhưng nhỏ hơn 20 lần
Chiến lược của Trung Quốc là kiếm tiền từ phần mềm mã nguồn mở và robot
- Tò mò không biết Mỹ sẽ duy trì lợi thế bằng cách nào
- Ấn Độ đang không thể tham gia cuộc đua này
Có cung cấp liên kết để thử Qwen2.5-plus
Được phát hành dưới dạng "preview" vào tháng 11 năm 2024
- Rất hay dùng cách diễn đạt "đợi đã"
- Gặp vấn đề bị lạc mạch sau khi tạo ra nhiều token suy luận
Xếp ngay dưới Deepseek-R1
- Với 32B thì rất ấn tượng
- Token suy nghĩ đôi khi lớn gấp 10 lần câu trả lời cuối cùng
- Dự định sẽ thử với function calling vào cuối tuần
Theo trải nghiệm cá nhân, đã thử bài kiểm tra đọc ngược và trả lời câu hỏi
- Nếu đọc ngược "ip fo eulav si tahw" thì sẽ thành "what is value of pi"
- Giá trị của π xấp xỉ 3.14159
- π là một số vô tỉ, không lặp lại và kéo dài vô hạn
Đã phản hồi ngay lập tức và đó là một trải nghiệm tích cực

QwQ-32B: đạt hiệu năng tương tự DeepSeek-R1 với số tham số nhỏ hơn nhờ học tăng cường

Hiệu năng

Học tăng cường

Công việc tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News