- Nhắm tới nâng cao năng lực suy luận toán học của mô hình ngôn ngữ lớn, mô hình này củng cố khả năng kiểm chứng của quá trình suy luận vượt lên trên việc chỉ cải thiện độ chính xác của đáp án cuối cùng
- Cải thiện hạn chế của các cách tiếp cận dựa trên học tăng cường trước đây vốn tập trung vào phần thưởng cho đáp án cuối cùng, bằng cách đưa vào cơ chế tự kiểm chứng (self-verification)
- Với các bài toán như chứng minh định lý (theorem proving) đòi hỏi triển khai logic theo từng bước, mô hình sinh được thiết kế để tự tìm lỗi và sửa lỗi
- Sử dụng bộ kiểm chứng (verifier) làm mô hình phần thưởng, đồng thời mở rộng lượng tính toán dành cho kiểm chứng để tự động gán nhãn dữ liệu chứng minh khó, qua đó cải thiện hiệu năng liên tục
- Ghi nhận số điểm hàng đầu tại IMO 2025, CMO 2024, Putnam 2024, qua đó chứng minh tính khả thi của AI toán học tự kiểm chứng
1. Giới thiệu (Introduction)
- Mô hình ngôn ngữ lớn (LLM) đã đạt được bước tiến lớn trong suy luận toán học, và đây đóng vai trò là một phép thử quan trọng đối với nghiên cứu AI
- Thông qua học tăng cường, mô hình thực hiện huấn luyện dựa trên phần thưởng cho đáp án đúng, qua đó đạt hiệu năng nhóm đầu tại các kỳ thi như AIME, HMMT chỉ trong vòng 1 năm
- Tuy nhiên, cách tiếp cận chỉ nâng cao độ chính xác của đáp án cuối cùng có những giới hạn rõ ràng
- Dù đáp án đúng, tính hợp lệ của quá trình suy luận vẫn không được đảm bảo; đồng thời không thể áp dụng cho các bài toán như chứng minh định lý, nơi cần triển khai logic theo từng bước
- Để giải quyết vấn đề này, nhóm nghiên cứu đưa vào khái niệm tự kiểm chứng (self-verification), được thiết kế để đánh giá tính đầy đủ và tính chặt chẽ của suy luận
- Đặc biệt, đây được xem là yếu tố thiết yếu để mở rộng tính toán ở thời điểm suy luận đối với các bài toán chưa biết lời giải (open problems)
- Nhóm nghiên cứu huấn luyện một bộ kiểm chứng (verifier) dựa trên LLM chính xác và đáng tin cậy, rồi dùng nó như mô hình phần thưởng để huấn luyện bộ sinh chứng minh (generator)
- Qua đó khuyến khích bộ sinh tự tìm và sửa lỗi trong chứng minh của chính mình
- Khi hiệu năng của bộ sinh tăng lên, độ khó của việc kiểm chứng cũng tăng theo, vì vậy nhóm đã mở rộng tính toán kiểm chứng (scale verification compute) để tự động gán nhãn các chứng minh khó mới
- Nhờ đó tiếp tục cải thiện hiệu năng của bộ kiểm chứng
- Mô hình kết quả DeepSeekMath-V2 đạt mức huy chương vàng tại IMO 2025, CMO 2024 và 118/120 điểm tại Putnam 2024
- Những kết quả này cho thấy suy luận toán học tự kiểm chứng là một hướng nghiên cứu khả thi
2. Kết quả đánh giá (Evaluation Results)
- Đánh giá sử dụng IMO-ProofBench do đội DeepThink IMO-Gold của DeepMind phát triển cùng với các kỳ thi toán gần đây (IMO 2025, CMO 2024, Putnam 2024)
- Các số liệu cụ thể hay kết quả chi tiết không được nêu trong nội dung chính
3. Kiến trúc mô hình và nền tảng (Model Architecture)
- DeepSeekMath-V2 được xây dựng dựa trên mô hình DeepSeek-V3.2-Exp-Base
- Hỗ trợ liên quan đến suy luận (inference) có thể tham khảo kho GitHub DeepSeek-V3.2-Exp
4. Giấy phép (License)
- Mô hình và trọng số được phát hành theo Apache License 2.0
5. Thông tin trích dẫn (Citation)
- Có nêu rõ tác giả nghiên cứu và thông tin bài báo, với tiêu đề
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. Thông tin khác
- Số lượt tải trong một tháng gần đây: 4.434
- Khi dựng cây mô hình, mô hình cơ sở tạo thành vòng lặp tự tham chiếu nên được hiển thị là không thể tạo cây
1 bình luận
Ý kiến trên Hacker News
Mô hình được công bố lần này đã phát hành trọng số dưới dạng mã nguồn mở theo giấy phép Apache 2.0
Các mô hình huy chương vàng IMO của OpenAI hay DeepMind vẫn còn ở trạng thái không công khai
Cuộc thảo luận trước đó nằm ở liên kết này
Thật ấn tượng khi các mô hình open-weight đang nhanh chóng bắt kịp trong những lĩnh vực chuyên biệt như toán học hay suy luận
Tôi tò mò không biết có ai đã thử các bài kiểm tra về logic phức tạp hoặc lập trình chưa. Các mô hình có năng lực toán tốt thường cũng mạnh ở debugging hoặc tạo thuật toán
Tôi nghĩ cũng cần có một góc nhìn hoài nghi về thành tích của mô hình này
Họ nói rõ rằng đã huấn luyện trực tiếp trên các bài toán thu thập từ Internet, nhưng không đề cập đến việc loại bỏ ô nhiễm benchmark hay có loại trừ các bài của năm 2024/2025 hay không
OpenAI và Google đã thử nghiệm các mô hình của họ trong điều kiện không thể tiếp cận trước các bài năm 2025
Tôi tò mò vì sao mô hình huy chương vàng của OpenAI vẫn chưa được công bố
Điều quan trọng là lần này đây không phải mô hình đa dụng. Các mô hình của Google và OpenAI đã dùng mô hình đa dụng
Tôi tò mò phải làm thế nào để chạy mô hình này tại nhà
Không rõ dùng CPU với khoảng 1TB RAM thì có khả thi không
Tôi nghi ngờ không biết mô hình này có phải được chưng cất trực tiếp (distill) từ đầu ra của OpenAI hoặc Google hay không
Tôi tò mò liệu mô hình này có kế hoạch xuất hiện trên OpenRouter hay không
Tôi tự hỏi nếu OpenAI chèn quảng cáo vào ChatGPT thì chẳng phải mọi người sẽ lập tức chuyển sang mô hình khác sao