Ra mắt DeepSeekMath-V2 - Hướng tới suy luận toán học có thể tự kiểm chứng

(huggingface.co)

5 điểm bởi GN⁺ 2025-12-02 | 1 bình luận | Chia sẻ qua WhatsApp

Nhắm tới nâng cao năng lực suy luận toán học của mô hình ngôn ngữ lớn, mô hình này củng cố khả năng kiểm chứng của quá trình suy luận vượt lên trên việc chỉ cải thiện độ chính xác của đáp án cuối cùng
Cải thiện hạn chế của các cách tiếp cận dựa trên học tăng cường trước đây vốn tập trung vào phần thưởng cho đáp án cuối cùng, bằng cách đưa vào cơ chế tự kiểm chứng (self-verification)
Với các bài toán như chứng minh định lý (theorem proving) đòi hỏi triển khai logic theo từng bước, mô hình sinh được thiết kế để tự tìm lỗi và sửa lỗi
Sử dụng bộ kiểm chứng (verifier) làm mô hình phần thưởng, đồng thời mở rộng lượng tính toán dành cho kiểm chứng để tự động gán nhãn dữ liệu chứng minh khó, qua đó cải thiện hiệu năng liên tục
Ghi nhận số điểm hàng đầu tại IMO 2025, CMO 2024, Putnam 2024, qua đó chứng minh tính khả thi của AI toán học tự kiểm chứng

1. Giới thiệu (Introduction)

Mô hình ngôn ngữ lớn (LLM) đã đạt được bước tiến lớn trong suy luận toán học, và đây đóng vai trò là một phép thử quan trọng đối với nghiên cứu AI
- Thông qua học tăng cường, mô hình thực hiện huấn luyện dựa trên phần thưởng cho đáp án đúng, qua đó đạt hiệu năng nhóm đầu tại các kỳ thi như AIME, HMMT chỉ trong vòng 1 năm
Tuy nhiên, cách tiếp cận chỉ nâng cao độ chính xác của đáp án cuối cùng có những giới hạn rõ ràng
- Dù đáp án đúng, tính hợp lệ của quá trình suy luận vẫn không được đảm bảo; đồng thời không thể áp dụng cho các bài toán như chứng minh định lý, nơi cần triển khai logic theo từng bước
Để giải quyết vấn đề này, nhóm nghiên cứu đưa vào khái niệm tự kiểm chứng (self-verification), được thiết kế để đánh giá tính đầy đủ và tính chặt chẽ của suy luận
- Đặc biệt, đây được xem là yếu tố thiết yếu để mở rộng tính toán ở thời điểm suy luận đối với các bài toán chưa biết lời giải (open problems)
Nhóm nghiên cứu huấn luyện một bộ kiểm chứng (verifier) dựa trên LLM chính xác và đáng tin cậy, rồi dùng nó như mô hình phần thưởng để huấn luyện bộ sinh chứng minh (generator)
- Qua đó khuyến khích bộ sinh tự tìm và sửa lỗi trong chứng minh của chính mình
Khi hiệu năng của bộ sinh tăng lên, độ khó của việc kiểm chứng cũng tăng theo, vì vậy nhóm đã mở rộng tính toán kiểm chứng (scale verification compute) để tự động gán nhãn các chứng minh khó mới
- Nhờ đó tiếp tục cải thiện hiệu năng của bộ kiểm chứng
Mô hình kết quả DeepSeekMath-V2 đạt mức huy chương vàng tại IMO 2025, CMO 2024 và 118/120 điểm tại Putnam 2024
- Những kết quả này cho thấy suy luận toán học tự kiểm chứng là một hướng nghiên cứu khả thi

2. Kết quả đánh giá (Evaluation Results)

Đánh giá sử dụng IMO-ProofBench do đội DeepThink IMO-Gold của DeepMind phát triển cùng với các kỳ thi toán gần đây (IMO 2025, CMO 2024, Putnam 2024)
- Các số liệu cụ thể hay kết quả chi tiết không được nêu trong nội dung chính

3. Kiến trúc mô hình và nền tảng (Model Architecture)

DeepSeekMath-V2 được xây dựng dựa trên mô hình DeepSeek-V3.2-Exp-Base
- Hỗ trợ liên quan đến suy luận (inference) có thể tham khảo kho GitHub DeepSeek-V3.2-Exp

4. Giấy phép (License)

Mô hình và trọng số được phát hành theo Apache License 2.0

5. Thông tin trích dẫn (Citation)

Có nêu rõ tác giả nghiên cứu và thông tin bài báo, với tiêu đề
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Thông tin khác

Số lượt tải trong một tháng gần đây: 4.434
Khi dựng cây mô hình, mô hình cơ sở tạo thành vòng lặp tự tham chiếu nên được hiển thị là không thể tạo cây

1 bình luận

GN⁺ 2025-12-02

Ý kiến trên Hacker News

Mô hình được công bố lần này đã phát hành trọng số dưới dạng mã nguồn mở theo giấy phép Apache 2.0
Các mô hình huy chương vàng IMO của OpenAI hay DeepMind vẫn còn ở trạng thái không công khai
- Cũng như cách các công ty AI xử lý bản quyền của dữ liệu huấn luyện, tôi nghĩ chúng ta cũng nên đối xử với bản quyền của trọng số theo cách đó
- Nhưng nếu chỉ công khai trọng số mà không công khai mã huấn luyện hoặc dữ liệu, thì nó vẫn là một mô hình khép kín
Cuộc thảo luận trước đó nằm ở liên kết này
- Tôi đã bỏ lỡ liên kết đó, cảm ơn vì đã chia sẻ
Thật ấn tượng khi các mô hình open-weight đang nhanh chóng bắt kịp trong những lĩnh vực chuyên biệt như toán học hay suy luận
Tôi tò mò không biết có ai đã thử các bài kiểm tra về logic phức tạp hoặc lập trình chưa. Các mô hình có năng lực toán tốt thường cũng mạnh ở debugging hoặc tạo thuật toán
- Đây là hiện tượng tự nhiên vì các mô hình chuyên cho một miền cụ thể có giá trị thương mại thấp hơn, còn việc huấn luyện LLM quy mô lớn thì ưu tiên tính đa dụng
- kimi-k2 khá ổn trong mảng lập trình, nhưng vẫn chưa đạt tới mức của các mô hình SOTA từ Anthropic, OpenAI hay Google
Tôi nghĩ cũng cần có một góc nhìn hoài nghi về thành tích của mô hình này
Họ nói rõ rằng đã huấn luyện trực tiếp trên các bài toán thu thập từ Internet, nhưng không đề cập đến việc loại bỏ ô nhiễm benchmark hay có loại trừ các bài của năm 2024/2025 hay không
OpenAI và Google đã thử nghiệm các mô hình của họ trong điều kiện không thể tiếp cận trước các bài năm 2025
Tôi tò mò vì sao mô hình huy chương vàng của OpenAI vẫn chưa được công bố
- Đó đơn thuần là để quảng bá. Họ dự định áp dụng những bài học rút ra từ đó vào mô hình đa dụng tiếp theo
Điều quan trọng là lần này đây không phải mô hình đa dụng. Các mô hình của Google và OpenAI đã dùng mô hình đa dụng
- Thực ra cả OpenAI lẫn Google đều đã dùng mô hình nghiên cứu chuyên biệt cho IMO
  - Trong tweet này, OpenAI nhá hàng việc phát hành GPT-5 và nói rằng mô hình IMO là mô hình thử nghiệm nên hiện chưa có kế hoạch công bố trong thời gian tới
  - DeepMind giải thích trong blog chính thức rằng họ đã huấn luyện Gemini bằng suy luận nhiều bước dựa trên học tăng cường và dữ liệu chứng minh định lý
- Bài đăng chính thức của DeepSeek cũng được chia sẻ kèm theo
Tôi tò mò phải làm thế nào để chạy mô hình này tại nhà
Không rõ dùng CPU với khoảng 1TB RAM thì có khả thi không
- Chỉ riêng dữ liệu tải xuống đã là 690GB, nên có lẽ sẽ cần 1TB RAM. Ngay cả hai máy Strix Halo của tôi cũng không đủ
- Có thể chạy chậm với ik_llama.cpp, đủ RAM và một GPU. llama.cpp bản thường cũng chạy được, nhưng nhánh fork ik hiệu quả hơn
- Người ta nói rằng cũng có thể chạy bằng hai chiếc Mac Studio 512GB kết nối qua Thunderbolt 5
Tôi nghi ngờ không biết mô hình này có phải được chưng cất trực tiếp (distill) từ đầu ra của OpenAI hoặc Google hay không
Tôi tò mò liệu mô hình này có kế hoạch xuất hiện trên OpenRouter hay không
Tôi tự hỏi nếu OpenAI chèn quảng cáo vào ChatGPT thì chẳng phải mọi người sẽ lập tức chuyển sang mô hình khác sao
- Tôi lại nghĩ sẽ tốt hơn nếu nhiều nhà cung cấp cùng đưa ra mô hình đa dụng cạnh tranh theo giá thị trường
- Dù có quảng cáo hay không tôi vẫn không tin OpenAI. Trước khi họ đổi tên thành CloseAI thì khó mà tin được
- ChatGPT chỉ là một website. Một website có quảng cáo thì đâu có gì lạ. Instagram cũng vậy
- Họ đã có mô hình doanh thu thông qua trung tâm dữ liệu GPU và API. Dù có cạnh tranh xuất hiện, trong một thời gian nữa họ vẫn sẽ là lựa chọn số một
- Google đã chạy quảng cáo suốt hàng chục năm, nhưng chẳng ai vì thế mà chuyển sang công cụ tìm kiếm khác

Ra mắt DeepSeekMath-V2 - Hướng tới suy luận toán học có thể tự kiểm chứng

1. Giới thiệu (Introduction)

2. Kết quả đánh giá (Evaluation Results)

3. Kiến trúc mô hình và nền tảng (Model Architecture)

4. Giấy phép (License)

5. Thông tin trích dẫn (Citation)

6. Thông tin khác

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News