DeepScaleR: Vượt qua O1-Preview với mô hình 1.5B nhờ RL
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: mô hình được tinh chỉnh bằng học tăng cường (RL) từ Deepseek-R1-Distilled-Qwen-1.5B
- Đạt độ chính xác AIME2024 Pass@1 là 43,1% (tăng +14,3% so với mô hình gốc),
→ vượt hiệu năng của OpenAIo1-preview! - Huấn luyện với 3.800 giờ GPU A100 (4.500 USD) → mở rộng RL hiệu quả hơn 18,42 lần so với 70.000 giờ GPU A100
- Công khai mã nguồn mở dataset, code và log huấn luyện → bất kỳ ai cũng có thể thử nghiệm mở rộng trí năng bằng RL
Tăng cường mô hình nhỏ bằng RL
- Deepseek-R1 là một mô hình mã nguồn mở có thể so sánh với OpenAI
o1, nhưng quy trình huấn luyện chi tiết không được công khai - Nghiên cứu cách phát triển mô hình suy luận mạnh với ít tài nguyên tính toán hơn bằng cách sử dụng RL
- Hạn chế lớn nhất của RL trước đây là chi phí cao:
→ để tái hiện thí nghiệm củaDeepseek-R1cần ít nhất 70.000 giờ GPU A100 - Giải pháp:
- tận dụng mô hình chưng cất tri thức (distillation) hiệu năng cao
- áp dụng kỹ thuật "Iterative Lengthening" để mở rộng RL theo từng bước → giảm chi phí tính toán xuống còn 3.800 giờ GPU A100
Xây dựng dataset
-
Sử dụng AIME (1984-2023) + AMC (trước 2023) + Omni-MATH + Still dataset
-
Quy trình làm sạch dữ liệu:
- Trích xuất đáp án: dùng
gemini-1.5-pro-002để trích xuất đáp án từ lời giải chính thức - Loại bỏ trùng lặp: loại các bài toán tương tự dựa trên embedding
sentence-transformers/all-MiniLM-L6-v2 - Lọc các bài không thể chấm điểm: loại những bài khó đánh giá tự động bằng
sympy
- Trích xuất đáp án: dùng
-
Cuối cùng thu được 40.000 cặp bài toán-đáp án, dự kiến sẽ tiếp tục mở rộng dữ liệu trong tương lai
Hàm phần thưởng (Reward Function)
-
Áp dụng "Outcome Reward Model (ORM)" giống như Deepseek-R1:
1 điểm: đáp án đúng với định dạng hợp lệ (vượt qua kiểm chứngsympy)0 điểm: đáp án sai, lỗi định dạng (thiếu<think>...</think>v.v.)
-
Lý do không dùng "Process Reward Model (PRM)":
- ngăn reward hacking → tránh tác dụng phụ khiến mô hình chỉ cố bắt chước hình thức
"Iterative Lengthening": kỹ thuật mở rộng huấn luyện RL theo từng giai đoạn
Bước 1: Bắt đầu huấn luyện RL với ngữ cảnh 8K
- Lý do:
- câu trả lời sai dài trung bình 20.346 token, trong khi đáp án đúng là 6.395 token → phản hồi càng dài thì xác suất sai càng tăng
- huấn luyện với ngữ cảnh dài ngay từ đầu là không hiệu quả → tối ưu trước với 8K
- Kết quả:
- AIME Pass@1 tăng từ 28,9% → 33,9% (+5%)
- số token không cần thiết giảm → độ dài phản hồi trung bình giảm 10.484 token
Bước 2: Mở rộng lên ngữ cảnh 16K
- Sau 1.000 bước huấn luyện, mô hình cho thấy xu hướng muốn suy nghĩ (suy luận) dài hơn
- Nhưng giới hạn 8K làm hiệu quả học bị hạn chế → mở rộng lên 16K
- Ưu điểm:
- nhanh hơn hơn 2 lần so với huấn luyện 16K ngay từ đầu (tránh việc độ dài phản hồi trung bình tăng từ 3.000 → 9.000 token)
- đạt độ chính xác AIME2024 là 38%
Bước 3: "24K Magic" - cải thiện hiệu năng cuối cùng
- Hiệu năng bị chững lại ở 16K → mở rộng lần cuối lên ngữ cảnh 24K
- Kết quả là đạt độ chính xác AIME2024 Pass@1 43,1%, vượt OpenAI
o1-preview!
Kết quả đánh giá cuối cùng
- Mô hình DeepScaleR được đánh giá trên nhiều benchmark toán học như AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench
- Theo chuẩn AIME2024, DeepScaleR-1.5B-Preview đạt độ chính xác 43,1%, cao hơn mô hình OpenAI
o1-preview - Trên MATH 500, AMC 2023 và các bài khác, dù chỉ là mô hình 1.5B nhưng vẫn đạt hiệu năng ngang bằng hoặc cao hơn các mô hình 7B
- So với các nghiên cứu trước đó (rStar, PRIME, SimpleRL dựa trên RL), mô hình này cũng cho thấy hiệu quả cao nhất
Tóm tắt chính (Key Takeaways)
-
Có thể mở rộng RL ngay cả với mô hình nhỏ
- Trước đây thường cho rằng RL chỉ hiệu quả với các mô hình lớn
- Nhưng các mô hình nhỏ đã được tinh chỉnh bằng dữ liệu chất lượng cao cũng có thể học năng lực suy luận mạnh thông qua RL
- DeepScaleR cải thiện từ 28,9% → 43,1% (độ chính xác AIME)
-
Kỹ thuật "Iterative Lengthening" cho phép mở rộng độ dài hiệu quả
- Các nghiên cứu trước đây báo cáo rằng mức cải thiện hiệu năng trên ngữ cảnh 16K trở lên là không đáng kể
- Tối đa hóa hiệu năng bằng cách mở rộng dần 8K → 16K → 24K
Kết luận: phổ cập mở rộng RL
- DeepScaleR-1.5B-Preview là mô hình RL mã nguồn mở đầu tiên vượt qua O1-preview
- Chỉ với 3.800 giờ GPU A100 (4.500 USD) cũng có thể xây dựng mô hình hiệu năng cao → chứng minh tiềm năng của nghiên cứu RL chi phí thấp
- Dự kiến sẽ tiếp tục phát triển các mô hình suy luận dựa trên RL cùng cộng đồng mã nguồn mở
🔗 Tài liệu mã nguồn mở:
1 bình luận
Ý kiến Hacker News