DeepScaleR: Vượt qua O1-Preview với mô hình 1.5B nhờ RL

(pretty-radio-b75.notion.site)

5 điểm bởi GN⁺ 2025-02-12 | 1 bình luận | Chia sẻ qua WhatsApp

DeepScaleR-1.5B-Preview: mô hình được tinh chỉnh bằng học tăng cường (RL) từ Deepseek-R1-Distilled-Qwen-1.5B
Đạt độ chính xác AIME2024 Pass@1 là 43,1% (tăng +14,3% so với mô hình gốc),
→ vượt hiệu năng của OpenAI o1-preview!
Huấn luyện với 3.800 giờ GPU A100 (4.500 USD) → mở rộng RL hiệu quả hơn 18,42 lần so với 70.000 giờ GPU A100
Công khai mã nguồn mở dataset, code và log huấn luyện → bất kỳ ai cũng có thể thử nghiệm mở rộng trí năng bằng RL

Tăng cường mô hình nhỏ bằng RL

Deepseek-R1 là một mô hình mã nguồn mở có thể so sánh với OpenAI o1, nhưng quy trình huấn luyện chi tiết không được công khai
Nghiên cứu cách phát triển mô hình suy luận mạnh với ít tài nguyên tính toán hơn bằng cách sử dụng RL
Hạn chế lớn nhất của RL trước đây là chi phí cao:
→ để tái hiện thí nghiệm của Deepseek-R1 cần ít nhất 70.000 giờ GPU A100
Giải pháp:
- tận dụng mô hình chưng cất tri thức (distillation) hiệu năng cao
- áp dụng kỹ thuật "Iterative Lengthening" để mở rộng RL theo từng bước → giảm chi phí tính toán xuống còn 3.800 giờ GPU A100

Xây dựng dataset

Sử dụng AIME (1984-2023) + AMC (trước 2023) + Omni-MATH + Still dataset
Quy trình làm sạch dữ liệu:
1. Trích xuất đáp án: dùng gemini-1.5-pro-002 để trích xuất đáp án từ lời giải chính thức
2. Loại bỏ trùng lặp: loại các bài toán tương tự dựa trên embedding sentence-transformers/all-MiniLM-L6-v2
3. Lọc các bài không thể chấm điểm: loại những bài khó đánh giá tự động bằng sympy
Cuối cùng thu được 40.000 cặp bài toán-đáp án, dự kiến sẽ tiếp tục mở rộng dữ liệu trong tương lai

Hàm phần thưởng (Reward Function)

Áp dụng "Outcome Reward Model (ORM)" giống như Deepseek-R1:
- 1 điểm: đáp án đúng với định dạng hợp lệ (vượt qua kiểm chứng sympy)
- 0 điểm: đáp án sai, lỗi định dạng (thiếu <think>...</think> v.v.)
Lý do không dùng "Process Reward Model (PRM)":
- ngăn reward hacking → tránh tác dụng phụ khiến mô hình chỉ cố bắt chước hình thức

"Iterative Lengthening": kỹ thuật mở rộng huấn luyện RL theo từng giai đoạn

Bước 1: Bắt đầu huấn luyện RL với ngữ cảnh 8K

Lý do:
- câu trả lời sai dài trung bình 20.346 token, trong khi đáp án đúng là 6.395 token → phản hồi càng dài thì xác suất sai càng tăng
- huấn luyện với ngữ cảnh dài ngay từ đầu là không hiệu quả → tối ưu trước với 8K
Kết quả:
- AIME Pass@1 tăng từ 28,9% → 33,9% (+5%)
- số token không cần thiết giảm → độ dài phản hồi trung bình giảm 10.484 token

Bước 2: Mở rộng lên ngữ cảnh 16K

Sau 1.000 bước huấn luyện, mô hình cho thấy xu hướng muốn suy nghĩ (suy luận) dài hơn
Nhưng giới hạn 8K làm hiệu quả học bị hạn chế → mở rộng lên 16K
Ưu điểm:
- nhanh hơn hơn 2 lần so với huấn luyện 16K ngay từ đầu (tránh việc độ dài phản hồi trung bình tăng từ 3.000 → 9.000 token)
- đạt độ chính xác AIME2024 là 38%

Bước 3: "24K Magic" - cải thiện hiệu năng cuối cùng

Hiệu năng bị chững lại ở 16K → mở rộng lần cuối lên ngữ cảnh 24K
Kết quả là đạt độ chính xác AIME2024 Pass@1 43,1%, vượt OpenAI o1-preview!

Kết quả đánh giá cuối cùng

Mô hình DeepScaleR được đánh giá trên nhiều benchmark toán học như AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench
Theo chuẩn AIME2024, DeepScaleR-1.5B-Preview đạt độ chính xác 43,1%, cao hơn mô hình OpenAI o1-preview
Trên MATH 500, AMC 2023 và các bài khác, dù chỉ là mô hình 1.5B nhưng vẫn đạt hiệu năng ngang bằng hoặc cao hơn các mô hình 7B
So với các nghiên cứu trước đó (rStar, PRIME, SimpleRL dựa trên RL), mô hình này cũng cho thấy hiệu quả cao nhất

Tóm tắt chính (Key Takeaways)

Có thể mở rộng RL ngay cả với mô hình nhỏ
- Trước đây thường cho rằng RL chỉ hiệu quả với các mô hình lớn
- Nhưng các mô hình nhỏ đã được tinh chỉnh bằng dữ liệu chất lượng cao cũng có thể học năng lực suy luận mạnh thông qua RL
- DeepScaleR cải thiện từ 28,9% → 43,1% (độ chính xác AIME)
Kỹ thuật "Iterative Lengthening" cho phép mở rộng độ dài hiệu quả
- Các nghiên cứu trước đây báo cáo rằng mức cải thiện hiệu năng trên ngữ cảnh 16K trở lên là không đáng kể
- Tối đa hóa hiệu năng bằng cách mở rộng dần 8K → 16K → 24K

Kết luận: phổ cập mở rộng RL

DeepScaleR-1.5B-Preview là mô hình RL mã nguồn mở đầu tiên vượt qua O1-preview
Chỉ với 3.800 giờ GPU A100 (4.500 USD) cũng có thể xây dựng mô hình hiệu năng cao → chứng minh tiềm năng của nghiên cứu RL chi phí thấp
Dự kiến sẽ tiếp tục phát triển các mô hình suy luận dựa trên RL cùng cộng đồng mã nguồn mở

🔗 Tài liệu mã nguồn mở:

1 bình luận

GN⁺ 2025-02-12

Ý kiến Hacker News

Mô hình này đã được tinh chỉnh theo benchmark để giải quyết một vấn đề cụ thể, và ở các tác vụ khác thì kém hơn O1-Preview. Nếu bạn không đặc biệt muốn giải quyết đúng vấn đề này thì không đáng để chú ý. Dù vậy, nó vẫn rất ấn tượng
Các mô hình tăng cường nhỏ sẽ chiến thắng. Hãy nhìn vào nền văn minh, công ty, đội ngũ của chúng ta: có rất nhiều người chuyên môn hóa, chứ không phải một thiên tài khổng lồ duy nhất
Vấn đề hiện tại là sự nhấn mạnh quá mức vào benchmark. Lý tưởng nhất là nên benchmark so với KPI của người dùng
Điều quan trọng là một công thức đơn giản và đáng tin cậy để huấn luyện mô hình 1B có thể cho hiệu năng mạnh ở một số tác vụ cụ thể. Trước đây chưa có điều này. Các thiết bị edge sẽ trở nên thông minh hơn rất nhiều
Tôi có thể rất ngây thơ, nhưng có ai thực sự tin vào benchmark này không? Chúng có ý nghĩa không? Có vẻ như chúng quá dễ bị thao túng, và không cho cảm giác là một cách để biết chính xác các mô hình so với nhau thế nào. Có vẻ hiệu năng giảm khá nhiều khi đưa vào các bài toán tương tự benchmark nhưng mô hình chưa từng thấy
Có prompt đơn giản nào tốt để kiểm tra các mô hình "suy luận" mới không? Kiểu "hãy đếm chữ cái R trong từ strawberry" thì hơi nhàm chán
Tôi đang thử cái này trên máy cục bộ bằng Ollama và bản GGUF được lượng tử hóa nhỏ nhất (769MB)
Tôi đã có được đáp án đúng sau khi xem câu trả lời ở đây: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Nhưng lúc bắt đầu nó đã mắc một lỗi quan trọng
Các mô hình CoT có thể gọi hàm bên ngoài không? Nếu chúng có thể truy cập máy tính cầm tay thì sao?
Sẽ thật tuyệt nếu có thể có được các mô hình không bị kiểm duyệt theo cách này
Thật ra khá ngớ ngẩn. Tôi bảo nó giải mã một chuỗi ASCII thì nó trả lời linh tinh. Tôi thử phi-4 Q4 thì nó làm đúng. 9GB so với 2GB (suy luận). Có vẻ không thể nhồi đủ thông tin vào 2GB, nên ngoài việc giải các bài toán toán học phổ thông hoặc biết những gì có trong dữ liệu huấn luyện thì nó không hữu ích lắm
Hồi học đại học, thành thật mà nói thứ này được gọi là overfitting. Có vẻ nó không hoạt động tốt ngoài tập đánh giá

DeepScaleR: Vượt qua O1-Preview với mô hình 1.5B nhờ RL

Tăng cường mô hình nhỏ bằng RL

Xây dựng dataset

Hàm phần thưởng (Reward Function)

"Iterative Lengthening": kỹ thuật mở rộng huấn luyện RL theo từng giai đoạn

Bước 1: Bắt đầu huấn luyện RL với ngữ cảnh 8K

Bước 2: Mở rộng lên ngữ cảnh 16K

Bước 3: "24K Magic" - cải thiện hiệu năng cuối cùng

Kết quả đánh giá cuối cùng

Tóm tắt chính (Key Takeaways)

Kết luận: phổ cập mở rộng RL

Bài viết liên quan

1 bình luận

Ý kiến Hacker News