Sky-T1: Huấn luyện mô hình suy luận hiệu năng cao cấp o1 preview chỉ với $450

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview là mô hình suy luận và lập trình đạt hiệu năng tương đương o1-preview, được huấn luyện với chi phí thấp chỉ $450 (khoảng 650.000 won) Toàn bộ mã nguồn được cung cấp dưới dạng mã nguồn mở, nên bất kỳ ai cũng có thể tái hiện và cải tiến Các mô hình suy luận hiệu năng cao như o1 và Gemini 2.0 có thể giải quyết các tác vụ phức tạp, nhưng chi tiết kỹ thuật và trọng số mô hình vẫn được giữ kín Mã nguồn mở hoàn toàn: cùng nhau phát triển Sky-T1-32B-Preview mã nguồn mở mọi chi tiết: Hạ tầng: kho lưu trữ hợp nhất cho việc xây dựng dữ liệu, huấn luyện mô hình và đánh giá Dữ liệu: cung cấp 17.000 mẫu dữ liệu huấn luyện Chi tiết kỹ thuật: báo cáo kỹ thuật và wandb log Trọng số mô hình: trọng số mô hình kích thước 32B Cách làm (Recipes) Quy trình chuẩn bị dữ liệu Sử dụng mô hình QwQ-32B-Preview để tạo dữ liệu và xây dựng hỗn hợp dữ liệu bao phủ nhiều lĩnh vực khác nhau Tái cấu trúc và cải thiện định dạng: Định dạng lại dữ liệu QwQ bằng GPT-4o-mini để nâng cao hiệu quả huấn luyện cho mô hình suy luận Việc định dạng lại giúp cải thiện độ chính xác dữ liệu lập trình từ 25% lên hơn 90% Rejection sampling: Bài toán toán học: loại bỏ các mẫu không chính xác bằng cách so sánh với đáp án đúng Bài toán lập trình: chạy unit test của bộ dữ liệu để xác minh đáp án Dữ liệu cuối cùng: Dữ liệu lập trình: 5.000 mẫu từ các bộ dữ liệu APPs và TACO Dữ liệu toán học: 10.000 mẫu từ AIME, MATH, Olympiads của NuminaMATH Dữ liệu khác: 1.000 mẫu về khoa học và bài toán đố Quy trình huấn luyện Mô hình huấn luyện: Qwen2.5-32B-Instruct (mô hình mã nguồn mở không có khả năng suy luận) Môi trường huấn luyện: Sử dụng 8 GPU H100, DeepSpeed Zero-3 offloading Thời gian huấn luyện: 19 giờ Chi phí: khoảng $450 (theo Lambda Cloud) Huấn luyện bằng Llama-Factory Đánh giá và tóm tắt kết quả Sky-T1-32B-Preview cho thấy hiệu năng như sau khi so sánh với các mô hình cạnh tranh trên nhiều benchmark khác nhau: Math500: Sky-T1 đạt 82,4%, gần như ngang với o1-preview (81,4%) và vượt xa Qwen-2.5 (76,2%) AIME2024: Sky-T1 đạt 43,3%, cao hơn o1-preview (40,0%) và vượt trội rõ rệt so với Qwen-2.5 (16,7%) LiveCodeBench (Easy): Sky-T1 đạt 86,3%, tương đương Qwen-2.5 (84,6%) và khoảng cách với o1-preview (92,9%) là không lớn LiveCodeBench (Medium): Sky-T1 đạt 56,8%, cao hơn o1-preview (54,9%) và vượt xa Qwen-2.5 (40,8%) LiveCodeBench (Hard): Sky-T1 đạt 17,9%, nhỉnh hơn một chút so với o1-preview (16,3%) và tạo khoảng cách lớn với Qwen-2.5 (9,8%) GPQA-Diamond: Sky-T1 đạt 56,8%, nhỉnh hơn đôi chút so với QwQ (52,5%) nhưng thấp hơn o1-preview (75,2%) Sky-T1-32B-Preview thể hiện hiệu năng mạnh mẽ ở cả toán học lẫn lập trình, đặc biệt chiếm ưu thế trong các tác vụ lập trình độ khó trung bình Mô hình này cũng nằm trong nhóm dẫn đầu ở các benchmark liên quan đến toán học, qua đó chứng minh đây là một mô hình vừa hiệu quả vừa mạnh mẽ nói chung. Những phát hiện chính Tầm quan trọng của kích thước mô hình: Với các mô hình kích thước 7B và 14B, chỉ ghi nhận được mức cải thiện hạn chế Mô hình 32B vượt trội hơn hẳn về hiệu năng và độ ổn định của kết quả Tầm quan trọng của pha trộn dữ liệu: Huấn luyện bằng dữ liệu một miền duy nhất có thể làm suy giảm hiệu năng Pha trộn cân bằng dữ liệu toán học và lập trình để đạt hiệu năng tốt ở cả hai miền Kế hoạch sắp tới Tập trung phát triển các mô hình vừa duy trì hiệu quả vừa đạt hiệu năng suy luận cao Nghiên cứu các kỹ thuật nâng cao để cải thiện hiệu quả và độ chính xác trong thời gian kiểm thử Hướng tới phát triển các mô hình tiên tiến hơn thông qua hợp tác với cộng đồng

(novasky-ai.github.io)

22 điểm bởi xguru 2025-01-17 | 1 bình luận | Chia sẻ qua WhatsApp

Sky-T1-32B-Preview là mô hình suy luận và lập trình đạt hiệu năng tương đương o1-preview, được huấn luyện với chi phí thấp chỉ $450 (khoảng 650.000 won)
Toàn bộ mã nguồn được cung cấp dưới dạng mã nguồn mở, nên bất kỳ ai cũng có thể tái hiện và cải tiến
- Các mô hình suy luận hiệu năng cao như o1 và Gemini 2.0 có thể giải quyết các tác vụ phức tạp, nhưng chi tiết kỹ thuật và trọng số mô hình vẫn được giữ kín

Mã nguồn mở hoàn toàn: cùng nhau phát triển

Sky-T1-32B-Preview mã nguồn mở mọi chi tiết:
- Hạ tầng: kho lưu trữ hợp nhất cho việc xây dựng dữ liệu, huấn luyện mô hình và đánh giá
- Dữ liệu: cung cấp 17.000 mẫu dữ liệu huấn luyện
- Chi tiết kỹ thuật: báo cáo kỹ thuật và wandb log
- Trọng số mô hình: trọng số mô hình kích thước 32B

Cách làm (Recipes)

Quy trình chuẩn bị dữ liệu

Sử dụng mô hình QwQ-32B-Preview để tạo dữ liệu và xây dựng hỗn hợp dữ liệu bao phủ nhiều lĩnh vực khác nhau
Tái cấu trúc và cải thiện định dạng:
- Định dạng lại dữ liệu QwQ bằng GPT-4o-mini để nâng cao hiệu quả huấn luyện cho mô hình suy luận
- Việc định dạng lại giúp cải thiện độ chính xác dữ liệu lập trình từ 25% lên hơn 90%
Rejection sampling:
- Bài toán toán học: loại bỏ các mẫu không chính xác bằng cách so sánh với đáp án đúng
- Bài toán lập trình: chạy unit test của bộ dữ liệu để xác minh đáp án
Dữ liệu cuối cùng:
- Dữ liệu lập trình: 5.000 mẫu từ các bộ dữ liệu APPs và TACO
- Dữ liệu toán học: 10.000 mẫu từ AIME, MATH, Olympiads của NuminaMATH
- Dữ liệu khác: 1.000 mẫu về khoa học và bài toán đố

Quy trình huấn luyện

Mô hình huấn luyện: Qwen2.5-32B-Instruct (mô hình mã nguồn mở không có khả năng suy luận)
Môi trường huấn luyện:
- Sử dụng 8 GPU H100, DeepSpeed Zero-3 offloading
- Thời gian huấn luyện: 19 giờ
- Chi phí: khoảng $450 (theo Lambda Cloud)
Huấn luyện bằng Llama-Factory

Đánh giá và tóm tắt kết quả

Sky-T1-32B-Preview cho thấy hiệu năng như sau khi so sánh với các mô hình cạnh tranh trên nhiều benchmark khác nhau:
- Math500: Sky-T1 đạt 82,4%, gần như ngang với o1-preview (81,4%) và vượt xa Qwen-2.5 (76,2%)
- AIME2024: Sky-T1 đạt 43,3%, cao hơn o1-preview (40,0%) và vượt trội rõ rệt so với Qwen-2.5 (16,7%)
- LiveCodeBench (Easy): Sky-T1 đạt 86,3%, tương đương Qwen-2.5 (84,6%) và khoảng cách với o1-preview (92,9%) là không lớn
- LiveCodeBench (Medium): Sky-T1 đạt 56,8%, cao hơn o1-preview (54,9%) và vượt xa Qwen-2.5 (40,8%)
- LiveCodeBench (Hard): Sky-T1 đạt 17,9%, nhỉnh hơn một chút so với o1-preview (16,3%) và tạo khoảng cách lớn với Qwen-2.5 (9,8%)
- GPQA-Diamond: Sky-T1 đạt 56,8%, nhỉnh hơn đôi chút so với QwQ (52,5%) nhưng thấp hơn o1-preview (75,2%)
Sky-T1-32B-Preview thể hiện hiệu năng mạnh mẽ ở cả toán học lẫn lập trình, đặc biệt chiếm ưu thế trong các tác vụ lập trình độ khó trung bình
Mô hình này cũng nằm trong nhóm dẫn đầu ở các benchmark liên quan đến toán học, qua đó chứng minh đây là một mô hình vừa hiệu quả vừa mạnh mẽ nói chung.

Những phát hiện chính

Tầm quan trọng của kích thước mô hình:
- Với các mô hình kích thước 7B và 14B, chỉ ghi nhận được mức cải thiện hạn chế
- Mô hình 32B vượt trội hơn hẳn về hiệu năng và độ ổn định của kết quả
Tầm quan trọng của pha trộn dữ liệu:
- Huấn luyện bằng dữ liệu một miền duy nhất có thể làm suy giảm hiệu năng
- Pha trộn cân bằng dữ liệu toán học và lập trình để đạt hiệu năng tốt ở cả hai miền

Kế hoạch sắp tới

Tập trung phát triển các mô hình vừa duy trì hiệu quả vừa đạt hiệu năng suy luận cao
Nghiên cứu các kỹ thuật nâng cao để cải thiện hiệu quả và độ chính xác trong thời gian kiểm thử
Hướng tới phát triển các mô hình tiên tiến hơn thông qua hợp tác với cộng đồng

1 bình luận

kimjoin2 2025-01-17

Tại sao... tại sao mình lại đọc thành SKT-T1 vậy nhỉ