22 điểm bởi xguru 2025-01-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Sky-T1-32B-Preview là mô hình suy luận và lập trình đạt hiệu năng tương đương o1-preview, được huấn luyện với chi phí thấp chỉ $450 (khoảng 650.000 won)
  • Toàn bộ mã nguồn được cung cấp dưới dạng mã nguồn mở, nên bất kỳ ai cũng có thể tái hiện và cải tiến
    • Các mô hình suy luận hiệu năng cao như o1 và Gemini 2.0 có thể giải quyết các tác vụ phức tạp, nhưng chi tiết kỹ thuật và trọng số mô hình vẫn được giữ kín

Mã nguồn mở hoàn toàn: cùng nhau phát triển

Cách làm (Recipes)

Quy trình chuẩn bị dữ liệu

  • Sử dụng mô hình QwQ-32B-Preview để tạo dữ liệu và xây dựng hỗn hợp dữ liệu bao phủ nhiều lĩnh vực khác nhau
  • Tái cấu trúc và cải thiện định dạng:
    • Định dạng lại dữ liệu QwQ bằng GPT-4o-mini để nâng cao hiệu quả huấn luyện cho mô hình suy luận
    • Việc định dạng lại giúp cải thiện độ chính xác dữ liệu lập trình từ 25% lên hơn 90%
  • Rejection sampling:
    • Bài toán toán học: loại bỏ các mẫu không chính xác bằng cách so sánh với đáp án đúng
    • Bài toán lập trình: chạy unit test của bộ dữ liệu để xác minh đáp án
  • Dữ liệu cuối cùng:
    • Dữ liệu lập trình: 5.000 mẫu từ các bộ dữ liệu APPs và TACO
    • Dữ liệu toán học: 10.000 mẫu từ AIME, MATH, Olympiads của NuminaMATH
    • Dữ liệu khác: 1.000 mẫu về khoa học và bài toán đố

Quy trình huấn luyện

  • Mô hình huấn luyện: Qwen2.5-32B-Instruct (mô hình mã nguồn mở không có khả năng suy luận)
  • Môi trường huấn luyện:
    • Sử dụng 8 GPU H100, DeepSpeed Zero-3 offloading
    • Thời gian huấn luyện: 19 giờ
    • Chi phí: khoảng $450 (theo Lambda Cloud)
  • Huấn luyện bằng Llama-Factory

Đánh giá và tóm tắt kết quả

  • Sky-T1-32B-Preview cho thấy hiệu năng như sau khi so sánh với các mô hình cạnh tranh trên nhiều benchmark khác nhau:
    • Math500: Sky-T1 đạt 82,4%, gần như ngang với o1-preview (81,4%) và vượt xa Qwen-2.5 (76,2%)
    • AIME2024: Sky-T1 đạt 43,3%, cao hơn o1-preview (40,0%) và vượt trội rõ rệt so với Qwen-2.5 (16,7%)
    • LiveCodeBench (Easy): Sky-T1 đạt 86,3%, tương đương Qwen-2.5 (84,6%) và khoảng cách với o1-preview (92,9%) là không lớn
    • LiveCodeBench (Medium): Sky-T1 đạt 56,8%, cao hơn o1-preview (54,9%) và vượt xa Qwen-2.5 (40,8%)
    • LiveCodeBench (Hard): Sky-T1 đạt 17,9%, nhỉnh hơn một chút so với o1-preview (16,3%) và tạo khoảng cách lớn với Qwen-2.5 (9,8%)
    • GPQA-Diamond: Sky-T1 đạt 56,8%, nhỉnh hơn đôi chút so với QwQ (52,5%) nhưng thấp hơn o1-preview (75,2%)
  • Sky-T1-32B-Preview thể hiện hiệu năng mạnh mẽ ở cả toán học lẫn lập trình, đặc biệt chiếm ưu thế trong các tác vụ lập trình độ khó trung bình
  • Mô hình này cũng nằm trong nhóm dẫn đầu ở các benchmark liên quan đến toán học, qua đó chứng minh đây là một mô hình vừa hiệu quả vừa mạnh mẽ nói chung.

Những phát hiện chính

  • Tầm quan trọng của kích thước mô hình:
    • Với các mô hình kích thước 7B và 14B, chỉ ghi nhận được mức cải thiện hạn chế
    • Mô hình 32B vượt trội hơn hẳn về hiệu năng và độ ổn định của kết quả
  • Tầm quan trọng của pha trộn dữ liệu:
    • Huấn luyện bằng dữ liệu một miền duy nhất có thể làm suy giảm hiệu năng
    • Pha trộn cân bằng dữ liệu toán học và lập trình để đạt hiệu năng tốt ở cả hai miền

Kế hoạch sắp tới

  • Tập trung phát triển các mô hình vừa duy trì hiệu quả vừa đạt hiệu năng suy luận cao
  • Nghiên cứu các kỹ thuật nâng cao để cải thiện hiệu quả và độ chính xác trong thời gian kiểm thử
  • Hướng tới phát triển các mô hình tiên tiến hơn thông qua hợp tác với cộng đồng

1 bình luận

 
kimjoin2 2025-01-17

Tại sao... tại sao mình lại đọc thành SKT-T1 vậy nhỉ