Tự huấn luyện mô hình O1 Preview với chi phí dưới 450 USD

(sky.cs.berkeley.edu)

1 điểm bởi GN⁺ 2025-02-22 | 1 bình luận | Chia sẻ qua WhatsApp

Sky-T1 của nhóm NovaSky tại UC Berkeley là một dự án nhấn mạnh rằng bạn có thể tự huấn luyện một mô hình suy luận ngang tầm O1 Preview với chi phí dưới 450 USD
o1 và Gemini 2.0 Flash Thinking cho thấy hiệu năng suy luận mạnh trong các tác vụ phức tạp bằng cách tận dụng chuỗi suy nghĩ nội bộ dài
Các mô hình như vậy không công khai chi tiết kỹ thuật và trọng số, khiến giới học thuật và cộng đồng nguồn mở khó tái hiện và mở rộng
Đã có các nỗ lực về mô hình suy luận trọng số mở như Still-2 và Journey, nhưng chủ yếu tập trung vào lĩnh vực toán học
Nhóm NovaSky nêu điểm khác biệt của Sky-T1 là đạt được hiệu năng suy luận cạnh tranh trên cùng một mô hình ở cả toán học và lập trình

Vấn đề mà Sky-T1 nhắm tới

Sky-T1 là dự án do nhóm NovaSky thuộc UC Berkeley Sky Computing Lab công bố, đặt trọng tâm vào việc tự huấn luyện mô hình O1 Preview với chi phí dưới 450 USD
Các mô hình chuyên về suy luận như o1 và Gemini 2.0 Flash Thinking cho thấy khả năng tạo ra chuỗi suy nghĩ nội bộ dài khi giải các tác vụ phức tạp
Tuy nhiên, nhóm mô hình này không cho phép tiếp cận chi tiết kỹ thuật và trọng số mô hình, khiến giới học thuật và cộng đồng nguồn mở khó tham gia trực tiếp

Dòng mô hình suy luận trọng số mở và điểm khác biệt

Các nỗ lực huấn luyện mô hình suy luận trọng số mở như Still-2 và Journey đã xuất hiện, và chúng tập trung vào lĩnh vực toán học
Nhóm NovaSky khám phá các kỹ thuật cải thiện năng lực suy luận của mô hình nền tảng và mô hình đã được instruct-tuned
Công trình Sky-T1 nhấn mạnh rằng họ đạt được hiệu năng suy luận cạnh tranh bằng cùng một mô hình không chỉ trong toán học mà cả lập trình

1 bình luận

GN⁺ 2025-02-22

Các ý kiến trên Hacker News

Nếu bạn quan tâm, tôi đã chuẩn bị sẵn một notebook Colab có GPU miễn phí
Đây là notebook huấn luyện mô hình suy luận từ đầu bằng GRPO, thuật toán mà DeepSeek dùng, và notebook fine-tuning thông thường mà nhóm Berkeley đã sử dụng
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
Bộ dữ liệu 17K của nhóm Berkeley: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face cũng đã công bố bộ dữ liệu 220K: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Tôi tò mò việc này sẽ mất bao lâu trên T4 ở tier miễn phí
  Tôi cứ nghĩ những việc “đụng vào bên trong” như thế này sẽ khó tiếp cận hơn nhiều với lập trình viên bình thường, nhưng có vẻ đã đến mức muốn tự thử
Việc đưa O1 preview vào tên trông giống clickbait nên thấy kỳ lạ
Tôi đã kỳ vọng kiểu như có cách tái huấn luyện o1 preview thật rồi tải xuống được
Ngoài ra, chỉ nhìn vào 7 benchmark mà gọi là O1 preview thì không đúng. Với một số use case, O1 preview có thể làm tốt hơn mô hình này
Dù vậy, chi phí giảm xuống vẫn là điều tốt
- Nó thậm chí không chỉ tới một mô hình ngôn ngữ cụ thể, mà còn chỉ thẳng vào bản beta của mô hình đó, nên tôi thấy không trung thực. Không hiểu rốt cuộc vì sao lại làm vậy
- Đồng ý. Cái tên O1 preview hơi gây hiểu nhầm
  Nó khiến người ta kỳ vọng năng lực rộng hơn, vượt ra ngoài vài benchmark cụ thể. Việc giảm chi phí thì rất hay, nhưng phần marketing nên minh bạch hơn về phạm vi áp dụng
Cạnh tranh thật sự rất tốt
Chỉ vì có ai đó công khai kiến trúc mà trong vài tuần qua tiến bộ đã ồ ạt xuất hiện
Điều này khiến tôi tưởng tượng nếu cả bộ dữ liệu huấn luyện cũng được công khai và không bị ràng buộc bởi luật bản quyền thì ta có thể đi xa tới đâu. Tôi không nói là nên làm chuyện bất hợp pháp
Chắc chỉ còn biết mơ thôi
- Cụm “tiến bộ ồ ạt xuất hiện” đúng là rất chuẩn. Đặc biệt là sau khi lộ ra Meta đã huấn luyện mô hình của họ bằng gì :)
- Những bộ dữ liệu huấn luyện như vậy gần như toàn bộ đều dính bản quyền, nên tuyệt đối không thể tự do được
- Dòng chảy đó thực ra đã diễn ra rồi, và DeepSeek có vẻ là một ví dụ trong số đó
  Tuy nhiên nó đã kéo sự chú ý vào tiến bộ ấy, nhờ vậy nhiều người hơn đóng góp và tìm ra các trường hợp áp dụng ngách hơn
- Không phải không khí hiện nay là nếu có startup nóng nhất thì cứ vi phạm luật và hối lộ công chức sao? /s
  Nói thêm về /s: từng có thời tôi sống ở nước ngoài và vận hành sòng bạc Bitcoin phổ biến nhất lúc đó, đã tốn rất nhiều tiền bạc và năng lượng để chặn những người chơi có khả năng là người Mỹ. Vì thế tôi không kiếm được số tiền lớn
  Tôi đã tính xem phải kiếm bao nhiêu để vi phạm luật rồi sống lẩn trốn mãi mãi, và dù có thể kiếm 10–15 triệu USD mỗi năm, tôi vẫn cho rằng chưa đủ để trốn. Có vẻ tôi đã làm hỏng chuyện
  Người giàu nhất thế giới kiếm phần lớn tiền trong giai đoạn đầu bằng cách môi giới giao dịch cờ bạc, và giờ thì đang nhúng mũi vào mọi cơ quan liên bang. Có lẽ tôi nên có gan xin tha thứ thay vì xin phép
Trong triển khai AI thực tế, tính toán tại thời điểm suy luận vẫn còn bị tận dụng rất ít
Nhiều người đang tạo các foundation model cần suy luận trên phạm vi vấn đề rộng, nhưng chưa đủ người dùng cùng kỹ thuật đó để cải thiện hiệu năng theo từng tác vụ
Có thể dễ dàng chưng cất suy luận của một mô hình lớn hơn như R1 cho một tác vụ cụ thể. Xa hơn nữa, nếu trộn thêm các chỉ dẫn suy nghĩ tùy chỉnh cho những bài toán con cụ thể, mô hình đã fine-tune sẽ học cả suy luận theo tác vụ lẫn logic tùy chỉnh
Việc này không khó và dễ dàng thắng việc lặp đi lặp lại cải thiện prompt. Nếu tìm thấy lỗi, bạn cũng có thể sửa
Tôi đã tạo một dự án GitHub cho việc chưng cất mô hình suy nghĩ và fine-tuning ở thời điểm suy luận cho quy trình suy nghĩ tùy chỉnh: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- Tôi tò mò nên cấu trúc dữ liệu fine-tuning thế nào cho phạm vi câu hỏi linh hoạt trong một miền vấn đề cụ thể, chứ không phải một tác vụ cô lập
  Nó giống instruction tuning tổng quát, nhưng phạm vi hẹp hơn nhiều
  Ví dụ, giả sử xây một ứng dụng giúp bác sĩ tìm kiếm tài liệu nghiên cứu để hỗ trợ chẩn đoán và kiểm chứng giả thuyết; hiển nhiên cần xem nên tạo những câu hỏi nào thông qua chuyên gia miền và người dùng thực tế
  Nhưng bước tiếp theo, để đi tới một bộ dữ liệu cân bằng, đại diện đủ cho phân phối các câu hỏi, chỉ dẫn, văn phong và phong cách nhận thức, định dạng, luồng hội thoại khả dĩ, v.v., thì tôi thấy rất khó biết nên tiếp cận ra sao. Có vẻ có vô số chiều có thể vô tình bị overfit
Bài blog hơi không rõ ràng, nên tôi hiểu như sau
Họ tạo dữ liệu huấn luyện bằng QwQ, và dùng GPT-4o-mini để dọn dẹp một phần. Sau đó fine-tune Qwen2.5-32B-Instruct, vốn là mô hình không suy luận, bằng dữ liệu huấn luyện đó
Kết quả là Sky-T1 kém QwQ một chút ở các tác vụ suy luận, nhưng tốt hơn Qwen2.5 rất nhiều
Ở đây cũng có vài phản ứng chê bai, nhưng tôi thấy khá thú vị vì nó cho thấy có thể fine-tune một mô hình nền tảng để suy luận tốt hơn
- Giá mà họ cũng so sánh với các mô hình chưng cất r1 của qwen2.5
Đây không phải huấn luyện từ đầu mà là fine-tuning, nên trông hợp lý hơn nhiều
Dù tôi không theo quá sâu lĩnh vực này, nhưng với tư cách người từng tò mò về chi tiết fine-tuning, việc có thể lấy cả bộ dữ liệu lẫn code là điểm rất hay
URL tốt hơn: https://novasky-ai.github.io/posts/sky-t1/
- Thảo luận trước đó ở đây: https://news.ycombinator.com/item?id=42681417
Nó được huấn luyện bằng vết suy luận của QwQ, và khi đánh giá thì nhìn chung kém QwQ một chút
Khó có thể xem đây là thành tựu quá lớn
Phần cốt lõi có vẻ là: “Việc huấn luyện mô hình hoàn tất trong 19 giờ trên 8 H100 với DeepSpeed Zero-3 offloading, chi phí khoảng 450 USD theo giá của Lambda Cloud”

Tự huấn luyện mô hình O1 Preview với chi phí dưới 450 USD

Vấn đề mà Sky-T1 nhắm tới

Dòng mô hình suy luận trọng số mở và điểm khác biệt

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News