s1: đối thủ của R1 với giá 6 USD?

(timkellogg.me)

14 điểm bởi GN⁺ 2025-02-06 | 2 bình luận | Chia sẻ qua WhatsApp

Bài báo mới công bố ngày 3 tháng 2, “s1: Simple test-time scaling”, đang trở thành chủ đề nóng trong lĩnh vực AI
Điểm quan trọng không hẳn là bản thân mô hình, mà là việc nó cho thấy khả năng có thể xuất hiện một bước tiến lớn trong lĩnh vực AI
Mô hình này chưa đạt trình độ tối tân nhất (SOTA), nhưng là một mô hình nhỏ có thể chạy ngay trên laptop
Điều quan trọng là nó giúp hiểu cách kỹ thuật này hoạt động mà không cần các nội dung quá phức tạp

Mở rộng suy luận: “Wait” thay tôi!

OpenAI từng đưa ra biểu đồ để lập luận rằng “thời gian suy luận càng dài thì hiệu năng của LLM càng tốt”
Về cơ bản, nếu có thể “nghĩ” lâu hơn, LLM sẽ thể hiện hiệu năng cao hơn
Vấn đề là làm sao kiểm soát để mô hình có thể “nghĩ” lâu hơn trước khi trả lời, và trước đây vẫn thiếu giải thích rõ ràng về cách thực hiện điều đó
Bài báo s1 giải thích chi tiết phần này và khá thú vị

Khi LLM “nghĩ” trong lúc suy luận, quá trình tư duy nội bộ của mô hình được đặt trong các thẻ <think> và </think>, và khi </think> xuất hiện thì mô hình được huấn luyện để chuyển sang giọng điệu tự tin, có thẩm quyền nhằm đưa ra câu trả lời cuối cùng

Bài báo s1 mô tả một kỹ thuật đơn giản là ép "</think>" được thay bằng "Wait" để khiến mô hình “cân nhắc” lâu hơn
- Bằng cách loại bỏ hoặc thay thế "</think>", có thể dẫn dắt mô hình tiếp tục nghĩ thêm
- Cũng có thể cắt ngắn quá trình suy luận bằng cách đột ngột chèn "</think>" vào
Theo cách này, có thể suy đoán rằng các mô hình như o3-mini-low và o3-mini-high đã được huấn luyện để áp dụng các thời gian suy luận trung bình khác nhau
- Có lẽ họ đã huấn luyện 3 mô hình, mỗi mô hình có một thời gian suy nghĩ trung bình khác nhau (được đo trong lúc huấn luyện)
- Cuối cùng, quá trình huấn luyện bắt đầu mã hóa hành vi đó vào trọng số của mô hình

Liên hệ với Entropix

Kỹ thuật “Wait” được nêu trong bài báo s1 thực ra không khác quá nhiều so với hướng tiếp cận mà Entropix theo đuổi
Entropix là một kỹ thuật thay đổi cách chọn token bằng cách xem xét entropy của logits và attention, cùng với varentropy
- Có vẻ họ cũng đã thử khiến mô hình xem xét lại câu trả lời của chính mình thông qua các token như “Wait”
Dự kiến cách làm này có thể được áp dụng cả ở thời điểm suy luận (inference time) lẫn thời điểm huấn luyện

Tiết kiệm dữ liệu ở mức cực đoan (Extreme Data Frugality)

Lý do mô hình s1 được cho là chỉ tốn 6 USD để phát triển là vì nó được huấn luyện bằng mô hình nhỏ và lượng dữ liệu ít
Họ tiến hành theo kiểu chỉ chọn ra 1K mẫu có giá trị nhất từ 56K mẫu ví dụ để sử dụng
- Kết luận là dữ liệu bổ sung hoàn toàn không cải thiện hiệu năng của mô hình
Vì là mô hình cỡ 32B nên nó có thể chạy được trên laptop
Họ dùng 16 chiếc NVIDIA H100 trong khoảng 26 phút, và chi phí đó được ước tính vào khoảng 6 USD
Chi phí thấp giúp có thể thử nhiều thí nghiệm ablation, và trên thực tế họ đã lặp lại việc huấn luyện lại toàn bộ trong khi thay đổi từng biến số nhỏ
- Ví dụ: trực tiếp đo xem token “Wait” hay “Hmm” hiệu quả hơn
- Họ cũng thử nghiệm phần nào trong dữ liệu ví dụ cốt lõi cung cấp tín hiệu có ý nghĩa nhất

Hàm ý địa chính trị (Geopolitics)

Có quan điểm cho rằng AI gắn chặt với an ninh quốc gia
Đây cũng là lý do những công ty như OpenAI hay Anthropic đổ vào các khoản ngân sách khổng lồ
Dù đã xuất hiện các đổi mới giúp giảm chi phí như s1, điểm quan trọng vẫn là với nguồn vốn khổng lồ, người ta có thể tiến hành đồng thời nhiều thử nghiệm hơn rất nhiều
Cũng đang xuất hiện lập luận rằng cần đầu tư lớn hơn nữa để đẩy nhanh tốc độ phát triển AI

Distealing (chưng cất mô hình trái phép)

Bộ dữ liệu s1 về cơ bản là kết quả chưng cất (distillation) sử dụng thought trace từ một mô hình khác (Qwen2.5)
OpenAI hiện nghi ngờ DeepSeek đã chưng cất trái phép mô hình o1 của họ để tạo ra mô hình V3
Tuy nhiên trên thực tế, việc ngăn chặn hành vi chưng cất ngày càng trở nên khó hơn
- Cỡ khoảng 1.000 ví dụ là mức mà cá nhân hoàn toàn có thể tự thu thập được
Việc OpenAI gần đây công bố mô hình o3 dưới dạng agent thay vì phát hành trực tiếp cũng có vẻ là một nỗ lực nhằm ngăn chặn kiểu chưng cất trái phép này

Kết luận

Sự xuất hiện của s1 là một ví dụ cho thấy AI đang tiến hóa nhanh đến mức nào trong không gian mở
Những công ty như OpenAI và Anthropic nhiều khả năng sẽ đạt được tiến bộ còn nhanh hơn nhờ tận dụng lượng tài nguyên tính toán lớn hơn rất nhiều
s1 không phải là bản sao nguyên xi của R1 hay o1, mà gợi ý rằng ngay cả chỉ với SFT (Supervised Fine Tuning), không cần RL, vẫn có thể mở ra những khả năng tương tự
Có nhận định rằng năm 2025 sẽ còn xuất hiện những đổi mới lớn hơn nữa

2 bình luận

hoonix 2025-02-06

Cách chơi chữ biến Distillation thành Distealing thật thú vị!

GN⁺ 2025-02-06

Ý kiến trên Hacker News

Việc mở rộng suy luận thông qua kiểu hack 'Wait' rất thú vị. Cảm giác như sự tiến bộ của khoa học máy tính giống hệt như đang niệm chú, ở chỗ một phương pháp đơn giản cũng có thể ảnh hưởng đến hiệu năng. Tò mò không biết có thể bắt đầu kiểu tư duy này như thế nào
Nếu luồng suy nghĩ đóng vai trò như một “lớp” tạm thời cho mô hình và là bộ đệm để xử lý văn bản, thì không biết liệu có hợp lý khi biến bộ đệm này thành một ngữ cảnh riêng với FNN và cơ chế attention riêng hay không. Điều này có thể kết hợp với các vi quy trình được mô tả bằng ngôn ngữ tự nhiên để tạo ra biểu diễn “suy nghĩ” đậm đặc hơn
CoT là kỹ thuật đã được biết đến rộng rãi, nhưng DeepSeek đã tập trung vào việc tìm cách tối ưu bộ nhớ, băng thông và tính song song do giới hạn về compute. Các tối ưu ở cấp hạ tầng và phần mềm của họ rất đáng chú ý
Tôi nghĩ các benchmark hiện tại chưa đủ mạnh, và các phòng thí nghiệm LLM ở Mỹ hẳn đã nhận ra sự thiếu hụt trong tối ưu hạ tầng và phần cứng. Mức độ RL và quá trình huấn luyện nền sẽ ngày càng quan trọng hơn
Thú vị ở chỗ các phương pháp thử nghiệm bằng cách hack AI cũng đang được các lab sử dụng. Tôi đã dùng cách thay bằng 'Okay' để khiến R1 tiếp tục suy nghĩ
Tôi đã bookmark blog của Tim. Những tiến bộ trong AI và mạng nơ-ron thật đáng kinh ngạc. Cá nhân tôi đang gặp khó khăn khi xây dựng agent dựa trên LLM với các mô hình on-device còn yếu
Sở hữu 10.000 H100 đồng nghĩa có thể làm nhiều thí nghiệm hơn S1 tới 625 lần. Các tập đoàn lớn có xu hướng lãng phí tài nguyên compute
Cách kiểm soát độ dài đầu ra của mô hình suy luận thật thú vị. Tôi đã phát hiện ra cách thay bằng 'Wait' để chèn CoT và khiến việc jailbreak trở nên dễ hơn
Cung cấp liên kết đến bài báo gốc về S1
Trong các tổ chức lớn, không thể làm quá nhiều thí nghiệm, và nhân viên tập trung vào việc cho ra kết quả thật nhanh. Họ đẩy công việc đi vội vã vì lợi ích ngắn hạn
Việc gọt giũa đầu ra của LLM giống như tạo ra một tác phẩm điêu khắc. Phải đặt mô hình vào một game loop và tương tác ở mỗi tick để đạt được kết quả mong muốn. Cơn khát tài nguyên compute sẽ còn tiếp tục

s1: đối thủ của R1 với giá 6 USD?

Mở rộng suy luận: “Wait” thay tôi!

Liên hệ với Entropix

Tiết kiệm dữ liệu ở mức cực đoan (Extreme Data Frugality)

Hàm ý địa chính trị (Geopolitics)

Distealing (chưng cất mô hình trái phép)

Kết luận

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News