LIMO: Càng ít càng tốt cho suy luận (Less is More for Reasoning)

(arxiv.org)

3 điểm bởi GN⁺ 2025-02-10 | 1 bình luận | Chia sẻ qua WhatsApp

LIMO cho thấy, trái với quan niệm phổ biến rằng suy luận toán học phức tạp cần lượng lớn dữ liệu có giám sát, chỉ với 800 mẫu vẫn có thể khai mở năng lực suy luận nâng cao
Áp dụng supervised fine-tuning (SFT) đơn giản cho Qwen2.5-32B-Instruct, mô hình đạt độ chính xác 63.3% trên AIME24 và 95.6% trên MATH500, vượt xa các mô hình fine-tuning trước đó với 6.5% và 59.2%
Dữ liệu huấn luyện chỉ ở mức 1% so với các cách tiếp cận trước, nhưng vẫn cho khả năng tổng quát hóa tốt hơn trên nhiều benchmark và các kịch bản chưa từng thấy, vượt cả những mô hình được huấn luyện với lượng dữ liệu nhiều hơn 100 lần
Giả thuyết cốt lõi là tri thức miền đã được mã hóa sẵn trong mô hình nền, cùng với một số ít ví dụ chất lượng cao hướng dẫn quá trình giải, hoạt động như các mẫu nhận thức
Điểm nghẽn của việc huấn luyện suy luận không nằm ở độ phức tạp của bài toán, mà phụ thuộc nhiều hơn vào mức độ hoàn thiện của tri thức tiền huấn luyện và chất lượng của các ví dụ hậu huấn luyện giúp mô hình tận dụng chuỗi suy luận

Quan niệm phổ biến trước đây mà giả thuyết LIMO nhắm tới

Trong huấn luyện suy luận trước đây, xu hướng chủ đạo là cho rằng để giải các bài toán toán học hoặc lập trình cần đến hàng chục nghìn đến hàng trăm nghìn ví dụ
Cách tiếp cận này dùng dữ liệu có giám sát quy mô lớn để cho mô hình thấy logic nhiều bước, cách áp dụng tri thức miền và lộ trình giải có cấu trúc
Dù đã có những trường hợp thành công, việc thu thập dữ liệu quy mô lớn và huấn luyện kéo theo chi phí tính toán đáng kể
Giả thuyết LIMO cho rằng ngưỡng để khơi dậy suy luận phức tạp phụ thuộc vào hai điều kiện sau nhiều hơn là độ khó của nhiệm vụ
- Liệu tri thức cần thiết có tồn tại tiềm ẩn trong tham số của mô hình hay không
- Liệu một số ít ví dụ có thể thể hiện hiệu quả quá trình giải quyết vấn đề và khiến mô hình tận dụng không gian tính toán khi suy luận hay không

Vì sao vẫn khả thi với ít dữ liệu

Các mô hình nền gần đây đã bao gồm nhiều nội dung toán học hơn rất nhiều trong giai đoạn tiền huấn luyện
- Toàn bộ dữ liệu huấn luyện của Llama 2 là 1.8T token
- Llama 3 sử dụng 3.7T token cho suy luận toán học
Nhờ sự thay đổi này, trọng tâm của huấn luyện suy luận chuyển từ việc đưa thêm tri thức toán học mới vào mô hình sang khơi ra phần tri thức đã được mã hóa sẵn
Mở rộng tính toán tại thời điểm suy luận cũng là một điều kiện quan trọng
- Các kỹ thuật kéo dài chuỗi suy luận có thể nâng cao đáng kể năng lực suy luận
- Tính toán khi suy luận hoạt động như một không gian làm việc nhận thức, nơi mô hình giải nén và áp dụng tri thức từ tiền huấn luyện
LIMO cho rằng khi tri thức tiền huấn luyện phong phú kết hợp với đủ tài nguyên tính toán lúc suy luận, có thể kích hoạt năng lực suy luận bằng một số ít mẫu chất lượng cao thay vì cần dữ liệu khối lượng lớn

Cách chọn ra 800 mẫu

Thay vì thu thập nhiều dữ liệu, cách tiếp cận LIMO bắt đầu bằng quá trình sàng lọc nghiêm ngặt để tìm ra các mẫu chất lượng cao
Áp dụng bộ lọc nhiều tầng lên một tập lớn các cặp QA
- Trước hết dùng lọc độ khó thô để loại bỏ các bài quá dễ
- Sau đó đánh giá độ khó chi tiết hơn để xác định các bài toán mang tính thử thách
- Đa dạng hóa các điểm kiến thức để bảo đảm độ bao phủ toàn diện
Chuỗi suy luận cũng được xem xét riêng theo các tiêu chí
- Tính nhất quán logic
- Độ rõ ràng theo từng bước
- Độ chính xác của lời giải
Qua quy trình này, nhóm tạo ra một bộ dữ liệu nhỏ nhưng mạnh gồm 800 mẫu huấn luyện

Hiệu năng trên benchmark

LIMO dựa trên Qwen2.5-32B-Instruct và chỉ dùng 800 mẫu đã được tuyển chọn để thực hiện SFT đơn giản
Các kết quả chính như sau
- Độ chính xác trên AIME24: 63.3%
- Độ chính xác trên MATH500: 95.6%
Các mô hình fine-tuning trước đây ghi nhận 6.5% trên AIME24 và 59.2% trên MATH500, cho thấy khoảng cách lớn so với LIMO
Lượng dữ liệu huấn luyện cần thiết chỉ ở mức 1% so với các phương pháp trước
Mô hình cho thấy khả năng tổng quát hóa ngoài phân phối mạnh mẽ trên nhiều benchmark toán học và liên ngành, đạt mức cải thiện tuyệt đối 45.8% trên toàn bộ đánh giá
Trong nhiều kịch bản chưa từng thấy, mô hình cũng đạt hiệu năng cao hơn những mô hình được huấn luyện với lượng dữ liệu nhiều hơn 100 lần

Đóng góp và tài liệu công khai

Đóng góp cốt lõi của LIMO là chính thức hóa Less-Is-More Reasoning Hypothesis, cho rằng có thể khơi dậy năng lực suy luận phức tạp chỉ với một số ít ví dụ
Nhóm xây dựng bộ dữ liệu theo nguyên tắc LIMO và fine-tune Qwen2.5-32B-Instruct bằng SFT đơn giản
Kết quả thực nghiệm cho thấy hiệu năng cạnh tranh trên các benchmark suy luận toán học khó cùng khả năng hoạt động ngoài phân phối rất tốt
Phân tích và ablation study xác thực hiệu quả của nguyên tắc chọn dữ liệu, đồng thời khảo sát khả năng áp dụng theo mức tri thức của mô hình nền, kích thước mô hình và khác biệt kiến trúc
Nghiên cứu cũng xem xét lượng dữ liệu tối thiểu cần có để đạt hiệu năng cạnh tranh
Mô hình, mã nguồn và bộ dữ liệu đã sàng lọc được công bố qua kho GitHub

1 bình luận

GN⁺ 2025-02-10

Các ý kiến trên Hacker News

Kết quả rất ấn tượng, nhưng có hai điểm đáng nhắc đến: mô hình được tinh chỉnh từ Qwen-2.5 Instruct, vốn đã bao gồm hàng triệu ví dụ toán học được tuyển chọn kỹ trong quá trình tiền huấn luyện và tinh chỉnh có giám sát.
Ngoài ra, để tạo ra 817 ví dụ toán học hoàn hảo cho LIMO, họ đã dùng các mô hình mới nhất như R1 để lọc một tập 10 triệu bài toán.
Nói cách khác, đã có rất nhiều trí tuệ được đưa vào để tạo ra dữ liệu tinh chỉnh có lượng thông tin cao và được chưng cất tối đa, nên tôi không chắc điều này ấn tượng hơn hay kém ấn tượng hơn so với việc cứ tinh chỉnh trực tiếp trên toàn bộ tập ban đầu 10 triệu bài toán rồi thu được cùng kết quả.
Tuy nhiên, cách sau có lẽ sẽ kém hấp dẫn hơn khi đưa lên tiêu đề.
- Ngay trong phần tóm tắt, các tác giả cũng nêu rõ hai điểm này là điều kiện ngưỡng để khơi gợi suy luận phức tạp: một mô hình nền tảng đã tiền huấn luyện ở mức cực kỳ hoàn thiện, và một tập ví dụ hậu huấn luyện chất lượng cực cao.
  Về trực giác, bài toán tinh chỉnh trên tập ban đầu 10 triệu mẫu có vẻ sẽ cần một lượng dữ liệu tinh chỉnh khổng lồ mới làm dịch chuyển được hiệu năng, còn chỉ 817 ví dụ thì khó thay đổi gradient đáng kể.
  Tập ban đầu đó thực chất đóng vai trò như một dạng chính quy hóa khá mạnh.
  Gần đây ngày càng có nhiều quan tâm đến việc chứng minh rằng dữ liệu nhỏ và mở rộng lúc suy luận có thể đem lại thành quả lớn.
  Ví dụ gần đây có TinyZero: https://github.com/Jiayi-Pan/TinyZero, và s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393.
- Tôi không hiểu vì sao việc dùng thông tin từ mô hình trước đó để tạo ra một mô hình hiệu quả hơn lại bị phê phán như vậy.
  Tận dụng nghiên cứu trước để tiến bộ không có gì sai, và cải thiện hiệu quả cũng là một dạng tiến bộ.
  Đâu ai phê phán việc làm kombucha chỉ vì không tự lắp ráp từng vi sinh vật trong SCOBY.
- Cũng có thể xem việc chọn 817 mẫu trong số 10 triệu mẫu chứa 12.290 bit thông tin.
- Hãy tưởng tượng có một cuốn giáo trình mang lại sự hiểu biết cần thiết để đạt điểm cao trong các kỳ thi toán, nhưng số bài được giải thích chưa tới 1.000.
  Bản thân điều đó đã là một phát hiện lớn về siêu nhận thức.
- Bài báo và phần giải thích này khá giống việc tạo một giáo trình ví dụ nhận thức “có lượng thông tin cao và được chưng cất tối đa” để dạy bước suy luận tiếp theo cho một học sinh đã hoàn tất nền tảng cơ bản.
  Sự phát triển của LLM trong vài năm qua đã cho thấy có thể mô hình hóa và dự đoán các phản ứng của con người nghe có vẻ hợp lý, như thể các phản hồi “suy luận” của con người được LLM tạo ra.
  Nói cách khác, nhiều phản hồi không hẳn là suy luận được cân nhắc kỹ, mà gần với một chuỗi sinh token hơn.
  Điều này rõ hơn nếu bạn ngồi cạnh một người đang “tự nói với mình” khi giải bài.
  Định nghĩa của tokgen có thể thấy rõ khi nghe lỏm các cuộc trò chuyện trong nhà hàng.
  Nhiều cuộc trò chuyện không phải là suy nghĩ sâu sắc mà là phản ứng nối tiếp prompt theo cách gần như hoàn toàn dự đoán được.
  Để phân biệt với lời nói xuất hiện sau một khoảng dừng và suy ngẫm, có thể dùng nhãn thought và token generation, tức tokgen.
Tôi không phải chuyên gia trong lĩnh vực này, nhưng tôi nghĩ các mô hình được tiền huấn luyện trên Internet đã thu được phần lớn năng lực cần thiết cho suy luận toán học.
Chỉ là mục tiêu của chúng là dự đoán phân phối từ tiếp theo trên toàn bộ Internet, trong khi phần lớn văn bản Internet không phải là loại văn bản suy luận như vậy, nên bình thường có vẻ chúng không dùng tốt năng lực đó.
Điều này giống vài năm trước, khi thêm “unreal engine” vào prompt của mô hình tạo ảnh thì chất lượng kết quả tăng mạnh.
Mô hình được huấn luyện để tạo ra phân phối ảnh trên Internet, mà phần lớn trong số đó không đặc biệt ấn tượng, nhưng các ảnh có chứa “unreal engine” thường là ảnh chụp màn hình chất lượng cao, nên phân phối sinh cũng dịch chuyển về phía chất lượng cao.
Vì vậy, mô hình đã có sẵn phần lớn năng lực tiềm ẩn, và vì chỉ cần điều chỉnh vài liên kết để khiến nó thực sự dùng năng lực đó, nên việc một lượng nhỏ ví dụ huấn luyện cũng có thể cải thiện năng lực suy luận toán học là hợp lý.
- Điều này khá giống việc Anthropic phân tích và thao tác các giá trị kích hoạt để tạo ra golden gate Claude, hoặc tối đa hóa/tối thiểu hóa các đặc trưng như “buggy code”[0].
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Bổ sung thêm một chút, nhận diện mẫu và tiếp diễn mẫu cũng có thể áp dụng cho đánh giá suy luận ký hiệu.
  Ví dụ, nếu định nghĩa ngữ nghĩa của một ngôn ngữ lập trình hàm bằng các quy tắc viết lại, ta sẽ thấy điều đó.
  Nếu mô hình có thể chuyển bài toán sang một ngôn ngữ đủ chính xác, bắt đầu khớp mẫu với chương trình sinh được mã hóa trong LLM, và đánh giá các hệ quả logic, thì ta bước vào một vùng rất thú vị.
  Dự đoán tự hồi quy có thể biến thành đánh giá và tính toán ký hiệu từng bước, trong khi LLM nền phía sau vẫn dẫn dắt việc chọn phép đánh giá và tìm kiếm mục tiêu.
  Nếu trong mô hình nền tảng đã có đủ nội dung để gắn một ngôn ngữ chính xác hơn vào một cách gọn gàng, thì có lẽ không nhất thiết cần một kho ngữ liệu khổng lồ để củng cố các quy tắc đánh giá như vậy.
- Kiểu suy luận mà R1 thể hiện phần lớn nghe với tôi như cách diễn đạt của học sinh lớp 5, nên nó ủng hộ giải thích trên.
  Dù vậy, nếu tiếp tục nén tri thức cần cho suy luận toán học, có lẽ cuối cùng sẽ xuất hiện một dạng kết hợp giữa lý thuyết phạm trù và thứ gì đó dựa trên quy tắc như Prolog.
- Điều này có thể có nghĩa là dù tinh chỉnh mô hình cơ sở bằng học có giám sát hay học tăng cường, nhìn chung mô hình cũng không trở nên thông minh hơn về bản chất; chỉ có quá trình tự giám sát ban đầu trong tiền huấn luyện mới làm được điều đó.
  Tất nhiên, nếu không một lượng học tăng cường nào có thể khiến LLM thực sự thông minh hơn thì điều đó cũng kỳ lạ.
Theo suy đoán của tôi, một số lĩnh vực như toán học tuy phổ quát nhưng có quy mô từ vựng hữu hiệu lớn bất thường, chẳng hạn như mọi con số có thể có, nên nếu huấn luyện theo cách hiệu quả với các lĩnh vực có từ vựng kích thước thông thường thì sẽ tốn kém hơn
Khi học các bước suy luận trong những miền vấn đề như vậy, có thể củng cố một lượng từ vựng phổ quát tương đối nhỏ như “cộng”, “nghịch đảo”, “giải”
Như vậy, số học của các tổ hợp số được tách khỏi từng bài toán riêng lẻ, và không còn nhấn mạnh vào đáp án một lần
Chỉ cần học N ví dụ suy luận và M ví dụ số học, chứ không cần học N*M bài toán toán học đầy đủ
Vì thế tuy phải dùng nhiều tài nguyên suy luận hơn, nhưng có thể đạt câu trả lời tốt hơn với ít huấn luyện hơn
Gác lý thuyết sang một bên, ở phía ứng dụng, cách cấu trúc biểu thức cuối cùng bằng quy trình suy luận tổng quát như vậy rồi chuyển cho một bộ đánh giá truyền thống có vẻ là hướng tốt
Khi đó suy luận và việc huấn luyện nó chỉ cần đi đến mức thao tác ký hiệu
Nó giống kiểu Wolfram Alpha, nơi xử lý ngôn ngữ tự nhiên được chuyển cho bộ đánh giá muộn hơn nhiều
- Một câu hỏi liên quan: đã từng có LLM là máy tính hoàn hảo chưa?
  Tức là khi đưa vào một biểu thức có các phép toán chuẩn +/- và số nguyên, nó luôn trả về kết quả đúng
  Tôi không nhớ đã thấy bài báo liên quan nào, nhưng tôi cũng không phải chuyên gia
Gần đây tôi có vẻ đã đọc hai điều mâu thuẫn nhau: rằng LLM tuyệt đối không thể khái quát hóa việc chứng minh định lý, và câu trong bài này rằng “các LLM hiện đại có thể đã có tri thức toán học phong phú trong không gian tham số, và nhiệm vụ chuyển từ thu nhận tri thức sang dẫn xuất tri thức”
Giờ tôi không còn biết đâu là đâu nữa
- Để nuốt viên thuốc đắng này, có lẽ phải thừa nhận rằng mọi tri thức của con người về thực chất là một phân bố hữu hạn tương đối “nhỏ”, và vì mô hình giờ đã đủ lớn để khớp mẫu trên đó nên LLM có thể “khái quát hóa”
- Có phải LLM có thể tạo ra không gian tìm kiếm đúng cho bài toán, nhưng quá trình xác định lời giải trong đó lại kém hiệu quả không?
  Nói cách khác, phần lớn học sinh đã học ghi chú bài giảng toán trung học đều có sẵn bên trong khả năng giành huy chương vàng Olympic
  Vì bản thân toán học không vượt quá nhiều so với nội dung trung học
  Nhưng việc thực sự đưa một học sinh trung học lên trình độ huy chương vàng Olympic là khó, và có thể là một thứ gì đó tương tự P so với NP
- Dù là phe cường điệu hay phe hoài nghi, ta sẽ thấy nhiều người tiếp tục nói những điều có thể kiểm chứng
  Đôi khi họ vẫn lặp lại cùng một luận điểm ngay cả khi bạn có ảnh chụp màn hình trái ngược với tuyên bố của họ
  Đặc biệt với những người hoài nghi, bạn có thể tự dùng các LLM hàng đầu để kiểm tra “nó có thực sự làm được điều mà ai đó khẳng định là không thể không?”
  Thường thì nó thực sự làm được
  Nhìn vào các bài báo gần đây do những người hoài nghi nộp, có trường hợp họ đưa ra tuyên bố về các LLM mới nhất nhưng chỉ kiểm thử những phiên bản đã hơn một năm tuổi
  Thực tế gần đây đã có chuyện như vậy^
  Nếu muốn chắc chắn điều gì đúng, chỉ còn cách tự dùng thử và phán đoán điều gì là thật
  ^ https://x.com/tylercowen/status/1881051976102035880
- Có thể có tri thức toán học phong phú mà vẫn không giỏi chứng minh định lý
  Ngược lại, cũng có thể chứng minh tốt các bài toán thi toán mà không có tri thức toán học phong phú
  Cũng có thể vừa có tri thức toán học phong phú vừa giỏi chứng minh định lý, nhưng chủ yếu chỉ trong lĩnh vực chuyên môn của mình
- Câu “LLM sẽ không bao giờ làm được X” có vẻ đơn giản là lúc nào cũng sai
Giống như các mô hình khuếch tán ảnh đã cho thấy có thể tóm lược một xấp xỉ hợp lý của toàn bộ thế giới thị giác vào một mô hình 5GB, liệu các mẫu suy luận cũng có thể được nén tương tự không?
Có phải các mẫu suy luận được dùng trong mọi lĩnh vực thực ra ít đến mức đếm được, và có thể nắm bắt bằng một tập huấn luyện tương đối nhỏ không?
- Tôi cho rằng các “mẫu suy luận” thực sự tổng quát, tức là chiến lược hay cách tiếp cận, không có nhiều
  Nhưng suy luận ứng dụng không chỉ cần các mẫu suy luận, mà còn cần một kho các bước suy luận hữu hiệu theo từng lĩnh vực có thể áp dụng theo cách tiếp cận đó
  Ngoài ra còn cần sự kết hợp các năng lực để vượt qua điểm tắc khi đã dùng hết tri thức và các bước suy luận đã học mà vẫn chưa đạt được lời giải
  Trong những lĩnh vực như toán học, chỉ một số ít bước suy luận chuyên biệt cho toán cũng có thể đi khá xa, nhưng bản thân toán học cũng có nhiều phân lĩnh vực như đại số, hình học, giải tích, tô pô
  Theo tôi biết, kỹ thuật của một lĩnh vực chỉ hữu ích cho lĩnh vực khác trong phạm vi có thể ánh xạ bài toán sang lĩnh vực đó
Tôi tò mò liệu tập 817 bài toán được tuyển chọn kỹ có hữu ích như một giáo trình để huấn luyện sinh viên toán bằng các bài toán đa dạng không
Nếu có thể tinh chỉnh bằng một bộ dữ liệu nhỏ như giả thuyết LIMO và khai mở tiềm năng suy luận hiệu quả bên trong mô hình nhỏ, thì có thể xảy ra một sự dịch chuyển quyền lực lớn từ các mô hình khổng lồ sang các mô hình nhỏ
Nếu quá trình này có thể lặp lại, nó có vẻ như đem lại sức mạnh gần như không giới hạn
Tuy nhiên, để nuôi được vòng lặp đó, bộ dữ liệu phải có một số tính chất nhất định
Nó phải dạy mô hình điều chỉnh suy luận cho phù hợp với kích thước mô hình, và phải được kiểm chứng theo kiểu một phủ tối thiểu giúp mở rộng độ sâu của chuỗi suy luận với hệ số phân nhánh nhỏ trong không gian tìm kiếm để phát hiện các mẫu sâu
Thật thú vị khi thấy lĩnh vực này ngày càng trở thành sư phạm học LLM
Suy luận là nghệ thuật dự đoán
Đó là việc chưng cất nhiều quan sát về thực tại thành một mô hình nhỏ về thực tại có thể dự đoán đủ tốt các quan sát mới
“Mô hình đơn giản nhất giải thích được phần lớn những gì tôi đang thấy là gì?” là câu hỏi cốt lõi mà tâm trí cố trả lời
Khi ta nắm được kỹ năng tạo ra những mô hình như vậy, ta sẽ khớp mẫu vấn đề mới với mô hình của mình và để mô hình đó dự đoán kết quả

LIMO: Càng ít càng tốt cho suy luận (Less is More for Reasoning)

Quan niệm phổ biến trước đây mà giả thuyết LIMO nhắm tới

Vì sao vẫn khả thi với ít dữ liệu

Cách chọn ra 800 mẫu

Hiệu năng trên benchmark

Đóng góp và tài liệu công khai

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News