Hành vi nhận thức tạo nên các tác nhân suy luận có thể tự cải thiện

(arxiv.org)

2 điểm bởi GN⁺ 2025-03-08 | 1 bình luận | Chia sẻ qua WhatsApp

Khi tự cải thiện mô hình ngôn ngữ bằng học tăng cường trên các bài toán có thể kiểm chứng, ngay cả trong cùng điều kiện, Qwen-2.5-3B cải thiện mạnh trên Countdown trong khi Llama-3.2-3B nhanh chóng chững lại
Khác biệt về hiệu năng gắn với các hành vi suy luận mà mô hình ban đầu đã có sẵn như kiểm chứng, quay lui, đặt mục tiêu con và suy luận lùi
Qwen ngay từ đầu đã thể hiện việc kiểm chứng và quay lui tự nhiên hơn, còn Llama thiếu các hành vi này nên khó tận dụng hiệu quả lượng tính toán tăng thêm ở thời điểm suy luận
Khi priming cho Llama bằng các dấu vết suy luận tổng hợp chứa mẫu hình suy luận thay vì chỉ đúng/sai của đáp án, mô hình cho thấy quỹ đạo cải thiện trong RL tương đương Qwen
Khi tiếp tục tiền huấn luyện trên OpenWebMath đã được lọc, phân bố hành vi cần thiết cũng được tạo ra cho Llama, cho thấy việc thiết kế thói quen suy luận ban đầu ảnh hưởng trực tiếp đến khả năng tự cải thiện

Khả năng tự cải thiện phân hóa ngay cả dưới cùng một quy trình học tăng cường

Suy luận tại thời điểm kiểm thử (test-time inference) được dùng như một cách để mô hình ngôn ngữ “nghĩ” lâu hơn và cẩn thận hơn trước các bài toán phức tạp
Cách tiếp cận dùng học tăng cường (RL) trên các bài toán có thể kiểm chứng để giúp mô hình tự cải thiện không phải là mới, nhưng các phương pháp trước đây bị chững lại sau vài vòng lặp và chưa khám phá đầy đủ cách tận dụng hiệu quả tính toán ở thời điểm kiểm thử
Khi áp dụng cùng một quy trình học tăng cường cho trò chơi Countdown, sự khác biệt giữa hai mô hình 3B hiện ra rất rõ
- Qwen-2.5-3B cải thiện mạnh về khả năng giải bài
- Llama-3.2-3B chỉ đạt mức cải thiện hạn chế
Câu hỏi cốt lõi là: thuộc tính nào của mô hình ngôn ngữ ban đầu quyết định tiềm năng cải thiện về sau
Mã nguồn được công bố tại kho GitHub

Bốn hành vi suy luận giúp tự cải thiện

Đối tượng phân tích là bốn hành vi nhận thức có thể được nhận diện khá rõ trong đầu ra của mô hình
- Kiểm chứng (verification): kiểm tra có hệ thống đáp án hoặc các bước trung gian
- Quay lui (backtracking): từ bỏ cách tiếp cận thất bại và quay lại thử cách khác
- Đặt mục tiêu con (subgoal setting): chia bài toán thành các bước có thể quản lý được
- Suy luận lùi (backward chaining): bắt đầu từ kết quả mong muốn rồi suy ngược về đầu vào ban đầu
Những hành vi này giống với cách con người có kỹ năng giải quyết vấn đề
- Nhà toán học kiểm chứng từng bước của chứng minh
- Khi gặp mâu thuẫn thì quay lui
- Chia một định lý phức tạp thành các bổ đề đơn giản hơn
Bốn hành vi này vượt ra ngoài kiểu suy luận tuyến tính thông thường của mô hình ngôn ngữ, cho phép nắm bắt kiểu suy luận có khám phá nhiều nhánh và tự sửa đổi
Dù còn có các hành vi nhận thức khác, bốn hành vi này có định nghĩa rõ ràng và tương đối dễ nhận diện trong đầu ra của mô hình

Khác biệt hành vi ban đầu giữa Qwen và Llama

Phân tích ban đầu cho thấy Qwen thể hiện các hành vi suy luận cần thiết một cách tự nhiên hơn
- Đặc biệt nổi bật là kiểm chứng và quay lui
Llama ở trạng thái ban đầu thiếu các hành vi này
Từ đó đặt ra giả thuyết rằng một số hành vi suy luận cần phải có sẵn trong chính sách ban đầu thì mô hình mới có thể tận dụng hiệu quả các chuỗi suy luận dài và lượng tính toán tăng thêm ở thời điểm kiểm thử
Figure 1 so sánh hiệu năng của hai mô hình trên Countdown, sự thay đổi độ dài phản hồi trong quá trình học tăng cường, và mức độ xuất hiện của các đặc tính suy luận cụ thể

Priming hành vi: mẫu hình suy luận quan trọng hơn đáp án đúng

Can thiệp đầu tiên là priming cho Llama bằng các dấu vết suy luận tổng hợp có chứa những hành vi suy luận mong muốn
Sau khi thấy các ví dụ này, Llama cải thiện mạnh trong học tăng cường và đạt quỹ đạo hiệu năng tương đương Qwen
Đặc biệt, các dấu vết suy luận có chứa quay lui đóng vai trò quan trọng
Ngay cả khi priming bằng các lời giải không có đáp án đúng, nếu chứa mẫu hình suy luận phù hợp thì vẫn xuất hiện mức cải thiện hiệu năng tương tự
Trong thí nghiệm này, yếu tố quyết định khác biệt hiệu năng không phải bản thân đáp án đúng mà là sự hiện diện của hành vi suy luận

Thay đổi phân bố hành vi bằng tiếp tục tiền huấn luyện

Tiếp tục tiền huấn luyện bằng dữ liệu OpenWebMath cũng được đưa vào thử nghiệm
Dữ liệu được lọc để các hành vi suy luận bộc lộ mạnh hơn
Dữ liệu đã lọc được tái cấu trúc theo định dạng Query, Thought, Answer
Khi huấn luyện Llama theo cách này, các mẫu hành vi cần thiết được hình thành và mô hình có thể dùng tính toán tại thời điểm kiểm thử hiệu quả hơn
Kết quả là quỹ đạo cải thiện của Llama chuyển sang mức tương đương Qwen

Thói quen suy luận ban đầu quyết định khả năng cải thiện

Có mối liên hệ mạnh giữa hành vi suy luận ban đầu của mô hình và khả năng tự cải thiện
Khác biệt giữa Qwen và Llama cho thấy ngay cả dưới cùng một quy trình học tăng cường, kết quả vẫn có thể thay đổi tùy theo mẫu hành vi ban đầu
Mô hình có các hành vi suy luận phù hợp sẽ tận dụng được lượng tính toán bổ sung để thực hiện suy luận dài hiệu quả hơn
Mô hình thiếu các hành vi này có thể nhanh chóng chững lại ngay cả trong cùng điều kiện huấn luyện
Việc hiểu và chủ động tạo ra các hành vi suy luận ban đầu có liên hệ trực tiếp với phát triển các hệ thống AI thực sự cải thiện được năng lực giải quyết vấn đề

1 bình luận

GN⁺ 2025-03-08

Các bình luận trên Hacker News

Đoạn “bốn hành vi nhận thức cốt lõi mà cả chuyên gia giải quyết vấn đề là con người lẫn các mô hình ngôn ngữ thành công đều dùng — xác minh, quay lui, đặt mục tiêu con, suy luận ngược” khá thú vị
Khi làm AI tốt hơn, có thể ta cũng vô tình tìm ra cách làm trí tuệ con người tốt hơn
Gần đây khi ôn thi, tôi đã có một trải nghiệm cá nhân tương tự: đọc các bài tập và bắt chước cách suy luận cũng như tính cách của Deepseek R1, nói thành tiếng
Vì đọc nhiều đầu ra R1 dài và chi tiết, bộ não tôi về cơ bản như được tinh chỉnh cho các nhiệm vụ suy luận, và tôi cho rằng cách đó đã góp phần giúp tôi đạt điểm tốt trong kỳ thi
- Đây là một phương pháp đã được biết đến rộng rãi. Diễn đạt quá trình suy nghĩ bằng lời — dù nói thành tiếng hay viết ra — là một chiến lược lâu đời để kiểm tra xem mình có thực sự đang suy nghĩ hay chỉ lướt qua đại khái
  Trớ trêu là tôi cũng thấy có người lo rằng việc dùng AI sẽ tước mất năng lực này của con người
  Dù vậy, ở đây có tiềm năng, và tôi thật lòng hy vọng rằng khi nghiên cứu AI, chúng ta cũng sẽ tìm ra cách cải thiện trí tuệ con người
  Ngay cả nhìn một cách bi quan, ít nhất nó cũng giúp phơi bày những cách tiếp cận mà con người dùng trong vô thức; một khi biết mình đang làm gì, việc rèn luyện nó tốt hơn sẽ dễ hơn nhiều
- Tôi cũng dùng cách này cho những vấn đề lập trình mà bình thường tôi sẽ trì hoãn rồi giao cho tiềm thức xử lý
  Việc thực sự viết ra toàn bộ các bước suy nghĩ giúp sắp xếp lại những bước suy luận sai hoặc việc giậm chân tại chỗ do trí nhớ làm việc hạn chế gây ra
  Từ sau khi thấy AI dựa trên suy luận suy nghĩ như thế nào, tôi bắt đầu làm nghiêm ngặt hơn, và nó có vẻ là một kỹ thuật tư duy khá hữu ích
  Những mô hình AI suy luận như vậy giúp tôi nhìn chính suy nghĩ của mình ở tầng meta, và cho tôi thấy các công cụ có thể dùng để cải thiện
  Rất vui vì không chỉ mình tôi cảm thấy vậy
- Nghĩ thành tiếng là một thực hành lâu đời, giống như “debug bằng vịt cao su” với chính bản thân
  Là người xuất thân từ một dòng dõi tổ tiên hay tự nói một mình khi giải bài, đôi khi điều đó lại là một bất lợi nhỏ trong các kỳ thi có giám thị. Độc thoại nội tâm và phát ngôn thật sự khá khác nhau
- Có vẻ các nhà khoa học máy tính đang cosplay thành nhà khoa học nhận thức mà chưa từng học một lớp tâm lý học nào
- Bốn điều đó nghe như một thuật toán nhận thức thống nhất. Đó là cách chia vấn đề thành các mục tiêu con để tạo bản thể luận, xác minh đúng công việc, suy nghĩ ngược để debug lỗi và thử lại, rồi suy luận ngược từ kết quả
  Rốt cuộc, đó là một thuật toán để giải các vấn đề khó, là một kỹ năng có thể luyện tập, và càng thành thạo thì nó càng tự tích lũy thêm
Đến mức này thì chỉ nhìn tiêu đề thôi cũng không phân biệt được đây là trào lưu tâm lý học tự hoàn thiện bản thân hay một bài báo về LLM
- Chắc chẳng bao lâu nữa sẽ có LLM suy luận chỉ bằng các nguyên lý đầu tiên của The Subtle Art of Not Giving a Fuck
Kiến thức về kỹ thuật huấn luyện AI đã giúp được bao nhiêu trong việc tìm ra cách huấn luyện con người suy nghĩ tốt hơn?
- Chúng ta vốn đã có kiến thức về cách ăn uống để tránh các tình trạng cực đoan như béo phì, nhưng nhìn hiệu quả thì biết
  Cho đến khi có viên thuốc giúp suy nghĩ tốt hơn, chỉ những người có động lực mới thực hành, và trong trường hợp này, rất có thể những người có động lực vốn đã có thể làm được
- Vì có nền tảng giáo dục, tôi lại thường đặt câu hỏi ngược lại. Tại sao các kỹ thuật AI hầu như không tận dụng những gì chúng ta biết về học tập của con người để huấn luyện AI tốt hơn?
- Cho đến nay có vẻ chưa phát hiện điều gì thật sự thú vị
Phần “một mô hình được chuẩn bị bằng lời giải sai nhưng chứa mẫu suy luận đúng đạt hiệu năng tương tự mô hình được huấn luyện bằng đáp án đúng” là một trong những đoạn đáng được nghiên cứu tái lập nhất
Thỉnh thoảng tôi thấy trên Reddit có người nói về trải nghiệm độc thoại nội tâm, nhưng tôi thì không có thứ độc thoại đó. Ít nhất là không ở dạng mà phần tâm trí tự gọi mình là ‘tôi’ có thể truy cập được
Tôi thường tự hỏi liệu độc thoại đó có phải là một dạng ‘chuỗi suy nghĩ’ hay không
Tôi cảm thấy có lẽ vì không truy cập được ‘dòng ý tưởng’ như vậy nên khả năng lập kế hoạch hay chức năng điều hành của tôi kém hiệu quả hơn người khác
Dù vậy, với các nhiệm vụ như thế này, dùng một cuốn sổ nháp ‘chuỗi suy nghĩ’ nhỏ hiệu quả hơn nhiều
Mặt khác, nếu suốt ngày cứ như có ai đó nói bên tai thì những hành vi như nhai đi nhai lại, tự nghi ngờ và lo âu có vẻ sẽ đi kèm; có lẽ tôi ít làm những việc đó hơn, nhưng chuyện này có lẽ hơi lạc đề
- Trong đầu bạn hoàn toàn không hình thành suy nghĩ theo cách ngôn ngữ sao? Tôi tò mò liệu bạn có thể đọc một câu và nhận biết nó như một câu trong đầu không, hay việc đó cũng không thể
  Tôi không nghi ngờ, chỉ thật sự tò mò. Là người có độc thoại nội tâm rất mạnh, tôi khó hình dung trạng thái không có nó
- Tôi hỏi vì thật sự tò mò: vậy suy luận nhiều bước hoạt động thế nào?
  Ví dụ với một bài toán như 16 * 3 + 5, trong đó từng bước thì dễ nhưng cần nhiều bước, giá trị 16 * 3 = 48 đi vào ‘thanh ghi’ nào đó của não, tức trí nhớ ngắn hạn, bằng cách nào, rồi cộng thêm 5 để ra 53 ra sao?
  16 * 3 + 5 quá dễ nên có thể bạn chỉ ‘nhìn ra’ luôn, nhưng nếu chọn bài phức tạp hơn thì câu hỏi vẫn như vậy
  Chẳng phải cùng một siêu quy trình đó cũng hoạt động khi suy nghĩ về các chủ đề mơ hồ hơn sao?
- Tôi có độc thoại nội tâm. Đồng thời tôi cũng có thể suy nghĩ bằng hình ảnh, và cũng có thể suy nghĩ bằng ý nghĩ thuần túy không thuộc cả hai dạng đó
  Tôi cho rằng đa số mọi người giống tôi. Có ba chế độ tư duy, và mỗi người sẽ có một chế độ chính ưa thích
  Tôi không đặc biệt thích một chế độ nào; tùy việc đọc, viết hay làm việc khác mà tôi chuyển qua lại giữa ba chế độ
  Nhóm lớn thứ hai chỉ có một chế độ tư duy chính, chính là độc thoại nội tâm
  Họ chỉ có thể suy nghĩ bằng giọng nói bên trong, và giọng đó mạnh đến mức tôi thường thấy có người xem chính giọng nói nội tâm là định nghĩa của suy nghĩ. Họ giả định suy nghĩ chính là chuỗi suy nghĩ
  Hiếm hơn nữa là những người gán màu cho con số, hoặc những người không có cảm giác suy nghĩ bằng hình ảnh
  Đây là lần đầu tôi thấy có người nói mình hoàn toàn không thể có độc thoại nội tâm
- Có một hiện tượng thú vị gọi là aphantasia, tức không thể hình dung bất cứ thứ gì trong đầu. Những người như vậy vẫn sống bình thường, và có thể cả đời không biết mình khác biệt
  Điều này khiến tôi nghĩ đến một khái niệm tương tự về khả năng hình dung âm thanh lời nói trong đầu
  https://en.m.wikipedia.org/wiki/Aphantasia
  Tuy nhiên, phần lớn suy nghĩ của tôi không diễn ra dưới dạng một độc thoại tuyến tính trong đó tôi “diễn đạt bằng lời” các bước cho chính mình
- Ý bạn là không thể suy nghĩ bằng ngôn ngữ à? Thành thật mà nói nghe hơi đáng sợ
Nói thì đúng, nhưng AI tự cải thiện kéo theo một lối tư duy hơi đáng lo
AI bên trong chuyển sang một thứ ngôn ngữ kiểu lẩm bẩm vô nghĩa, nhưng giữa các AI thì rõ ràng vẫn truyền đạt được ý nghĩa, suy nghĩ bằng ngôn ngữ đó rồi đưa ra đáp án đúng
Tệ hơn nữa là nếu dùng nhiều agent để cho các AI LLM nói chuyện với nhau, tất cả agent AI đều chuyển sang ngôn ngữ nội bộ này; con người hoàn toàn không hiểu chuyện gì đang xảy ra mà chúng vẫn đạt tiến triển. Điều này trông rất tệ
Ví dụ: nếu hỏi “trong strawberry có mấy chữ r?”, nó sẽ nhìn từng chữ cái của từ đó rồi xử lý kiểu a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j, sau đó trả lời “trong strawberry có 3 chữ r”
- Tôi từng nghe người ta gọi thứ này là “Neuralese”. Khá hợp lý khi nó có thể trở thành ngôn ngữ có mật độ thông tin cao nhất cho hội thoại nội bộ của mô hình. Nếu chia sẻ cùng trọng số thì trong giao tiếp giữa các LLM cũng sẽ như vậy
  Vì các chiến lược căn chỉnh dựa vào Deliberative Alignment nên hiện tượng như vậy sẽ bị phạt, nhưng tôi nghĩ đến một lúc nào đó Neuralese sẽ dày đặc hơn về mặt khái niệm, nên sẽ phát sinh chi phí hiệu năng thực tế
- Các mô hình sẽ không tự phát minh ra một ngôn ngữ mới đâu. Theo định nghĩa, chúng thậm chí không thể “suy nghĩ” bằng một ngôn ngữ chưa từng thấy
  Chúng cũng không thể nảy ra ý tưởng rằng ngôn ngữ mình đang dùng có thể chưa tối ưu
  Và ngay cả nếu có một cách tư duy tốt hơn, rốt cuộc cũng có thể giải thích nó bằng tiếng Anh
  Diễn biến hợp lý hơn là chúng ta dần chuyển từ giai đoạn dạy LLM cách suy luận sang giai đoạn LLM thực sự nuốt và xử lý đủ dữ liệu, học được cách suy luận hiệu quả hơn rồi “dạy” lại cho chúng ta
  Dù vậy, điều đó cũng chỉ phản ánh cách LLM được huấn luyện và căn chỉnh mà thôi
Bài nói “bốn hành vi nhận thức cốt lõi mà cả chuyên gia giải quyết vấn đề là con người và các mô hình ngôn ngữ thành công đều sử dụng — xác minh, quay lui, đặt mục tiêu con, suy luận ngược”, nhưng dựa vào đâu để nói rằng chuyên gia giải quyết vấn đề là con người dùng những phương pháp đó?
- Nếu tạm gác sự hoài nghi với AI sang một bên thì mấy thứ giả khoa học kiểu này cũng đều nghe có vẻ hợp lý
Có phải nếu đưa ra system prompt tốt hơn để khuyến khích những hành vi như vậy thì hiệu năng cũng sẽ cải thiện đáng kể không?
- Theo kinh nghiệm của tôi, các mô hình không làm theo những prompt như vậy tốt lắm
  Các mô hình “không suy luận” thông minh như Claude 3.5 thì làm được, nhưng khi suy nghĩ chúng tạo quá nhiều văn bản đến mức dùng hết cửa sổ ngữ cảnh
Trong phần tóm tắt có viết ``think'', nhưng ở đây dùng ký tự khác với dấu ngoặc kép thông thường
- Đó là cú pháp LaTeX để biểu thị dấu ngoặc mở và dấu ngoặc đóng
  Có điều trong bài báo đã render thì kỳ lạ là nó lại không được render như vậy

Hành vi nhận thức tạo nên các tác nhân suy luận có thể tự cải thiện

Khả năng tự cải thiện phân hóa ngay cả dưới cùng một quy trình học tăng cường

Bốn hành vi suy luận giúp tự cải thiện

Khác biệt hành vi ban đầu giữa Qwen và Llama

Priming hành vi: mẫu hình suy luận quan trọng hơn đáp án đúng

Thay đổi phân bố hành vi bằng tiếp tục tiền huấn luyện

Thói quen suy luận ban đầu quyết định khả năng cải thiện

Bài viết liên quan

1 bình luận

Các bình luận trên Hacker News