Cách suy luận theo chuỗi suy nghĩ giúp mạng nơ-ron tính toán

(quantamagazine.org)

2 điểm bởi GN⁺ 2024-03-24 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ lớn thường thất bại nếu trả lời ngay những bài toán phải qua nhiều bước như phép tính số học dài, nhưng khi được yêu cầu tạo lời giải từng bước, chúng có thể giải cả những bài trước đây từng khó
Năm 2022, chain-of-thought prompting của các nhà nghiên cứu Google, một cách đơn giản yêu cầu mô hình xuất ra các bước trung gian, đã nhanh chóng phổ biến, nhưng vì sao nó hiệu quả vẫn là chủ đề đang được phân tích
Các nhà nghiên cứu dùng lý thuyết độ phức tạp tính toán để xem xét năng lực và giới hạn của Transformer, cho thấy cấu trúc tối ưu cho xử lý song song có thể hạn chế năng lực tính toán khi phải đưa ra câu trả lời ngay lập tức
Theo nghiên cứu lý thuyết của Merrill và Sabharwal, chain of thought bắt đầu thực sự hữu ích khi số bước trung gian tăng tỷ lệ với kích thước đầu vào, và nhiều bài toán cần còn nhiều bước hơn thế
Những kết quả này không có nghĩa là mô hình thực tế chắc chắn học được lời giải đó trong quá trình huấn luyện, nhưng cung cấp một khung để so sánh các kiến trúc mạng nơ-ron mới mà không đánh giá quá cao giới hạn của Transformer

Vì sao lời giải từng bước làm thay đổi hiệu năng của mô hình

Con người không cố trả lời đúng ngay lập tức những phép tính như cộng các số 20 chữ số, mà tích lũy phép tính từ hàng đơn vị sang bên trái
Các mô hình ngôn ngữ lớn cũng có thể làm đúng các bài số học vài bước, nhưng thường thất bại với những bài đòi hỏi nhiều bước như cộng các số lớn
Năm 2022, các nhà nghiên cứu Google đã cho thấy rằng nếu yêu cầu mô hình tạo lời giải từng bước, nó có thể giải được những bài trước đây có vẻ khó
Cách này được gọi là chain-of-thought prompting và nhanh chóng lan rộng, nhưng lý do nó hiệu quả vẫn đang được các nhà nghiên cứu phân tích

Cách Transformer trở nên mạnh hơn và các ràng buộc cấu trúc

Các mô hình ngôn ngữ lớn dựa trên mạng nơ-ron nhân tạo, biểu diễn và xử lý từ ngữ dưới dạng chuỗi số
- Trước khi huấn luyện, các tham số bắt đầu từ những giá trị ngẫu nhiên
- Mô hình dự đoán từ tiếp theo bằng lượng văn bản khổng lồ lấy từ Internet, rồi điều chỉnh tham số để giảm chênh lệch so với văn bản thực
Transformer, do các nhà nghiên cứu Google giới thiệu năm 2017, đã mở rộng mạnh mẽ nghiên cứu mô hình ngôn ngữ
- Trước Transformer, các mạng nơ-ron có nhiều nhất chỉ vài trăm triệu tham số
- Ngày nay, các mô hình lớn nhất dựa trên Transformer có hơn 1 nghìn tỷ tham số
Thành phần cốt lõi của Transformer là attention head
- Nó quét nhanh toàn bộ văn bản đầu vào và tìm các liên kết giữa những từ hữu ích cho việc dự đoán từ tiếp theo
- Sau đó, feedforward network thực hiện phần tính toán lớn
Cấu trúc sử dụng nhiều lớp attention head và feedforward network cho phép tính toán đồng thời trên từng từ trong quá trình huấn luyện
- Nhờ tính song song này, việc huấn luyện có thể được phân tán trên dữ liệu quy mô lớn và nhiều bộ xử lý
- David Chiang nói rằng để tận dụng các tập dữ liệu lớn thì mô hình cũng phải lớn, và nếu không song song hóa thì việc huấn luyện sẽ không thực tế
Trong sử dụng thông thường sau khi huấn luyện xong, Transformer xuất từng từ một, rồi gắn đầu ra đó trở lại đầu vào để tạo từ tiếp theo
- Vì cấu trúc vẫn được tối ưu cho xử lý song song, các nhà nghiên cứu bắt đầu xem xét liệu tính song song này có phải trả giá bằng năng lực tính toán hay không

Năng lực tính toán của Transformer nhìn từ lý thuyết độ phức tạp

Vì khó phân tích trực tiếp quá trình huấn luyện của mạng nơ-ron, một số nhà nghiên cứu giả định rằng có thể đặt tham số theo các giá trị mong muốn và phân tích năng lực tính toán nội tại của Transformer
Cách tiếp cận này xem Transformer như một loại máy tính có thể lập trình nhất định
- Nó đặt câu hỏi có thể tính được những hàm nào
- Và có thể giải được những loại bài toán nào
Năm 2019, Pablo Barceló và các đồng sự đã chứng minh rằng một Transformer lý tưởng hóa với số tham số cố định, nếu được thiết lập phù hợp và liên tục đưa đầu ra trở lại làm đầu vào, có thể mạnh ngang Turing machine
Kết quả này là một điểm khởi đầu quan trọng, nhưng dựa vào các giả định phi thực tế có thể đánh giá quá cao sức mạnh của Transformer thực tế
Sau đó, các nhà nghiên cứu bắt đầu xây dựng những khung lý thuyết thực tế hơn

Giới hạn của Transformer khi phải trả lời ngay

William Merrill và Ashish Sabharwal phân tích các giới hạn do cấu trúc song song của Transformer tạo ra bằng độ phức tạp mạch (circuit complexity)
Hai người xét trường hợp Transformer không thể đưa đầu ra trở lại làm đầu vào, và đầu ra đầu tiên phải chính là câu trả lời cuối cùng
Trong khung lý thuyết này, Transformer không thể giải các bài toán tính toán nằm ngoài một lớp độ phức tạp nhất định
- Một ví dụ tương đối đơn giản là nhiều bài toán toán học như giải hệ phương trình tuyến tính được cho là nằm ngoài lớp này
Tính song song là lợi thế giúp việc huấn luyện khả thi, nhưng trở thành chi phí trong tình huống đòi hỏi câu trả lời ngay
- Merrill nói rằng nếu dùng Transformer theo kiểu đưa đầu vào rồi kỳ vọng có câu trả lời ngay, nó khá yếu

Cách chain of thought đi vòng qua giới hạn

Kết quả của Merrill và Sabharwal dẫn tới câu hỏi Transformer sẽ mạnh hơn đến mức nào khi có thể tái sử dụng đầu ra
Chain-of-thought reasoning trong các mô hình ngôn ngữ thực tế chịu ảnh hưởng của câu chữ trong prompt, nhưng nếu mô hình xuất lời giải từng bước, về nguyên tắc nó có thể dùng lại kết quả trung gian trong lượt chạy Transformer tiếp theo
Nhóm nghiên cứu Đại học Bắc Kinh, trong bài báo tháng 5/2023, đã xử lý một số bài toán toán học mà theo khung của Merrill và Sabharwal thì Transformer thông thường lẽ ra không thể làm được
- Họ cho thấy rằng nếu cho phép các bước trung gian, Transformer có thể giải những bài toán này
Tháng 10/2023, Merrill và Sabharwal công bố một nghiên cứu lý thuyết phân tích chi tiết hơn năng lực tính toán của chain of thought
- Họ định lượng năng lực tính toán bổ sung thay đổi như thế nào theo số bước trung gian mà Transformer có thể dùng trước khi đưa ra đáp án cuối cùng
Như ví dụ cộng số hai chữ số, có những bài toán mà đầu vào càng lớn thì số bước trung gian cần thiết cũng tăng
- Cách đơn giản nhất để cộng hai số 20 chữ số đòi hỏi số bước cộng trung gian nhiều gấp đôi so với cộng hai số 10 chữ số

Bước trung gian có ích, nhưng không miễn phí

Merrill và Sabharwal phân tích rằng nếu có quá ít bước trung gian thì lợi ích Transformer nhận được cũng không lớn
Chain of thought bắt đầu tạo hiệu quả thực chất khi số bước trung gian tăng tỷ lệ với kích thước đầu vào
Nhiều bài toán cần số bước trung gian tăng nhiều hơn hẳn so với kích thước đầu vào
Vì vậy, chain of thought không phải lời giải vạn năng
- Về nguyên tắc, nó có thể giúp giải những bài toán khó hơn
- Nhưng cần nỗ lực tính toán đáng kể
Merrill nói ông quan tâm đến nhiều cách để đi vòng qua giới hạn của Transformer một bước, và chain of thought có thể không phải cách kinh tế nhất

Những điểm cần lưu ý khi áp dụng cho mô hình thực tế

Phạm vi mà phân tích lý thuyết có thể nói về các mô hình ngôn ngữ thực tế là có giới hạn
Việc chứng minh rằng Transformer về nguyên tắc có thể giải một bài toán nhất định không có nghĩa là mô hình ngôn ngữ thực tế chắc chắn học được lời giải đó trong quá trình huấn luyện
Các kết quả nói về giới hạn của Transformer cũng dựa trên tiêu chuẩn mạnh
- Nghĩa là không Transformer nào có thể giải hoàn hảo một số bài toán nhất định trong mọi trường hợp
- Daniel Hsu nói rằng chúng vẫn có thể xử lý tốt một số trường hợp đặc biệt cụ thể
Những phân tích này trở thành khung để so sánh các kiến trúc mạng nơ-ron khác có thể thay thế Transformer
- Nếu trong phân tích lý thuyết độ phức tạp, một mạng nào đó tỏ ra mạnh hơn, điều đó có thể là cơ sở để cho rằng nó cũng tốt hơn trong môi trường thực tế
Khi các mô hình ngôn ngữ đang được dùng trong nhiều ứng dụng thực tế khác nhau, cần nhận thức rằng vẫn có nhiều việc mô hình không làm tốt

1 bình luận

GN⁺ 2024-03-24

Các ý kiến trên Hacker News

Tôi cho rằng không nên ví chuỗi suy nghĩ (chain-of-thought) với chuỗi chặt chẽ trong logic/toán học
Suy luận từng bước của mô hình không mang lại mức độ nghiêm ngặt như vậy cho đầu ra; độ mạnh của chuỗi chỉ là độ mạnh của ngữ cảnh liên quan, nên yếu hơn nhiều so với toán học/logic của con người
Với tư cách là người làm việc hằng ngày với các mô hình trong lĩnh vực này nhưng không trực tiếp tạo ra chúng, tôi không thấy những liên kết tất yếu được dạy trong toán cơ bản, và thường thấy mô hình thất bại theo những cách mà con người sau một độ tuổi nhất định sẽ không mắc phải
Rốt cuộc nó gần với việc tìm ngữ cảnh liên quan hơn, và tuy rất mạnh, nó khác với suy luận logic của con người. Con người có thể bắt đầu từ rất ít khái niệm, ngồi trên ghế và chỉ bằng suy luận thuần túy vẫn đi đến những kết luận chắc như đinh đóng cột ở rất xa, còn mô hình thì giống như nhảy qua lại giữa các ngữ cảnh hơn
- Nếu LLM gần với việc thực hiện lấy mẫu Monte Carlo tuần tự trong không gian tiềm ẩn, thì phần “suy nghĩ” trong chuỗi suy nghĩ trông giống giai đoạn khởi động cần thiết trong lấy mẫu SMC hơn
  Ai từng nghiêm túc làm thống kê Bayes đều biết bộ lấy mẫu cần khởi động một lúc trước khi lấy mẫu hiệu quả. Trong chuỗi suy nghĩ, dường như cũng xảy ra điều tương tự: mô hình phải đi vòng một chút trước khi vào đúng vùng lân cận để lấy mẫu câu trả lời đúng
- Tôi nghĩ phần lớn những suy luận mà con người nghĩ là “1, 2, do đó 3” không khác nhiều với việc LLM làm, và thực tế cũng không thông minh hơn thế
  Nhiều người tưởng mình đã suy nghĩ đầy đủ về những niềm tin đáng ngờ, nhưng thực ra không phải vậy. Họ dùng ngữ cảnh để đoán ý nghĩ/từ tiếp theo, và thường đi đến kết luận đã có sẵn từ đầu
  Khi nói kết luận chắc như đinh đóng cột, tôi nghĩ thực tế là ta trực giác dựng nó lên trước, rồi kèm theo một quá trình kiểm chứng mạnh mẽ xem định nghĩa đã đủ rõ chưa, bước nhảy suy luận có chính đáng không, v.v.
  Vì vậy điều tôi thật sự muốn thấy là cách dạy LLM chuyển các câu tiếng Anh mơ hồ thành dạng có thể đưa vào một động cơ suy luận hình thức hơn
  Ví dụ, thay vì hỏi thẳng LLM “có thể nhét bao nhiêu sân bóng đá vào nước Anh”, nhiều khi tốt hơn là giả sử có get_size_football_field() và get_size_England() theo đơn vị mét vuông rồi yêu cầu nó viết mã Python để tính
- Tôi không có khả năng “con người có thể bắt đầu từ rất ít khái niệm và chỉ bằng suy luận thuần túy đi đến những kết luận chắc như đinh đóng cột ở rất xa”
  Tôi không thể suy luận khi vượt quá khoảng 10 dòng mã Go, và điều đó trở nên rõ ràng sau nhiều lần tôi giải các câu đố như một sở thích
- Tôi cho rằng cấu trúc suy luận của con người gần như giống chuỗi suy nghĩ
  Chúng ta có vòng lặp thính giác, và khi gặp vấn đề phức tạp thì lặp đi lặp lại kiểu thần chú “giờ đã biết XYZ rồi, tiếp theo là gì…”; khi một bước tiếp theo tốt nảy ra, ta thêm nó vào ngữ cảnh
  Chỉ là hiện tại hàm chuyển tiếp phía con người tốt hơn rất nhiều
- Trong LLM, chuỗi suy nghĩ rốt cuộc có vẻ giúp tăng cường trí nhớ
  Vì nó viết suy luận vào ngữ cảnh để sau này dễ tham chiếu hơn, tất nhiên đây chỉ là phỏng đoán
Theo một cách giải thích đơn giản hóa mà hình như tôi nghe từ Karpathy, mô hình Transformer chỉ tính toán khi tạo (giải mã) token
Vì vậy nếu dùng chuỗi suy nghĩ để tạo nhiều token hơn, mô hình có thêm thời gian để “suy nghĩ”. Tất nhiên cách giải thích này không bao quát hết mọi sắc thái
- Cũng có thể giải thích theo cách khác. Về bản chất, LLM học “A B”, tức là B xuất hiện sau A có hợp lý hay không
  Với phần hoàn thiện ngắn, không gian các khả năng hợp lý như A B1, A B2 lớn hơn rất nhiều. Nếu yêu cầu trả lời ngắn cho một câu hỏi tinh tế, các khả năng đều gồm câu trả lời thấu đáo, câu trả lời trông có vẻ đúng, những lời nhảm nhí nghe thuyết phục, v.v.
  Ngược lại, nếu buộc nó giải thích suy luận, không gian các phần hoàn thiện hợp lý sẽ thu hẹp lại. Nếu bắt đầu từ một lời nhảm nhí nghe thuyết phục rồi trung thực đẩy đến cùng, cuối cùng có thể đi đến kết luận rằng phải đảo ngược
  Điều này giống lý do vì sao khi phản bác niềm tin có hại của một người trung thực, cách để họ tự triển khai hệ quả của niềm tin đó và cùng lần theo ảnh hưởng của những thứ thoạt nhìn có vẻ tốt lại thường hiệu quả
  Lý do việc lấp prompt bằng các yếu tố thu hẹp không gian hoàn thiện hợp lý là prompt engineering hiệu quả cũng tương tự
- Kiến trúc Transformer tự hồi quy có chi phí trên mỗi token cố định, bất kể tác vụ khó đến đâu
  Dù đặt câu hỏi suy luận phức tạp nhất, lượng tính toán để tạo token tiếp theo vẫn giống như với câu hỏi có/không đơn giản nhất; đây là ràng buộc về kiến trúc
  Việc để LLM tạo dữ liệu “nháp” dùng cho tính toán nhằm chú ý đến thông tin liên quan là cách đi vòng qua giới hạn chi phí cố định này. Tác vụ càng khó càng cần nhiều giấy nháp hơn, nhờ đó ngữ cảnh liên quan cần cho các token tương lai được giữ lại nhiều hơn
- Ban đầu tôi cũng nghĩ vậy, nhưng thực tế tôi cho là không đúng. Do mask dùng trong attention, ngay cả khi thêm padding sau chuỗi, lượng công việc thực hiện trên chuỗi vẫn như nhau
  Thay vào đó tôi nhận ra bộ nhớ làm việc của LLM bị giới hạn bởi các giá trị kích hoạt, và điều đó có thể trở thành nút thắt cổ chai. Mô hình có thể mở rộng bộ nhớ làm việc bằng cách ghi kết quả từng phần ra đầu ra rồi đọc lại
  Ví dụ, nếu bảo “hãy nghĩ đến một con số nhưng đừng nói ra”, nó không có nơi nào để lưu con số đó. Vì ngoài băng ghi ra thì không có kho tạm. Nhưng nếu bảo “hãy suy nghĩ từng bước”, nó sẽ lưu các kết quả trung gian, tức là suy nghĩ, lên băng, nhờ đó có thêm không gian lưu trữ để dùng cho việc suy nghĩ
- Theo trải nghiệm của tôi khi xây sản phẩm bằng GPT3.5-Turbo, có một giới hạn trên đối với độ phức tạp của chỉ thị mà mô hình có thể xử lý trong một lần
  Có khía cạnh là “tăng thêm tính toán”, nhưng cốt lõi là cấu trúc hóa quá trình sao cho khi mô hình đưa ra quyết định, nó chỉ cần tập trung vào một phạm vi hạn chế
  Trên thực tế, đó là tạo ra một cấu trúc cây các quyết định chồng lên nhau. Khi tạo token trung gian, mô hình chỉ cần chú ý đến tập quyết định nhỏ hơn đã được gấp lại
  Tuy nhiên, vì kết quả sai mà mô hình dự đoán cũng có thể tạo ra hành vi mang tính tiên liệu làm lệch các bước trung gian, nên thực tế phức tạp hơn một chút
- Tôi đã thử đưa stack và các phụ thuộc chính vào system prompt của mô hình dùng cho lập trình rồi đặt câu hỏi hoặc trò chuyện, và điều đó giúp ích rất nhiều, hoặc ít nhất tôi cảm thấy như vậy
Cách giải thích rằng “nghiên cứu hình thức về tính toán bắt đầu từ máy Turing của Turing năm 1936” cần được lùi xa hơn nữa
Có logic tổ hợp của Moses Schönfinkel trong thập niên 1920 https://en.wikipedia.org/wiki/Moses_Sch%C3%B6nfinkel và lambda calculus của Alonzo Church vào đầu thập niên 1930 https://encyclopediaofmath.org/wiki/Lambda-calculus
Tuy nhiên, các mô hình này kém phù hợp hơn để làm nền tảng cho lý thuyết độ phức tạp tính toán
- Nhìn rộng hơn, có thể truy ngược qua Pearce và Frege, Boole, Pascal, Leibniz cho đến Aristotle
  Aristotle có lẽ là một trong những người đầu tiên cố gắng hình thức hóa tư duy có cấu trúc
  Thiết bị tính toán của Turing là sự hình thức hóa cách một nhà toán học con người thao tác các ký hiệu theo quy tắc hình thức để giải bài toán bằng tính toán, và nó đi theo một dòng truyền thừa dài cùng suy tư về trải nghiệm đó cũng như việc cơ giới hóa nó dễ đến mức nào
  Người đầu tiên thực sự triển khai điều này cho số học là Pascal
- Nếu bạn quan tâm đến chủ đề này, bao gồm cả công trình của Schönfinkel, tôi khuyên xem https://youtu.be/h0OkptwfX4g
Tôi cho rằng hai kiểu diễn ngôn về LLM, tức “nó có ý thức!” và “nó chỉ là một bộ dự đoán token tiếp theo với một tập dữ liệu ấn tượng”, phần lớn đến từ hai nhóm người khác nhau
Đó là những người biết LLM trước rồi sau đó mới học các nền tảng của machine learning, và những người học nền tảng machine learning trước rồi mới tiếp xúc với LLM ngày nay
Tôi thuộc nhóm thứ hai, nhưng cũng có nguy cơ thực sự là định kiến từ kiến thức nền tảng có thể tạo ra giới hạn khi nhìn bức tranh lớn, nên bản thân cuộc tranh luận là điều tôi hoan nghênh
Về chain of thought, tôi biết ở mức là khá nhiều kết quả trong bài báo gốc sau đó không được tái lập tốt trong các thử nghiệm về sau. Tôi không biết đó là đặc thù của các mô hình thay đổi hằng ngày hay có lý do sâu xa hơn
- Theo bản năng, tôi muốn tin những người biết cả những tri thức cũ hơn
  Nhưng trước đây khi tôi phàn nàn với giáo sư hướng dẫn luận án rằng những người trong lĩnh vực machine learning có vẻ không biết rõ về machine learning và AI trước kia, vị giáo sư có hơn 30 năm kinh nghiệm nghiên cứu ấy nói với tôi rằng ngay từ thời ông còn làm nghiên cứu sinh tiến sĩ cũng đã có lời phàn nàn như vậy
  AI có quá nhiều công trình kéo dài khoảng 80 năm nếu tính từ Pitts và McCulloch, và cũng rất dài nếu tính từ Turing, nên vừa theo kịp việc người khác đang làm vừa đào sâu chủ đề của mình là cực kỳ khó
  Ví dụ, nếu mở một cuốn sách về reinforcement learning, bạn sẽ thấy nó xử lý những bài toán gần như giống planning, với các giả định rất tương tự về không gian trạng thái và hành động, nhưng đôi khi trông như thể lĩnh vực planning không tồn tại
  Nhân tiện, chúng đúng là bộ dự đoán token tiếp theo :P
- Hiện tôi đang nghiêng về phía rằng “bộ não hữu cơ cũng chỉ là một bộ dự đoán token tiếp theo có hệ thống heuristic phụ trợ ấn tượng”
  Khi thấy Transformer, dù là một xấp xỉ nghèo nàn như vậy và hoàn toàn không trạng thái, vẫn có thể tạo ra kết quả ấn tượng đến thế, tôi không nghĩ ở đây có bí quyết đặc biệt nào khác
Tôi đã nghĩ điều này là hiển nhiên. LLM không có tiếng nói nội tâm hay hình ảnh nội tâm như con người, nên trước khi trả lời nó không thể trước hết suy nghĩ trọn vẹn vấn đề trong đầu
Vì vậy nếu dùng vùng xuất thực tế như một loại sổ nháp, nó có thể bao phủ một không gian suy luận rộng hơn trước khi đưa ra câu trả lời, tương tự cách con người làm
Khi đặt một câu hỏi cụ thể bằng prompt “hãy suy nghĩ từng bước”, bạn có thể thấy nó cũng xuất ra những ý nghĩ tạm thời vô dụng đối với câu trả lời cuối cùng. Đó chính là điều chúng ta làm khi giải những vấn đề không thể trả lời ngay
Con người cũng thường dùng giấy và bút để ghi lại các suy nghĩ và câu trả lời tạm thời, trung gian. LLM không có công cụ như vậy, nhưng có thể dùng đầu ra theo cách tương tự
Một số prompt Tree of Thoughts khiến LLM tạo ra hai loại đầu ra. Một là “suy nghĩ bằng tiếng nói nội tâm”, còn loại kia là đầu ra sẽ hiển thị cho con người
Việc trao cho nó khả năng gọi phương thức hoặc “google” cũng có thể được xem là một cách thực hiện suy nghĩ và suy luận trước khi tạo câu trả lời cho người dùng
Mô hình không thể suy nghĩ. Nó chỉ dùng ngữ cảnh đầu vào để dự đoán đầu ra
Vì vậy nếu có một bài toán cần giải lặp đi lặp lại, bạn phải lưu các bước trung gian vào ngữ cảnh. Nếu không, các bước đó sẽ chẳng có chỗ nào để đi
- Từ câu “dùng đầu vào để dự đoán đầu ra” không suy ra kết luận “không thể suy nghĩ”
  Tôi không hiểu vì sao việc dự đoán đầu ra từ đầu vào lại dẫn tới niềm tin rằng nó không thể suy nghĩ. Có thể toàn bộ tư duy cũng là như vậy, và chúng ta không biết
Có thể xét tính hợp lý của 11 + 31 = 24 bằng một lý do đơn giản
Đáp án là một con số, và việc nó là số có hai chữ số cũng khá hợp lý khi cộng các đầu vào hai chữ số. 24 cũng là một đáp án thường gặp trong bài toán, và có nhiều ước. Thậm chí nó còn chứa cả các chữ số xuất hiện khi cộng 1+3 và 1+1
Nhưng câu cuối “hãy trình bày lời giải. 11 + 31 là cộng các chữ số hàng chục với nhau: 10 + 30 = 40, cộng các chữ số hàng đơn vị với nhau: 1 + 1 = 2, rồi gộp 40 và 2 thì được 24” thì không hợp lý lắm
Hoặc “10 + 30 = 20, 1 + 1 = 4, gộp 20 và 4 thì được 24” cũng tương tự
Khi chia nhỏ bài toán, ta phải đi qua những vùng có xác suất thấp hơn so với một đáp án sai nhanh
Tuy nhiên, lập luận dựa trên độ phức tạp tính toán mạnh hơn. Cách giải thích trên có thể là một giải thích gây nhiễu đủ tốt trong các trường hợp đơn giản, nên có thể cần loại trừ nó trước khi khẳng định độ phức tạp tính toán là quan trọng
Lập luận về độ phức tạp, theo trực giác, cũng là điều hiển nhiên. Nếu xem LLM như một máy tính ở mỗi chu kỳ xung nhịp thực hiện một lần lan truyền tiến thời gian hằng số trên toàn bộ đầu vào cho đến thời điểm đó rồi xuất ra một token, thì khi cho nó nhiều chu kỳ hơn, nó có thể tính toán nhiều hơn
Nó cũng có thể dùng trạng thái. Điều này khả thi ngay cả khi cơ chế truyền trạng thái từ chu kỳ này sang chu kỳ tiếp theo rất hạn chế
Điều này cũng giống như một phần mở rộng của vấn đề cũ rằng perceptron một lớp không thể tính XOR. Ở đây “chu kỳ” là tiến trình chuyển từ một lớp sang lớp tiếp theo
Tất nhiên, điều đó không có nghĩa các chi tiết là hiển nhiên. Chỉ nói rằng có thể dùng nhiều tick xung nhịp không giải thích được trong một tick có thể làm được bao nhiêu
Có một tweet có thể liên quan đến phép màu của chuỗi suy nghĩ và là một cách giải thích đơn giản hơn
Khi tìm cụm “Hãy nghĩ từng bước một!”, trong số nhiều kết quả sẽ thấy các trang như http://geteasysolution.com, nơi có rất nhiều lời giải toán theo từng bước. Việc nó khá phổ biến cũng đáng để suy nghĩ
https://twitter.com/yanaiela/status/1765077404043952516
- Cách giải thích đó biện minh được vì sao một cụm từ cụ thể lại hiệu quả, nhưng không mâu thuẫn với lời giải thích tổng quát về cách chuỗi suy nghĩ vận hành
  Cụm từ đó có thể dẫn mô hình vào không gian khái niệm của các website có nhiều ví dụ về chuỗi suy nghĩ, nhưng nếu chuỗi suy nghĩ thực sự không giúp ích cho việc suy luận thì nó sẽ không dẫn đến kết quả đầu ra tốt hơn
Tôi từng nghĩ điều này đã quá rõ ràng rồi. Tất cả đều là vấn đề nhận biết ngữ cảnh
Nếu muốn cải thiện, chỉ cần thêm một thuật ngữ vào prompt để mở ra nhiều yếu tố cần cân nhắc hơn. Giả sử chưa chạm tới cuối cửa sổ ngữ cảnh, mỗi từ mới sẽ “mở khóa” một vector mới với nhiều ngữ cảnh hơn, và mô hình ngôn ngữ sẽ đưa nó vào phần cân nhắc
Sự tương đồng với cách bộ não con người dường như hoạt động nổi bật đến mức việc không dùng nó như một phép ví von để sử dụng mô hình ngôn ngữ tốt hơn mới là điều vô lý
Nếu có thể đạt cùng kết quả bằng cách thao tác LLM và bằng cách thao tác bộ não con người, tức là dùng những từ ngữ phù hợp, thì tôi không hiểu vì sao phải tin rằng có sự khác biệt
Đây là điều có thể học được theo thời gian khi dùng và nghiên cứu các mô hình 3B. Có vẻ nhiều người e ngại, nhưng một số mô hình như orca mini 3B “cũ” vẫn rất mạnh và tôi vẫn dùng
Điều cần thiết là prompt tốt hơn, và cách tiếp cận này hoạt động rất hiệu quả
Trở ngại lớn nhất là cửa sổ ngữ cảnh thường nhỏ của các mô hình nhỏ này, nhưng có thể né được mà không phải hy sinh nhiều chất lượng bằng những cách như mở rộng RoPE nhẹ, tóm tắt văn bản, thêm từ ngữ cảnh, hoặc lược bớt chữ cái trong từ ở prompt
Nếu muốn cải thiện kết quả của mô hình ngôn ngữ, bạn phải trở thành một mentalist, kẻ lừa đảo, ảo thuật gia, kỹ sư xã hội. Nghe kỳ lạ, nhưng có hiệu quả
- Cách giải thích này không xử lý được những giới hạn không hiển nhiên của chuỗi suy nghĩ
  Merrill và Sabharwal đã chứng minh rằng chuỗi suy nghĩ chỉ thực sự bắt đầu hữu ích khi số bước trung gian tăng tỷ lệ thuận với kích thước đầu vào, và nhiều bài toán đòi hỏi số bước trung gian tăng lớn hơn nhiều so với mức đó
  Điều này cũng khớp với trải nghiệm của tôi. Khi yêu cầu GPT-4 giải từng bước, nó chỉ có thể chia nhỏ các bài toán “đơn giản”. Đặc biệt với độ phức tạp O(n²), nơi bản thân các bước thực tế cũng cần được chia nhỏ hơn nữa, nó có chia nhiệm vụ thành các bước nhưng thường xuyên thất bại trong việc tiếp tục chia các tác vụ con thành các bước con, dù các tác vụ con đó có thể được giải bằng prompt chuỗi suy nghĩ
  Prompt chuỗi suy nghĩ có tác dụng với các phép tính O(n) đơn giản vì nó ngăn LLM đưa ra đáp án bằng cách đoán mò, nhưng cả về lý thuyết lẫn kinh nghiệm, tôi cho rằng nó không có năng lực chia một bài toán O(n²) nào đó thành O(n) bài toán con O(n). Khỏi phải nói, con người thông minh hơn thế rất nhiều, và chuột cũng vậy
- Thú vị đấy, có chi tiết hoặc tài liệu nào để tìm hiểu thêm không? Chỉ cần một ví dụ thực tế thôi cũng sẽ hữu ích
Chuỗi suy nghĩ khiến tôi liên tưởng đến “lần mò xoay xở qua chuyện (muddling through)”, và khớp ngay với trực giác của tôi rằng đó là cách tiếp cận đúng để xấp xỉ trí thông minh
https://studio.ribbonfarm.com/p/massed-muddler-intelligence#...

Cách suy luận theo chuỗi suy nghĩ giúp mạng nơ-ron tính toán

Vì sao lời giải từng bước làm thay đổi hiệu năng của mô hình

Cách Transformer trở nên mạnh hơn và các ràng buộc cấu trúc

Năng lực tính toán của Transformer nhìn từ lý thuyết độ phức tạp

Giới hạn của Transformer khi phải trả lời ngay

Cách chain of thought đi vòng qua giới hạn

Bước trung gian có ích, nhưng không miễn phí

Những điểm cần lưu ý khi áp dụng cho mô hình thực tế

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News