- LLM gặp khó khăn với các tác vụ tổ hợp (Compositional Task), cho thấy năng lực của chúng có những giới hạn
- Vấn đề này cho thấy LLM không thể suy luận vượt ra ngoài những gì đã thấy trong dữ liệu huấn luyện
- Ngày 17 tháng 12 năm 1962, Life International đã đăng một câu đố logic gồm 15 câu
- Mỗi câu đưa ra một manh mối, như “Người Anh sống trong ngôi nhà màu đỏ” hoặc “Người ở ngôi nhà giữa uống sữa”
- Màu sắc của năm ngôi nhà, quốc tịch của cư dân, thú cưng, đồ uống và các thuộc tính khác đều khác nhau, và câu hỏi cốt lõi là “Ai sở hữu con ngựa vằn”
- Bài toán này được gọi là Einstein’s puzzle (hoặc riddle), và gần đây được dùng làm thước đo khả năng suy luận nhiều bước của các mô hình học máy, đặc biệt là các mô hình ngôn ngữ lớn (LLM)
- Nouha Dziri, nhà khoa học nghiên cứu tại Allen Institute for AI, cùng các đồng nghiệp đã áp dụng những LLM như ChatGPT vào câu đố này để kiểm tra các giới hạn của chúng
- Kết quả cho thấy LLM khó giải được những vấn đề phức tạp vượt quá nội dung chúng đã thấy trong dữ liệu huấn luyện
- Điều này cho thấy độ khó của suy luận tổ hợp (compositional reasoning), tức “tổng hợp các kết quả giải từng bước để đi đến đáp án cuối cùng”
- Nhóm nghiên cứu của Dziri cho rằng LLM có giới hạn mang tính cấu trúc vì chúng được huấn luyện chỉ bằng việc dự đoán từ
- Các nhóm nghiên cứu khác cũng đã chứng minh rằng kiến trúc transformer đang được sử dụng rộng rãi hiện nay có những giới hạn toán học trong việc giải các bài toán phức tạp như vậy
- Dù ngày càng có nhiều mô hình mạnh hơn xuất hiện, vẫn có nhận định rằng về mặt nền tảng chúng có thể không giải được mọi bài toán suy luận tổ hợp
- Andrew Wilson (NYU) nhận xét rằng các nghiên cứu này khiến cộng đồng nghiên cứu AI phải suy nghĩ lại xem có nên tiếp tục đẩy mạnh cách tiếp cận xoay quanh transformer hay không
Những thành tựu đáng kinh ngạc đặt ra câu hỏi
- Theo Dziri, khi LLM bắt đầu thể hiện năng lực ngôn ngữ ấn tượng, sự tò mò về việc “liệu chúng có thể suy luận thực sự hay không” đã tăng lên
- Dù được huấn luyện theo cách đơn giản từ lượng văn bản khổng lồ trên internet — dự đoán phần tiếp theo của câu — LLM vẫn thực hiện được những tác vụ phức tạp như xử lý ngôn ngữ tự nhiên, tóm tắt tài liệu hay sinh mã
- OpenAI o1, GPT-4, Gemini của Google và Claude của Anthropic là những mô hình lớn tiêu biểu
- Tuy vậy, các mô hình này đôi khi lại mắc những lỗi bất ngờ ở những bài toán mà con người cho là đơn giản
- Ví dụ, đã có báo cáo cho thấy chúng thường xuyên làm sai ngay cả các phép nhân đơn giản
- Theo nghiên cứu của Dziri, khi yêu cầu GPT-4 thực hiện phép nhân ba chữ số, nó chỉ đúng 59%; với phép nhân bốn chữ số, tỷ lệ này giảm mạnh xuống còn 4%
- Trong các phiên bản biến thể của Einstein’s puzzle, khi bài toán nhỏ hơn (2-3 thuộc tính) mô hình cho độ chính xác cao, nhưng khi số thuộc tính tăng lên 4-5 thì tỷ lệ thành công giảm mạnh
- Khi fine-tune GPT-3 bằng 1,8 triệu dữ liệu phép nhân, mô hình giải tốt trong phạm vi đã có trong huấn luyện, nhưng khi bị hỏi theo định dạng khác với ví dụ huấn luyện thì độ chính xác giảm mạnh
- Điều này dẫn đến kết luận rằng mô hình không thực sự hiểu thuật toán, mà gần giống việc bắt chước dựa trên các ví dụ huấn luyện
Giới hạn rõ ràng
- Vấn đề mà Dziri và các nhà nghiên cứu khác cùng chỉ ra là sự thiếu hụt ‘khả năng suy luận tổ hợp’
- Binghui Peng (Stanford University), khi còn là nghiên cứu sinh tiến sĩ tại Columbia University, đã chú ý đến việc LLM thường trả lời sai các câu hỏi kết hợp sự kiện như ‘cha của cha là ai’
- Ông đã tính toán một tầng transformer đơn giản cần bao nhiêu tham số để giải kiểu bài toán này, và đi đến kết luận rằng nếu kích thước miền lớn hơn số tham số của mô hình thì bài toán không thể giải được
- Sau đó, ngay cả khi mở rộng sang transformer nhiều tầng, nhóm nghiên cứu cũng chứng minh được rằng về mặt toán học, mô hình vẫn không thể xử lý các bài toán suy luận tổ hợp phức tạp
- Nói cách khác, khi quy mô mô hình tăng lên, nó có thể giải những bài toán khó hơn; nhưng nếu độ khó của bài toán cũng tăng tương ứng, giới hạn này sẽ lộ rõ
- Một số nhà nghiên cứu đã thử các cấu trúc mạng nơ-ron khác ngoài transformer, chẳng hạn state-space models, nhưng cũng xác nhận các giới hạn tương tự
Những nỗ lực vượt qua giới hạn
- Nhiều biện pháp bổ sung đang được đề xuất để khắc phục các giới hạn của LLM
- Chẳng hạn, nhóm của Tom Goldstein (University of Maryland) đã thêm thông tin vị trí khi đưa số vào transformer, giúp nó có thể xử lý các phép toán với nhiều chữ số hơn
- Với cách làm này, một mô hình được huấn luyện trên số có 20 chữ số đã cho kết quả chính xác 98% ngay cả với phép cộng số có 100 chữ số
- Một phương pháp khác là kỹ thuật chain-of-thought, trong đó quá trình giải bài toán được trình bày từng bước ngay trong prompt
- Các mô hình như GPT-4 được quan sát là có tiềm năng giải các bài toán phức tạp hơn nhờ cách này
- Cách tiếp cận này dựa trên nguyên lý “phân rã một bài toán lớn thành chuỗi các bài toán nhỏ”, và đã có diễn giải lý thuyết cho rằng nó giúp mở rộng phạm vi phép toán mà transformer có thể xử lý
- Tuy nhiên, trong thực tế mô hình không phải lúc nào cũng thể hiện được năng lực này ở mọi bài toán, và kết quả còn phụ thuộc vào cách huấn luyện cũng như cấu trúc mô hình
- Cuối cùng, vì LLM dựa trên đối sánh mẫu, nên với các bài toán suy luận tổ hợp lớn hoặc phức tạp, giới hạn vẫn luôn tồn tại
- Dù vậy, với người dùng phổ thông, những giới hạn này có thể không quá quan trọng
- Ngược lại, với các nhà nghiên cứu xây dựng mô hình, việc hiểu và điều chỉnh các giới hạn cấu trúc này là nhiệm vụ then chốt
- Dziri nhấn mạnh rằng “nếu hiểu chính xác cơ chế vận hành bên trong của LLM, khả năng giải quyết các vấn đề nền tảng sẽ cao hơn”
5 bình luận
Chuyện của thời kỳ trước kỷ nguyên suy luận thôi.
Có vấn đề là ký hiệu
~bị nhận diện là dấu định dạng gạch xoá trong Markdown. Mong bạn chỉnh sửa giúp.Vì vậy khi dùng LLM để lập trình, tôi thấy càng giảm độ kết dính và tách bạch mối quan tâm tốt thì nó càng làm việc hiệu quả hơn. Thật ra tôi cũng nghĩ có lẽ con người cũng vậy phải không. ;)
Bài viết thì khá mới, nhưng có vẻ nền tảng của bài là từ trước thời o1.
Họ hỏi kiểu như: "Con gái của chị/em gái của mẹ của em trai của bố thì có quan hệ họ hàng mấy đời với tôi?"
4o đúng là có giới hạn khá rõ, còn o1 thì tránh được hết cả các bẫy.
Ý kiến Hacker News
LLM có đặc tính giống các mô hình machine learning khác: đối sánh mẫu từ dữ liệu đầu vào để suy ra kết quả có xác suất cao về mặt thống kê
LLM là một điều kỳ diệu của AI, và cứ mỗi hai tháng lại cải thiện những thứ trước đây từng bị cho là bất khả thi
Có rất nhiều thông tin sai lệch về nghiên cứu LLM
o3-mini-highcó thể nhanh chóng tạo mã PrologKết quả nghiên cứu gần đây đề cập đến GPT-3, 3.5 và thế hệ 4 đầu tiên
ChatGPT tạo cảm giác như một công cụ tìm kiếm nhanh, với nhiều ảo giác và ngữ cảnh hạn chế
Cần phân biệt liệu kết quả nghiên cứu đang phân tích LLM thuần túy hay một bộ máy tổng hợp dùng LLM
LLM có thể thất bại trước những câu hỏi đơn giản đòi hỏi tư duy 2D hoặc 3D
Khi các hạn chế của LLM được nhắc đến trong bài viết, vài tháng sau lại xuất hiện chatbot không còn những hạn chế đó
Đến khi nghiên cứu học thuật được xuất bản thì thường đã muộn vài tháng