Nghiên cứu gần đây cho thấy LLM gặp khó khăn với các tác vụ tổ hợp

(quantamagazine.org)

11 điểm bởi GN⁺ 2025-02-03 | 5 bình luận | Chia sẻ qua WhatsApp

LLM gặp khó khăn với các tác vụ tổ hợp (Compositional Task), cho thấy năng lực của chúng có những giới hạn
- Vấn đề này cho thấy LLM không thể suy luận vượt ra ngoài những gì đã thấy trong dữ liệu huấn luyện
Ngày 17 tháng 12 năm 1962, Life International đã đăng một câu đố logic gồm 15 câu
Mỗi câu đưa ra một manh mối, như “Người Anh sống trong ngôi nhà màu đỏ” hoặc “Người ở ngôi nhà giữa uống sữa”
Màu sắc của năm ngôi nhà, quốc tịch của cư dân, thú cưng, đồ uống và các thuộc tính khác đều khác nhau, và câu hỏi cốt lõi là “Ai sở hữu con ngựa vằn”
Bài toán này được gọi là Einstein’s puzzle (hoặc riddle), và gần đây được dùng làm thước đo khả năng suy luận nhiều bước của các mô hình học máy, đặc biệt là các mô hình ngôn ngữ lớn (LLM)
Nouha Dziri, nhà khoa học nghiên cứu tại Allen Institute for AI, cùng các đồng nghiệp đã áp dụng những LLM như ChatGPT vào câu đố này để kiểm tra các giới hạn của chúng
Kết quả cho thấy LLM khó giải được những vấn đề phức tạp vượt quá nội dung chúng đã thấy trong dữ liệu huấn luyện
Điều này cho thấy độ khó của suy luận tổ hợp (compositional reasoning), tức “tổng hợp các kết quả giải từng bước để đi đến đáp án cuối cùng”
Nhóm nghiên cứu của Dziri cho rằng LLM có giới hạn mang tính cấu trúc vì chúng được huấn luyện chỉ bằng việc dự đoán từ
Các nhóm nghiên cứu khác cũng đã chứng minh rằng kiến trúc transformer đang được sử dụng rộng rãi hiện nay có những giới hạn toán học trong việc giải các bài toán phức tạp như vậy
Dù ngày càng có nhiều mô hình mạnh hơn xuất hiện, vẫn có nhận định rằng về mặt nền tảng chúng có thể không giải được mọi bài toán suy luận tổ hợp
Andrew Wilson (NYU) nhận xét rằng các nghiên cứu này khiến cộng đồng nghiên cứu AI phải suy nghĩ lại xem có nên tiếp tục đẩy mạnh cách tiếp cận xoay quanh transformer hay không

Những thành tựu đáng kinh ngạc đặt ra câu hỏi

Theo Dziri, khi LLM bắt đầu thể hiện năng lực ngôn ngữ ấn tượng, sự tò mò về việc “liệu chúng có thể suy luận thực sự hay không” đã tăng lên
Dù được huấn luyện theo cách đơn giản từ lượng văn bản khổng lồ trên internet — dự đoán phần tiếp theo của câu — LLM vẫn thực hiện được những tác vụ phức tạp như xử lý ngôn ngữ tự nhiên, tóm tắt tài liệu hay sinh mã
OpenAI o1, GPT-4, Gemini của Google và Claude của Anthropic là những mô hình lớn tiêu biểu
Tuy vậy, các mô hình này đôi khi lại mắc những lỗi bất ngờ ở những bài toán mà con người cho là đơn giản
Ví dụ, đã có báo cáo cho thấy chúng thường xuyên làm sai ngay cả các phép nhân đơn giản
Theo nghiên cứu của Dziri, khi yêu cầu GPT-4 thực hiện phép nhân ba chữ số, nó chỉ đúng 59%; với phép nhân bốn chữ số, tỷ lệ này giảm mạnh xuống còn 4%
Trong các phiên bản biến thể của Einstein’s puzzle, khi bài toán nhỏ hơn (2-3 thuộc tính) mô hình cho độ chính xác cao, nhưng khi số thuộc tính tăng lên 4-5 thì tỷ lệ thành công giảm mạnh
Khi fine-tune GPT-3 bằng 1,8 triệu dữ liệu phép nhân, mô hình giải tốt trong phạm vi đã có trong huấn luyện, nhưng khi bị hỏi theo định dạng khác với ví dụ huấn luyện thì độ chính xác giảm mạnh
Điều này dẫn đến kết luận rằng mô hình không thực sự hiểu thuật toán, mà gần giống việc bắt chước dựa trên các ví dụ huấn luyện

Giới hạn rõ ràng

Vấn đề mà Dziri và các nhà nghiên cứu khác cùng chỉ ra là sự thiếu hụt ‘khả năng suy luận tổ hợp’
Binghui Peng (Stanford University), khi còn là nghiên cứu sinh tiến sĩ tại Columbia University, đã chú ý đến việc LLM thường trả lời sai các câu hỏi kết hợp sự kiện như ‘cha của cha là ai’
Ông đã tính toán một tầng transformer đơn giản cần bao nhiêu tham số để giải kiểu bài toán này, và đi đến kết luận rằng nếu kích thước miền lớn hơn số tham số của mô hình thì bài toán không thể giải được
Sau đó, ngay cả khi mở rộng sang transformer nhiều tầng, nhóm nghiên cứu cũng chứng minh được rằng về mặt toán học, mô hình vẫn không thể xử lý các bài toán suy luận tổ hợp phức tạp
Nói cách khác, khi quy mô mô hình tăng lên, nó có thể giải những bài toán khó hơn; nhưng nếu độ khó của bài toán cũng tăng tương ứng, giới hạn này sẽ lộ rõ
Một số nhà nghiên cứu đã thử các cấu trúc mạng nơ-ron khác ngoài transformer, chẳng hạn state-space models, nhưng cũng xác nhận các giới hạn tương tự

Những nỗ lực vượt qua giới hạn

Nhiều biện pháp bổ sung đang được đề xuất để khắc phục các giới hạn của LLM
Chẳng hạn, nhóm của Tom Goldstein (University of Maryland) đã thêm thông tin vị trí khi đưa số vào transformer, giúp nó có thể xử lý các phép toán với nhiều chữ số hơn
Với cách làm này, một mô hình được huấn luyện trên số có 20 chữ số đã cho kết quả chính xác 98% ngay cả với phép cộng số có 100 chữ số
Một phương pháp khác là kỹ thuật chain-of-thought, trong đó quá trình giải bài toán được trình bày từng bước ngay trong prompt
Các mô hình như GPT-4 được quan sát là có tiềm năng giải các bài toán phức tạp hơn nhờ cách này
Cách tiếp cận này dựa trên nguyên lý “phân rã một bài toán lớn thành chuỗi các bài toán nhỏ”, và đã có diễn giải lý thuyết cho rằng nó giúp mở rộng phạm vi phép toán mà transformer có thể xử lý
Tuy nhiên, trong thực tế mô hình không phải lúc nào cũng thể hiện được năng lực này ở mọi bài toán, và kết quả còn phụ thuộc vào cách huấn luyện cũng như cấu trúc mô hình
Cuối cùng, vì LLM dựa trên đối sánh mẫu, nên với các bài toán suy luận tổ hợp lớn hoặc phức tạp, giới hạn vẫn luôn tồn tại
Dù vậy, với người dùng phổ thông, những giới hạn này có thể không quá quan trọng
Ngược lại, với các nhà nghiên cứu xây dựng mô hình, việc hiểu và điều chỉnh các giới hạn cấu trúc này là nhiệm vụ then chốt
Dziri nhấn mạnh rằng “nếu hiểu chính xác cơ chế vận hành bên trong của LLM, khả năng giải quyết các vấn đề nền tảng sẽ cao hơn”

5 bình luận

ned0909 2025-02-05

Chuyện của thời kỳ trước kỷ nguyên suy luận thôi.

bakyeono0 2025-02-04

Có vấn đề là ký hiệu ~ bị nhận diện là dấu định dạng gạch xoá trong Markdown. Mong bạn chỉnh sửa giúp.

rabolution 2025-02-04

Vì vậy khi dùng LLM để lập trình, tôi thấy càng giảm độ kết dính và tách bạch mối quan tâm tốt thì nó càng làm việc hiệu quả hơn. Thật ra tôi cũng nghĩ có lẽ con người cũng vậy phải không. ;)

hided62 2025-02-03

Bài viết thì khá mới, nhưng có vẻ nền tảng của bài là từ trước thời o1.

Họ hỏi kiểu như: "Con gái của chị/em gái của mẹ của em trai của bố thì có quan hệ họ hàng mấy đời với tôi?"
4o đúng là có giới hạn khá rõ, còn o1 thì tránh được hết cả các bẫy.

GN⁺ 2025-02-03

Ý kiến Hacker News

LLM có đặc tính giống các mô hình machine learning khác: đối sánh mẫu từ dữ liệu đầu vào để suy ra kết quả có xác suất cao về mặt thống kê
- "Chain of thought" khi kết hợp với học tăng cường có thể giúp giải các bài toán khó
- Cần có định nghĩa rõ ràng về thành công và mô hình phần thưởng
- Năng lực giải quyết vấn đề của con người cũng dựa vào đối sánh mẫu, và con người có thể tích hợp lượng lớn thông tin một cách hiệu quả
LLM là một điều kỳ diệu của AI, và cứ mỗi hai tháng lại cải thiện những thứ trước đây từng bị cho là bất khả thi
- Một số nhà khoa học đang đánh giá thấp thành tựu của LLM
- LeCun cho rằng LLM là ngõ cụt và đã chỉ ra hướng đi khác cho các nhà nghiên cứu
- Việc thành quả LLM của Meta đang tụt lại phía sau các công ty khác có thể liên quan đến sự hoài nghi này
Có rất nhiều thông tin sai lệch về nghiên cứu LLM
- Các mô hình từ 6-12 tháng trước chỉ có thể suy luận đơn giản
- Các tác vụ logic và thuật toán phức tạp đòi hỏi kiểu tư duy hệ thống 2
- LLM có thể suy nghĩ thông qua lập trình
o3-mini-high có thể nhanh chóng tạo mã Prolog
- Đoạn mã Prolog được đưa ra làm ví dụ đã giải quyết vấn đề thành công
Kết quả nghiên cứu gần đây đề cập đến GPT-3, 3.5 và thế hệ 4 đầu tiên
ChatGPT tạo cảm giác như một công cụ tìm kiếm nhanh, với nhiều ảo giác và ngữ cảnh hạn chế
- Có nhiều lời hứa hẹn về các bước tiến trong tương lai nhưng tiến bộ thực tế thì ít
Cần phân biệt liệu kết quả nghiên cứu đang phân tích LLM thuần túy hay một bộ máy tổng hợp dùng LLM
- Thành tích của o3 trên ARC-AGI-1 cho thấy năng lực của bộ máy tổng hợp
LLM có thể thất bại trước những câu hỏi đơn giản đòi hỏi tư duy 2D hoặc 3D
- AI có thể được huấn luyện để biểu diễn tốt thế giới 2D/3D
Khi các hạn chế của LLM được nhắc đến trong bài viết, vài tháng sau lại xuất hiện chatbot không còn những hạn chế đó
- Những hạn chế này không mang tính căn bản
Đến khi nghiên cứu học thuật được xuất bản thì thường đã muộn vài tháng
- Nếu muốn biết giới hạn của công nghệ mới nhất, tham khảo mạng xã hội sẽ tốt hơn là đọc bài báo nghiên cứu