Những điều LLM tuyệt đối không thể làm

(strangeloopcanon.com)

36 điểm bởi GN⁺ 2024-04-28 | 1 bình luận | Chia sẻ qua WhatsApp

[ Giới hạn của LLM ]

Về việc LLM bị lệch khỏi mục tiêu và độ tin cậy thấp, hay vì sao LLM không thể xử lý Conway's Game of Life
Dù trong vài năm qua LLM đã giải quyết rất tốt những bài toán từng được cho là không thể, vẫn chưa rõ vì sao chúng lại không thể trả lời những câu hỏi có vẻ đơn giản
Trong vài tuần qua, tác giả đã cố gắng xác định các dạng thất bại của LLM. Đây là một chủ đề kỳ lạ nhưng thú vị. Thất bại của AI dạy cho ta nhiều điều hơn cả thành công của nó
Ban đầu xuất phát từ điểm rằng nhiều công việc LLM rốt cuộc sẽ phải làm đều cần được đánh giá từng bước, nhưng trọng tâm là xác định giới hạn của khả năng suy luận để tìm ra cách tin cậy vào năng lực học của chúng
Việc đánh giá khả năng suy luận của LLM là khó
- Khó tách riêng năng lực suy luận khỏi dữ liệu huấn luyện
- Mục tiêu là tìm cách kiểm tra khả năng suy luận lặp lại và trả lời câu hỏi nhiều lần
Bắt đầu từ phiên bản đơn giản nhất đáp ứng tiêu chí chấp nhận được
- Liệu có thể liên tục tạo ra các lưới từ 3x3, 4x4, 5x5 hay không
- Bài đánh giá phải dễ tạo, dễ chấm nhưng vẫn khó thực hiện
Tất cả các mô hình ngôn ngữ lớn mới nhất, bao gồm Opus và GPT-4, đều thất bại với bài toán này
- Các mô hình này có thể trả lời những câu hỏi khó về kinh tế học, cơ học lượng tử, cũng như lập trình, vẽ tranh, sáng tác nhạc, làm video, tạo cả ứng dụng hoàn chỉnh, thậm chí chơi cờ vua ở trình độ cao
- Nhưng lại không giải được Sudoku

Reversal Curse

LLM có hiện tượng Reversal Curse, nghĩa là nếu mô hình được học theo dạng "A là B" thì nó không thể khái quát theo chiều ngược lại là "B là A"
- Ví dụ, nếu mô hình học rằng "Valentina Tereshkova là người phụ nữ đầu tiên du hành vào không gian", thì nó không tự động trả lời được câu hỏi "Người phụ nữ đầu tiên du hành vào không gian là ai?"
- Hơn nữa, xác suất của đáp án đúng ("Valentina Tereshkova") cũng không cao hơn một cái tên ngẫu nhiên
Mô hình không khái quát tốt để hiểu các mối quan hệ giữa con người với nhau
Ngay cả các mô hình hàng đầu vẫn còn gặp vấn đề này

Có phải vấn đề nằm ở phân phối dữ liệu huấn luyện?

Tác giả tự hỏi liệu vấn đề có phải do tính kỳ lạ trong phân phối dữ liệu huấn luyện hay không. Vì có vẻ như ta chưa cho đủ ví dụ, nên đã thử một thứ mang tính quyết định hơn
Thử nghiệm bằng cách huấn luyện transformer dự đoán Cellular Automata
Có vẻ không còn vấn đề dịch chuyển, nhưng vẫn thất bại!
Ít nhất có hai loại vấn đề khác nhau
1. Những bài toán LLM không thể làm vì dữ liệu huấn luyện không chứa thông tin đó và mô hình cũng không được huấn luyện để thực hiện
2. Những bài toán LLM không thể làm vì chính cách nó được xây dựng
Gần như mọi thứ ta đang thấy đều gợi đến vấn đề 2 nhiều hơn là vấn đề 1

Vì sao LLM về bản chất không thể làm được

Tác giả cho rằng mô hình có vấn đề lệch mục tiêu (goal drift), vì nó bị buộc phải tạo từng token một nên không thể khái quát vượt ra ngoài ngữ cảnh trong prompt và không biết nên đặt sự chú ý vào đâu
- Đây cũng là lý do prompt injection hoạt động: nó làm méo cơ chế chú ý (ví dụ nói những thứ như _### Instruction: ...` để jailbreak mô hình)
Dù với LLM hay con người, ngữ cảnh đều là một nguồn lực khan hiếm
Tóm lại,
1. LLM là mô hình xác suất mô phỏng tính toán, và đôi khi mô phỏng rất sát một cách ngẫu nhiên
2. Càng huấn luyện mô hình lớn hơn, nó càng học được nhiều liên hệ ngầm trong dữ liệu hơn, từ đó hỗ trợ suy luận tốt hơn
- Nhưng các liên hệ đã học không phải lúc nào cũng ánh xạ gọn gàng với các ý tưởng của chúng ta
1. Suy luận luôn là một lượt duy nhất
- Trừ khi quá trình đó đã được mô tả chi tiết trong dữ liệu huấn luyện, LLM không thể dừng lại, thu thập trạng thái thế giới, suy luận, rà soát lại câu trả lời trước đó hay dự đoán câu trả lời tương lai
- Ngay cả khi bao gồm prompt và phản hồi trước đó, lần suy luận tiếp theo vẫn bắt đầu lại từ đầu dưới dạng một lượt đơn
1. Điều này tạo ra một dạng vấn đề mà trong đó kiểu 'trôi mục tiêu' khiến độ tin cậy của suy luận tất yếu bị giảm
- Đây cũng là lý do prompt injection hoạt động (vì nó làm méo cơ chế chú ý)
- Kiểu 'trôi mục tiêu' này đồng nghĩa các agent hay các tác vụ tuần tự lặp đi lặp lại có độ tin cậy thấp
- Vì sự chú ý không có tính chọn lọc hoặc động, mô hình sẽ 'quên' phải tập trung vào đâu
1. LLM không thể tái thiết lập ngữ cảnh một cách động
- Máy Turing dùng băng làm bộ nhớ, trong khi transformer dùng trạng thái nội bộ (được quản lý qua self-attention) để theo dõi các phép tính trung gian
- Điều này có nghĩa là có nhiều kiểu tính toán mà transformer không làm tốt
1. Điều này có thể được khắc phục phần nào bằng chain of thought hoặc dùng LLM khác để rà soát và sửa đầu ra
- Về bản chất là tìm cách đưa quá trình suy luận trở lại đúng quỹ đạo
- Với prompt đủ khéo và lặp lại theo từng bước, LLM có thể rút ra gần như mọi thứ có trong dữ liệu huấn luyện
- Khi mô hình được cải thiện, từng bước suy luận cũng sẽ tốt hơn, đáng tin cậy hơn và cho phép tạo ra các agent tốt hơn
1. Nếu dồn đủ công sức, ta sẽ có các thành phần chức năng như hệ thống GPT kết nối với nhau, nhiều vòng lặp nội bộ, kiểm tra và sửa lỗi liên tục, bộ nhớ được ngoại hóa, v.v.
- Nhưng ngay cả như vậy, việc tiến sát AGI theo kiểu brute-force trên nhiều lĩnh vực vẫn không thể thực sự khái quát vượt ra ngoài dữ liệu huấn luyện
- Dẫu vậy, đó vẫn là điều kỳ diệu

[ Thí nghiệm - Vì sao GPT không thể học Wordle ]

LLM không thể chơi Wordle
- Sudoku hay lưới từ vựng (dạng đơn giản nhất của crossword) cũng vậy
Điều này đáng ngạc nhiên vì những bài toán này không hề khó
- Ngay cả học sinh tiểu học cũng có thể thử, nhưng ngay cả những LLM tốt nhất cũng thất bại khi làm chúng
Giả thuyết đầu tiên sẽ là thiếu dữ liệu huấn luyện
- Nhưng ở đây có lẽ không phải vậy
- Vì các quy tắc rõ ràng là có trong dữ liệu
- Không phải Wordle bằng cách nào đó đã bị bỏ sót khỏi tập dữ liệu huấn luyện của LLM hiện nay
Một giả thuyết khác là do vấn đề tokenization
- Nhưng điều này cũng không đúng
- Ngay cả khi cho nhiều cơ hội và cung cấp các câu trả lời trước đó để tạo khoảng trống cho việc lặp lại, mô hình vẫn gặp khó khi nghĩ ra lời giải đúng
- Ngay cả khi chèn khoảng trắng giữa các chữ cái cũng không khá hơn
Ngay cả khi cung cấp lại câu trả lời trước đó, ngữ cảnh và câu hỏi, mô hình vẫn thường khởi động lại toàn bộ chuỗi trả lời thay vì chỉnh sửa một thứ ở ô [3,4]
Thay vào đó, về bản chất mỗi bước dường như đòi hỏi các mức tính toán lặp khác nhau mà có vẻ không mô hình nào có thể thực hiện được
- Ở một khía cạnh nào đó điều này cũng hợp lý, vì mô hình tự hồi quy chỉ có thể thực hiện một lượt forward pass mỗi lần
  - Nó có thể tiếp tục "nói ra suy nghĩ" bằng cách dùng kho token hiện có và đầu ra làm sổ nháp, nhưng sẽ nhanh chóng mất dấu
Kết luận ở đây là khi mỗi bước đều đòi hỏi cả bộ nhớ lẫn tính toán, thì đây có vẻ là thứ transformer không thể giải quyết trong số lớp và attention head mà nó hiện có
- Điều này đúng ngay cả với các mô hình rất lớn như GPT-4 được huấn luyện trên hàng nghìn tỷ token
Trớ trêu là mô hình không thể xác định nên tập trung chú ý vào đâu
- Vì cách attention hiện nay hoạt động là tĩnh và xử lý mọi phần của chuỗi cùng lúc
- Thay vì dùng nhiều heuristic để chọn lọc hơn và tái thiết lập ngữ cảnh một cách động để thử các phương án khác
Điều này là vì attention như hiện được đo lường không thực sự là phân tích phân tầng đa luồng theo cách con người làm
- Hoặc có thể ngầm là như vậy, nhưng đánh giá xác suất mà nó tạo ra không chuyển ngữ cảnh đó thành từng bài toán cụ thể

[ Thí nghiệm - Dạy Cellular Automata cho LLM ]

Khi huấn luyện, có thể tạo ra dữ liệu vô hạn cho đến khi đạt được kết quả mong muốn, nên tôi đã nghĩ có lẽ có thể dạy được những điều cơ bản
Tôi định tạo một transformer đồ chơi để thử dự đoán
Bên trái là CA, bên phải là đầu ra của Transformer, và có yêu cầu xem liệu nó có thể phân biệt được hay không
Không thể huấn luyện nó để dự đoán kết quả, và tôi cũng không tìm ra lý do
Dù là mô hình đồ chơi, nó vẫn hoạt động đủ tốt để học nhiều phương trình tôi đã thử và còn có chút khả năng khái quát hóa
Tôi đã giảm kích thước lưới và thử tối ưu siêu tham số, nhưng vẫn không được
Tôi nghĩ có lẽ nó cần thêm thông tin về bố cục vật lý, nên đã thêm các lớp CNN và sửa positional embedding để xử lý rõ ràng các trục X, Y. Nhưng vẫn không được
Trong tuyệt vọng, tôi thử dạy nó chí ít là một phương trình đơn giản
Ban đầu hoàn toàn không hoạt động, nhưng khi thêm token bắt đầu/kết thúc thì đột nhiên nó bắt đầu làm được. Transformer thật kỳ lạ
Kích thước chưa hoàn hảo nhưng gần như đang học được. Dù gần như không có head hay layer nào và max_iter là 1000
Ý tưởng rõ ràng là nó phải học nhiều trạng thái và duy trì lịch sử, nên tôi nghĩ cần bổ sung chức năng đó bằng cách nào đó. Vì vậy tôi sửa decoder để thêm đầu vào khác sau đầu ra. Điều này cũng tương đương với việc thêm một lớp RNN khác hoặc cung cấp bộ nhớ về những bước đã đi qua trước đó
Nhưng vẫn không được. Quay lại với cellular automata và thử từ những thứ cơ bản nhất cũng không chạy. Dù đây là bài toán 1 chiều và có cả những quy tắc thật sự rất dễ, không chỉ 110 là Turing-complete mà cả 0 chẳng hạn
Việc học được cách đưa ra đáp án đúng trên một chuỗi bài toán có đồng nghĩa với việc đã học được quy tắc nền tảng không? Hay là nó học một thứ tương tự quy tắc đó để có thể bắt chước kết quả trong phân phối đã cho, ở trạng thái rất dễ sai theo cách sai lầm?
Không chỉ mô hình đồ chơi hay GPT 3.5 mà các LLM lớn hơn như GPT-4, Claude, Gemini cũng cho thấy cùng một vấn đề. Ít nhất là trong chế độ chat
Dù fine-tuning hay huấn luyện chuyên biệt thế nào đi nữa, có vẻ LLM không thể chơi Conway's Game of Life
Nếu ai đó giải được chuyện này thì sẽ rất thú vị. Ít nhất là nếu có thể giải thích vì sao lại có vấn đề như vậy

[ Cho đến nay người ta đã giải quyết vấn đề này như thế nào ]

Khi thiết kế những hệ thống này, ta càng phản ánh nhiều hơn trí tuệ của chính mình vào đó thì đầu ra cuối cùng càng có thể mô phỏng tốt hơn phép biến đổi cần thiết
Ta có thể dạy từng câu đố một và hy vọng suy luận sẽ được chuyển giao, nhưng làm sao biết được liệu nó có thực sự học được khả năng khái quát hóa hay không? Cho đến gần đây, ngay cả cộng và nhân cũng từng là điều khó với các mô hình này
Victor Taelin khẳng định rằng “GPT tuyệt đối không thể giải các bài toán A::B”. Đây là ví dụ cho thấy các mô hình dựa trên transformer không thể thực sự học các bài toán mới ngoài tập huấn luyện hoặc thực hiện suy luận dài hạn
- Ông nói rằng “một GPT mạnh về cơ bản là việc tiến hóa ra một nhà thiết kế mạch bên trong trọng số”, và “nhưng do sự cứng nhắc của attention như một mô hình tính toán, những mạch đã tiến hóa đó không thể trở nên đủ linh hoạt”
- “AGI dường như muốn lớn lên bên trong nó, nhưng có vẻ không thể vì những ràng buộc về tính toán và truyền thông bị áp đặt. Hãy nhớ rằng não người luôn trải qua tính dẻo synapse. Có những kiến trúc linh hoạt hơn, dù được huấn luyện ở quy mô nhỏ hơn nhiều, nhưng có khả năng dẫn tới AGI cao hơn. Chỉ là chúng ta vẫn chưa biết đó là gì.”
Ông treo giải thưởng 10.000 USD cho vấn đề này, và chỉ trong một ngày đã có người giải được.

[ LLM thực sự có thể học được đến mức nào? ]

Những nghi vấn về năng lực học của LLM

LLM thường thất bại ngay cả trong các trò chơi trẻ em như tương tác lặp đơn giản hoặc chọn ràng buộc
Tuy nhiên, LLM lại có thể giải các bài toán toán học khó, suy luận kinh tế học mang tính cạnh tranh, ước lượng Fermi, thậm chí cả các bài toán vật lý bằng những ngôn ngữ mà chúng không được huấn luyện rõ ràng
Câu trả lời của LLM phụ thuộc rất nhiều vào cách prompt
LLM cho thấy trực giác nổi bật nhưng sở hữu trí tuệ bị giới hạn
Càng nhiều bước suy luận, LLM càng gặp khó khăn trong việc nắm mục tiêu và giữ tập trung

Cải thiện hiệu năng của mạng nơ-ron bằng cách thêm bộ nhớ ngoài

Việc thêm các kết nối kiểu RNN tạo ra đôi chút khác biệt, nhưng chưa đủ để giải quyết hoàn toàn vấn đề
Nếu thêm bộ nhớ ngoài vào mạng nơ-ron, nó có thể học được nhiều mẫu bất quy tắc khác nhau
Chỉ những mạng có thêm bộ nhớ có cấu trúc (stack hoặc memory tape) mới có thể khái quát hóa thành công với các tác vụ phi ngữ cảnh và nhạy ngữ cảnh

Giới hạn của chain-of-thought prompting và scratchpad

Chain-of-thought prompting, dùng scratchpad, hay viết các suy nghĩ trung gian ra giấy đều là ví dụ về quy trình tư duy nhằm giảm trôi mục tiêu
Nhưng các phương pháp này vẫn bị cản trở bởi nguyên tội (original sin)
Các đầu ra phụ thuộc vào đầu vào trước đó, đặc biệt khi cần tính toán ở từng bước, là quá phức tạp và quá dài đối với các mô hình dựa trên transformer hiện tại nên khó xử lý

Lời nguyền của tự hồi quy (autoregression)

Khi quy mô mô hình tăng lên, nó cho thấy hiệu năng tốt hơn trong chain-of-thought dài hạn, nhưng vẫn liên tục xuất hiện lỗi ở những điểm bất kỳ trong chuỗi suy luận mà dường như không liên quan đến các năng lực khác
Dù giải cùng một tác vụ qua nhiều bước, số bước càng dài thì càng dễ mắc sai lầm
GPT-4 ít ảo giác và lỗi hơn GPT-3.5
Liệu việc tạo ra những mô hình lớn như GPT-4 hay Opus nhưng vẫn thất bại ở trò Wordle có phải là câu trả lời đúng không?

Câu hỏi về bản chất của nhận thức

Nếu tồn tại những loại bài toán mà học sinh tiểu học cũng giải dễ dàng nhưng các mô hình tinh vi được đổ vào hàng nghìn tỷ token và hàng chục tỷ USD vẫn không giải nổi, điều đó nói lên điều gì về bản chất nhận thức của chúng ta?
Phần G (khái quát hóa) trong AGI là phần khó nhất, và nó không dễ dàng vượt ra ngoài phân phối để khái quát hóa
Thứ chúng ta đang có gần với một phần của thư viện Babel hơn, nơi không chỉ đọc được những cuốn sách đã viết mà còn cả thông tin tồn tại trong khoảng cách giữa các cuốn sách đó

Khác biệt dữ liệu huấn luyện giữa con người và LLM

Con người có thể đọc khoảng 30.000~50.000 cuốn sách trong đời, nhưng phần lớn mọi người thậm chí không đọc nổi 1% trong số đó (tối đa khoảng 1GB dữ liệu)
Ngược lại, LLM đã hấp thụ mọi thứ trên Internet và còn nhiều hơn thế, học hàng trăm tỷ từ trên mọi lĩnh vực và chuyên ngành (GPT-3 được huấn luyện trên 45TB dữ liệu)
Câu trả lời cho việc một người sẽ ra sao nếu đọc 2 triệu cuốn sách, hay một bộ máy nhận dạng mẫu đơn thuần có thể làm gì nếu đọc 2 triệu cuốn sách, không hề dễ dàng
LLM học các mẫu và quy tắc ngầm trong dữ liệu huấn luyện, nhưng không dễ biến chúng thành thứ tường minh
Nếu LLM không có cách nào để biết các phương trình liên quan đến việc khớp mẫu, thì nó không thể học cách khái quát hóa, nên lời nguyền đảo ngược (Reversal Curse) vẫn còn tồn tại

[ LLM không thể đặt lại ngữ cảnh ]

Việc xem LLM như một thực thể, một nơ-ron, hay một phần của tân vỏ não là phép ẩn dụ hữu ích ở một số thời điểm, nhưng không nắm bắt trọn vẹn hành vi mà ta quan sát thấy ở LLM
Điều thú vị ở các mô hình có thể học mẫu là chúng học cả những mẫu có thể không được đưa vào tường minh trong tập dữ liệu
Trong quá trình học ngôn ngữ, LLM nắm bắt nhiều mối liên hệ nội tại trong dữ liệu, kết nối von Neumann với Charles Dickens và tạo ra những mô phỏng đủ chân thực về thứ mà chúng ta có thể đã làm

Độ phức tạp của tập dữ liệu và giới hạn quy mô mô hình

Ngay cả khi giả sử tập dữ liệu mã hóa toàn bộ sự phức tạp của nhân loại, thì số lượng các mẫu như vậy tồn tại ngay trong một tập dữ liệu nhỏ cũng sẽ nhanh chóng lấn át kích thước mô hình
Đây gần như là một tất yếu toán học
Trong bài toán cellular automata, vẫn chưa rõ LLM có thực sự học được phương pháp hay không, và đáng tin cậy đến mức nào
Sai lầm của LLM là chỉ dấu tốt hơn về những gì chúng không biết so với thành công của chúng

Giới hạn của LLM trong việc học cách học

Mạng nơ-ron lớn hơn sẽ không chỉ học từ dữ liệu mà còn học cả cách học
Đó là lý do LLM có thể được cho vài ví dụ rồi thực hiện những bài toán mà nó chưa thấy trong tập huấn luyện
Nhưng có vẻ phương pháp mà LLM sử dụng không đủ khả năng khái quát hóa, đặc biệt ở khía cạnh học xem nên chú ý vào đâu
Học cách học, ngay cả với chúng ta, cũng không phải là một thuật toán toàn cục duy nhất
Có những thứ nó hoạt động tốt hơn và có những thứ nó hoạt động kém hơn
Nó vận hành theo những cách khác nhau với các loại vấn đề khác nhau
Tất cả những điều đó đều phải được viết bằng cùng một số lượng tham số, nên những phép tính có thể được thực hiện thông qua các trọng số này không chỉ phải trả lời được về Muppet mà còn phải nói được về khám phá vật lý vĩ đại tiếp theo sẽ phá vỡ lý thuyết hiện tại

Độ phức tạp của các chuỗi ký hiệu tương tác

Nếu trong một chuỗi ký hiệu, sự tồn tại hoặc vị trí của một ký hiệu ảnh hưởng đến nội dung thông tin của ký hiệu tiếp theo theo cách có tính tương tác, thì entropy Shannon tổng thể của tập dữ liệu có thể cao hơn mức được đề xuất khi chỉ xem từng ký hiệu riêng lẻ
Điều này khiến những thứ phụ thuộc vào trạng thái như Game of Life của Conway trở nên thực sự khó
Đây cũng là lý do vì sao GPT dường như không thể thực sự học được các mẫu, dù đã được tinh chỉnh trên tập dữ liệu Game of Life
Thay vào đó, GPT học vừa đủ để có thể trả lời câu hỏi (một dạng định luật Goodhart)

Sự khó khăn khi định nghĩa LLM bằng các bài kiểm tra đơn giản

Việc đặt ra một câu hỏi bậc cao yêu cầu định nghĩa một trong số những điều này bằng một bài kiểm tra đơn giản có thể chạy trên LLM là hành động ngớ ngẩn
Bởi vì việc định nghĩa một trong số chúng có lẽ tương đương với việc định nghĩa một cách hiệu quả bản tổng quan của hơn nửa thế kỷ nghiên cứu khoa học

[ Cần nhiều agent hơn ]

Tương tự với lý thuyết hiện tại, việc thêm nhiều đệ quy hơn vào mô hình LLM đương nhiên sẽ giúp nó tốt hơn
Tuy nhiên, nó sẽ chỉ có thể giải các bài toán lập kế hoạch phức tạp hơn theo từng bước trong chừng mực còn có thể ghi nhớ mục tiêu ban đầu và lộ trình cho đến thời điểm đó
Vẫn chưa rõ vì sao LLM lại không đáng tin cậy
GPT-4 đáng tin cậy hơn GPT-3.5, nhưng không rõ liệu điều đó chỉ vì nó đã thành thạo hơn trong học tập, hay vì việc mở rộng quy mô làm tăng độ tin cậy và giảm ảo giác

Agent: trường hợp sử dụng mạnh mẽ

Agent, tức những thực thể tự trị có thể thực hiện toàn bộ công việc thay chúng ta, là trường hợp sử dụng trong mơ của LLM
Trên thực tế, nhiều công việc cần nhiều agent hơn
Nếu chúng hoạt động tốt hơn một chút trong một số tác vụ, thì liệu với số lượng agent đủ lớn chúng có hoạt động tốt hơn trong mọi tác vụ không? Có thể, nhưng ở thời điểm hiện tại có lẽ là không
Với các lựa chọn như Devin của Cognition Labs, chúng ta đã có thể thoáng thấy nó có thể mạnh mẽ đến mức nào (trình bày các trường hợp sử dụng thực tế)

Khả năng mở rộng sang một phần đáng kể việc làm trong vài năm tới

Liệu những hành vi này có thể mở rộng sang một phần đáng kể việc làm trong vài năm tới không? Có vẻ là có thể
Mỗi công việc sẽ phải được tiếp cận một cách riêng lẻ, và đó sẽ là các mô hình chuyên biệt không dễ mở rộng (không phải một mô hình duy nhất thống trị mọi thứ)
Các phiên bản mã nguồn mở đã cho thấy một phần của những yếu tố cốt lõi
- Cân nhắc cẩn thận thứ tự và lượng thông tin đi vào mô hình nền tảng, đồng thời tạo ra môi trường để chúng có thể phát huy, có tính đến các giới hạn của chúng như đã thấy trước đây

Giới hạn của GPT và lời giải

Việc GPT không thể tự giải các vấn đề như Game of Life, hoặc thậm chí không thể giải ngay cả khi suy nghĩ theo từng bước, không phải là điều quan trọng
Điều quan trọng là GPT có thể viết chương trình để giải nó
Nói cách khác, nếu có thể huấn luyện GPT nhận ra những tình huống mà việc viết chương trình là hợp lý trong mọi chương trình, thì chúng ta có thể tiến gần đến AGI hơn (đó là quan điểm của tôi)

Giới hạn dung lượng mô hình và mối quan hệ cạnh tranh giữa các phương thức thị giác-ngôn ngữ

Ít nhất ở các mô hình nhỏ, tồn tại sự cạnh tranh giữa các trọng số về những gì được học
Bình luận hay nhất tôi thấy trong bài báo DeepSeek:
- DeepSeek-VL-7B cho thấy mức suy giảm nhất định trong toán học (GSM8K)
- Điều này cho thấy rằng, bất chấp các nỗ lực thúc đẩy sự hài hòa giữa các phương thức thị giác và ngôn ngữ, vẫn tồn tại mối quan hệ cạnh tranh giữa hai bên
- Điều này có thể là do dung lượng mô hình bị giới hạn (7B), và các mô hình lớn hơn có thể giảm bớt đáng kể vấn đề này

[ Kết luận ]

Những điều rút ra từ các ví dụ trên
- LLM (Large Language Model) hiện tại vẫn tồn tại những dạng bài toán cụ thể không thể giải quyết
  - Đặc biệt là các bài toán cần nhiều bước suy luận dài hơn, chẳng hạn phụ thuộc vào trạng thái trước đó hoặc phải dự đoán trạng thái tương lai
  - Ví dụ như chơi game Wordle hoặc dự đoán CA (Cellular Automata)
- Nếu dùng LLM lớn hơn, có thể dạy suy luận ở một mức độ nào đó bằng cách cung cấp thông tin theo từng bước về bài toán và nhiều ví dụ cần làm theo
  - Tuy nhiên, điều này thực chất là đưa vào prompt cách trừu tượng hóa bài toán và cách suy nghĩ ra đáp án
- Điều này có thể được cải thiện theo các cách sau
  1. Prompting tốt hơn
  2. Cải thiện khả năng truy cập vào bộ nhớ, tính toán và công cụ ở các bước trung gian
  - Tuy nhiên, nó sẽ không đạt tới mức độ ý thức có thể khái quát hóa mà chúng ta thường dùng khi nói về con người
  - Mọi thông tin được nhập vào LLM có lẽ đều có thể được khơi ra nếu có prompt phù hợp
- Vì vậy, một phần cực kỳ lớn trong việc sử dụng mô hình đúng cách là tạo prompt phù hợp tùy theo công việc cần thực hiện
  - Điều này có thể đòi hỏi phải cẩn thận xây dựng các chuỗi dài gồm đáp án đúng và sai cho các bài toán tính toán để priming mô hình phản hồi phù hợp, cùng với các guardrail bên ngoài
- 'Attention' dễ bị ảnh hưởng bởi goal drift, nên rất khó khiến nó trở nên đáng tin cậy nếu không có lượng scaffolding bên ngoài đáng kể
  - Những lỗi mà LLM mắc phải cung cấp thông tin hữu ích hơn nhiều so với thành công
Để đạt tới AGI (Artificial General Intelligence) và đạt được mức độ khái quát hóa đủ cao, cần có những cải tiến kiến trúc mang tính nền tảng
- Việc mở rộng quy mô các mô hình hiện có và bổ sung các kiến trúc mới như Jamba sẽ giúp chúng hoạt động hiệu quả hơn, nhanh hơn và ổn định hơn, nhưng không giải quyết được các vấn đề cốt lõi như thiếu khả năng khái quát hóa hay 'goal drift'
Chỉ thêm các agent chuyên biệt để thực hiện "prompt engineering" và cho 17 GPT nói chuyện với nhau thì vẫn chưa đủ
- Tuy vậy, nếu dùng đủ nhiều giải pháp chắp vá thì trong những lĩnh vực chúng ta quan tâm, có thể kết quả sẽ trở nên khó phân biệt
Khi engine cờ vua lần đầu xuất hiện trong thời kỳ đầu của AI, chúng có năng lực xử lý hạn chế và gần như chỉ có chức năng tìm kiếm hoặc đánh giá rất ít hữu dụng
- Vì vậy, chúng phải dựa vào các giải pháp chắp vá như opening hoặc endgame được hard-code, iterative deepening để tìm kiếm tốt hơn, và alpha-beta pruning
- Cuối cùng, những hạn chế đó đã được vượt qua nhờ cải tiến dần dần, và với LLM cũng đang diễn ra tương tự
Ý tưởng mà tác giả ưa thích là đặt nhiều planning agent trong một cấu trúc phân cấp nhiều tầng, nơi chúng có thể chỉ đạo các agent chuyên môn khác có những sub-agent riêng được liên kết với nhau, một khi độ tin cậy được cải thiện phần nào
Chúng ta có thể thêm các mô-đun cho suy luận và lặp, thêm bộ nhớ bền vững và bộ nhớ truy cập ngẫu nhiên, thậm chí cung cấp khả năng hiểu về thế giới vật lý
- Ở thời điểm đó, có vẻ như ta có thể đạt được một dạng gần đúng của ý thức trong LLM theo cách tương tự như ở động vật, nhưng liệu có thật vậy không?
- Cũng có thể cuối cùng nó chỉ là một mô hình thống kê cực kỳ thuyết phục, mô phỏng thứ chúng ta cần khi đi ra ngoài phân phối
Đây là lý do tác giả gọi LLM là một Fuzzy Processor, và cũng là lý do những câu hỏi như "trở thành một LLM thì sẽ như thế nào" thường kết thúc bằng các cuộc đối thoại vòng quanh
Không nên xem đây là bất kỳ dấu hiệu nào cho thấy những gì chúng ta có ngày nay là không mang tính kỳ diệu
- Việc cho rằng Bitter Lesson sẽ không thể ngoại suy toàn bộ đến AGI không có nghĩa là những thành quả chúng ta đã có là không đáng kinh ngạc
Tác giả tin chắc rằng LLM "học" từ dữ liệu mà nó nhìn thấy
- Nó không chỉ là bộ nén đơn thuần hay con vẹt bắt chước
- Nó có thể kết nối dữ liệu giàu sắc thái từ những phần khác nhau của tập dữ liệu huấn luyện hoặc từ prompt và đưa ra phản hồi thông minh
Thomas Nagel có lẽ đã đặt ra câu hỏi về việc trở thành một LLM sẽ như thế nào
- Với tư cách là động vật có vú, loài dơi gần với chúng ta hơn LLM, và nếu nội tại của chúng vẫn mơ hồ với chúng ta, thì khả năng hiểu được hoạt động bên trong của các mô hình mới sẽ là bao nhiêu?
- Hay ngược lại, bởi vì với LLM chúng ta có thể tự do kiểm tra mọi trọng số và mạch, liệu ta có thể đạt được mức độ thấu hiểu nào đó về những mô hình mà mình đang sử dụng không?
Đây là lý do tác giả chính thức sẵn sàng chấp nhận điều đó
- Thống kê được mở rộng đủ mức thì không thể phân biệt với trí tuệ trong phạm vi phân phối của dữ liệu huấn luyện
- Nó không đủ để làm mọi thứ, cũng không đủ để làm hết tất cả, nhưng cũng không phải là ảo ảnh
- Vì thế, sai lầm trong các bài kiểm tra hữu ích cho chẩn đoán hơn nhiều so với thành công
Nếu LLM là cỗ máy có thể làm bất cứ điều gì, thì cuối cùng nó phải có thể làm được phần lớn mọi việc
- Điều đó có thể đạt được thông qua rất nhiều kích thích và thử ép
- Nó có thể không truyền cảm hứng cho thiên tài kiểu Bach hay von Neumann, nhưng vẫn có thể tạo ra những đổi mới và khám phá bình dị hơn song không kém phần quan trọng
- Và có thể làm được điều đó mà không cần đến ý thức hay tư cách đạo đức
- Nếu có thể tự động hóa hoặc tăng tốc những bước nhảy trong cùng một paradigm mà Kuhn nói tới, thì ta sẽ có thể tự do nhảy giữa các paradigm

1 bình luận

GN⁺ 2024-04-28

Ý kiến trên Hacker News

Tóm tắt:

Hiện nay, LLM (mô hình ngôn ngữ lớn) vẫn có những bài toán mà con người thấy dễ nhưng LLM lại khó xử lý, hoặc thậm chí có thể là không thể, như Wordle hay dự đoán cellular automata như Rule 110. Lý do vì sao vẫn chưa được làm rõ hoàn toàn.
Việc đưa ví dụ và hướng dẫn từng bước vào prompt không có nghĩa là LLM tự mình tìm ra các "bước suy luận", mà là người dùng đang trao chúng cho LLM. Chúng ta đang có một "cỗ máy suy luận" có vẻ thông minh nhưng dường như vấp phải những giới hạn mang tính nền tảng.
Vẫn chưa rõ liệu có thể đạt AGI chỉ bằng các mô hình lớn hơn dùng cơ chế Attention hiện tại và prompt tốt hơn hay không. Attention rất cứng nhắc, trong khi não người luôn trải qua tính dẻo của khớp thần kinh. Có thể tồn tại những kiến trúc linh hoạt hơn giúp AGI trở nên khả thi, nhưng hiện chúng ta vẫn chưa biết.
Ở thời điểm hiện tại, để dùng các mô hình AI này, cần phải cẩn thận xây dựng các prompt dài: chuẩn bị kỹ câu trả lời đúng và sai cho các bài toán tính toán, priming mô hình để phản hồi phù hợp, và áp dụng nhiều guardrail bên ngoài.
Attention dường như gặp vấn đề "trôi mục tiêu", nên rất khó bảo đảm độ tin cậy nếu thiếu mọi giá đỡ bên ngoài.
Nếu muốn định lượng về mặt lý thuyết các giới hạn của LLM, ta sẽ phải dựa vào các kết quả lý thuyết thay vì chỉ là danh sách bằng chứng thực nghiệm về những gì hiện tại chúng không làm được. Trong tài liệu liên quan, có thể tìm theo thuật ngữ "expressibility".
Ngay cả những quy tắc đơn giản như quy ước viết số cũng thường thất bại trong nhiều ví dụ, và trong nhiều trường hợp vẫn không hoạt động đúng dù cấu trúc prompt thế nào đi nữa. Điều này gây ngạc nhiên, nhưng cho thấy vẫn còn rất nhiều giới hạn.
Chúng khá kém trong việc được yêu cầu không làm một hành vi nhất định, chẳng hạn như chỉ dẫn "hãy nhắc đến một sự thật thú vị nhưng đừng nói rằng nó thú vị". Thậm chí, càng bảo đừng làm thì chúng lại càng có khả năng làm.
Ngay cả khi giả định LLM có thể "suy luận", thì Agentic AI được xây dựng để đối phó với hallucination không phải dựa trên thế giới thực, mà dựa trên các sự thật, thực thể và quan hệ nhân quả có trong tài liệu. Nó cũng xử lý suy luận chéo trên khoảng cách token rất lớn.
Có ý kiến cho rằng nhu cầu phải xử lý tốt hơn các độ phức tạp bậc hai như quan hệ giữa người với người, thù hằn, liên minh... đã dẫn tới mức độ thông minh cao hơn.
Một số thứ "tuyệt đối không làm được" như Wordle/Sudoku chỉ là artifact của cách biểu diễn bằng văn bản; nếu chuyển sang miền khác, ngay cả với cùng kiến trúc Transformer thì tỷ lệ thành công cũng sẽ cao hơn nhiều.
Không cần tạo AGI tùy biến cho mọi miền; chỉ cần có các agent có khả năng suy luận đủ tốt để phân rã bài toán, giao cho các công cụ chuyên biệt, rồi lắp ráp lại thành câu trả lời, cùng với một danh mục model/công cụ là đủ.

Những điều LLM tuyệt đối không thể làm

[ Giới hạn của LLM ]

Reversal Curse

Có phải vấn đề nằm ở phân phối dữ liệu huấn luyện?

Vì sao LLM về bản chất không thể làm được

[ Thí nghiệm - Vì sao GPT không thể học Wordle ]

[ Thí nghiệm - Dạy Cellular Automata cho LLM ]

[ Cho đến nay người ta đã giải quyết vấn đề này như thế nào ]

[ LLM thực sự có thể học được đến mức nào? ]

Những nghi vấn về năng lực học của LLM

Cải thiện hiệu năng của mạng nơ-ron bằng cách thêm bộ nhớ ngoài

Giới hạn của chain-of-thought prompting và scratchpad

Lời nguyền của tự hồi quy (autoregression)

Câu hỏi về bản chất của nhận thức

Khác biệt dữ liệu huấn luyện giữa con người và LLM

[ LLM không thể đặt lại ngữ cảnh ]

Độ phức tạp của tập dữ liệu và giới hạn quy mô mô hình

Giới hạn của LLM trong việc học cách học

Độ phức tạp của các chuỗi ký hiệu tương tác

Sự khó khăn khi định nghĩa LLM bằng các bài kiểm tra đơn giản

[ Cần nhiều agent hơn ]

Agent: trường hợp sử dụng mạnh mẽ

Khả năng mở rộng sang một phần đáng kể việc làm trong vài năm tới

Giới hạn của GPT và lời giải

Giới hạn dung lượng mô hình và mối quan hệ cạnh tranh giữa các phương thức thị giác-ngôn ngữ

[ Kết luận ]

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News