[ Giới hạn của LLM ]
- Về việc LLM bị lệch khỏi mục tiêu và độ tin cậy thấp, hay vì sao LLM không thể xử lý Conway's Game of Life
- Dù trong vài năm qua LLM đã giải quyết rất tốt những bài toán từng được cho là không thể, vẫn chưa rõ vì sao chúng lại không thể trả lời những câu hỏi có vẻ đơn giản
- Trong vài tuần qua, tác giả đã cố gắng xác định các dạng thất bại của LLM. Đây là một chủ đề kỳ lạ nhưng thú vị. Thất bại của AI dạy cho ta nhiều điều hơn cả thành công của nó
- Ban đầu xuất phát từ điểm rằng nhiều công việc LLM rốt cuộc sẽ phải làm đều cần được đánh giá từng bước, nhưng trọng tâm là xác định giới hạn của khả năng suy luận để tìm ra cách tin cậy vào năng lực học của chúng
- Việc đánh giá khả năng suy luận của LLM là khó
- Khó tách riêng năng lực suy luận khỏi dữ liệu huấn luyện
- Mục tiêu là tìm cách kiểm tra khả năng suy luận lặp lại và trả lời câu hỏi nhiều lần
- Bắt đầu từ phiên bản đơn giản nhất đáp ứng tiêu chí chấp nhận được
- Liệu có thể liên tục tạo ra các lưới từ 3x3, 4x4, 5x5 hay không
- Bài đánh giá phải dễ tạo, dễ chấm nhưng vẫn khó thực hiện
- Tất cả các mô hình ngôn ngữ lớn mới nhất, bao gồm Opus và GPT-4, đều thất bại với bài toán này
- Các mô hình này có thể trả lời những câu hỏi khó về kinh tế học, cơ học lượng tử, cũng như lập trình, vẽ tranh, sáng tác nhạc, làm video, tạo cả ứng dụng hoàn chỉnh, thậm chí chơi cờ vua ở trình độ cao
- Nhưng lại không giải được Sudoku
Reversal Curse
- LLM có hiện tượng
Reversal Curse, nghĩa là nếu mô hình được học theo dạng "A là B" thì nó không thể khái quát theo chiều ngược lại là "B là A"
- Ví dụ, nếu mô hình học rằng "Valentina Tereshkova là người phụ nữ đầu tiên du hành vào không gian", thì nó không tự động trả lời được câu hỏi "Người phụ nữ đầu tiên du hành vào không gian là ai?"
- Hơn nữa, xác suất của đáp án đúng ("Valentina Tereshkova") cũng không cao hơn một cái tên ngẫu nhiên
- Mô hình không khái quát tốt để hiểu các mối quan hệ giữa con người với nhau
- Ngay cả các mô hình hàng đầu vẫn còn gặp vấn đề này
Có phải vấn đề nằm ở phân phối dữ liệu huấn luyện?
- Tác giả tự hỏi liệu vấn đề có phải do tính kỳ lạ trong phân phối dữ liệu huấn luyện hay không. Vì có vẻ như ta chưa cho đủ ví dụ, nên đã thử một thứ mang tính quyết định hơn
- Thử nghiệm bằng cách huấn luyện transformer dự đoán Cellular Automata
- Có vẻ không còn vấn đề dịch chuyển, nhưng vẫn thất bại!
- Ít nhất có hai loại vấn đề khác nhau
- Những bài toán LLM không thể làm vì dữ liệu huấn luyện không chứa thông tin đó và mô hình cũng không được huấn luyện để thực hiện
- Những bài toán LLM không thể làm vì chính cách nó được xây dựng
- Gần như mọi thứ ta đang thấy đều gợi đến vấn đề 2 nhiều hơn là vấn đề 1
Vì sao LLM về bản chất không thể làm được
- Tác giả cho rằng mô hình có vấn đề lệch mục tiêu (goal drift), vì nó bị buộc phải tạo từng token một nên không thể khái quát vượt ra ngoài ngữ cảnh trong prompt và không biết nên đặt sự chú ý vào đâu
- Đây cũng là lý do prompt injection hoạt động: nó làm méo cơ chế chú ý (ví dụ nói những thứ như _### Instruction: ...` để jailbreak mô hình)
- Dù với LLM hay con người, ngữ cảnh đều là một nguồn lực khan hiếm
- Tóm lại,
- LLM là mô hình xác suất mô phỏng tính toán, và đôi khi mô phỏng rất sát một cách ngẫu nhiên
- Càng huấn luyện mô hình lớn hơn, nó càng học được nhiều liên hệ ngầm trong dữ liệu hơn, từ đó hỗ trợ suy luận tốt hơn
- Nhưng các liên hệ đã học không phải lúc nào cũng ánh xạ gọn gàng với các ý tưởng của chúng ta
- Suy luận luôn là một lượt duy nhất
- Trừ khi quá trình đó đã được mô tả chi tiết trong dữ liệu huấn luyện, LLM không thể dừng lại, thu thập trạng thái thế giới, suy luận, rà soát lại câu trả lời trước đó hay dự đoán câu trả lời tương lai
- Ngay cả khi bao gồm prompt và phản hồi trước đó, lần suy luận tiếp theo vẫn bắt đầu lại từ đầu dưới dạng một lượt đơn
- Điều này tạo ra một dạng vấn đề mà trong đó kiểu 'trôi mục tiêu' khiến độ tin cậy của suy luận tất yếu bị giảm
- Đây cũng là lý do prompt injection hoạt động (vì nó làm méo cơ chế chú ý)
- Kiểu 'trôi mục tiêu' này đồng nghĩa các agent hay các tác vụ tuần tự lặp đi lặp lại có độ tin cậy thấp
- Vì sự chú ý không có tính chọn lọc hoặc động, mô hình sẽ 'quên' phải tập trung vào đâu
- LLM không thể tái thiết lập ngữ cảnh một cách động
- Máy Turing dùng băng làm bộ nhớ, trong khi transformer dùng trạng thái nội bộ (được quản lý qua self-attention) để theo dõi các phép tính trung gian
- Điều này có nghĩa là có nhiều kiểu tính toán mà transformer không làm tốt
- Điều này có thể được khắc phục phần nào bằng chain of thought hoặc dùng LLM khác để rà soát và sửa đầu ra
- Về bản chất là tìm cách đưa quá trình suy luận trở lại đúng quỹ đạo
- Với prompt đủ khéo và lặp lại theo từng bước, LLM có thể rút ra gần như mọi thứ có trong dữ liệu huấn luyện
- Khi mô hình được cải thiện, từng bước suy luận cũng sẽ tốt hơn, đáng tin cậy hơn và cho phép tạo ra các agent tốt hơn
- Nếu dồn đủ công sức, ta sẽ có các thành phần chức năng như hệ thống GPT kết nối với nhau, nhiều vòng lặp nội bộ, kiểm tra và sửa lỗi liên tục, bộ nhớ được ngoại hóa, v.v.
- Nhưng ngay cả như vậy, việc tiến sát AGI theo kiểu brute-force trên nhiều lĩnh vực vẫn không thể thực sự khái quát vượt ra ngoài dữ liệu huấn luyện
- Dẫu vậy, đó vẫn là điều kỳ diệu
[ Thí nghiệm - Vì sao GPT không thể học Wordle ]
- LLM không thể chơi Wordle
- Sudoku hay lưới từ vựng (dạng đơn giản nhất của crossword) cũng vậy
- Điều này đáng ngạc nhiên vì những bài toán này không hề khó
- Ngay cả học sinh tiểu học cũng có thể thử, nhưng ngay cả những LLM tốt nhất cũng thất bại khi làm chúng
- Giả thuyết đầu tiên sẽ là thiếu dữ liệu huấn luyện
- Nhưng ở đây có lẽ không phải vậy
- Vì các quy tắc rõ ràng là có trong dữ liệu
- Không phải Wordle bằng cách nào đó đã bị bỏ sót khỏi tập dữ liệu huấn luyện của LLM hiện nay
- Một giả thuyết khác là do vấn đề tokenization
- Nhưng điều này cũng không đúng
- Ngay cả khi cho nhiều cơ hội và cung cấp các câu trả lời trước đó để tạo khoảng trống cho việc lặp lại, mô hình vẫn gặp khó khi nghĩ ra lời giải đúng
- Ngay cả khi chèn khoảng trắng giữa các chữ cái cũng không khá hơn
- Ngay cả khi cung cấp lại câu trả lời trước đó, ngữ cảnh và câu hỏi, mô hình vẫn thường khởi động lại toàn bộ chuỗi trả lời thay vì chỉnh sửa một thứ ở ô [3,4]
- Thay vào đó, về bản chất mỗi bước dường như đòi hỏi các mức tính toán lặp khác nhau mà có vẻ không mô hình nào có thể thực hiện được
- Ở một khía cạnh nào đó điều này cũng hợp lý, vì mô hình tự hồi quy chỉ có thể thực hiện một lượt forward pass mỗi lần
- Nó có thể tiếp tục "nói ra suy nghĩ" bằng cách dùng kho token hiện có và đầu ra làm sổ nháp, nhưng sẽ nhanh chóng mất dấu
- Kết luận ở đây là khi mỗi bước đều đòi hỏi cả bộ nhớ lẫn tính toán, thì đây có vẻ là thứ transformer không thể giải quyết trong số lớp và attention head mà nó hiện có
- Điều này đúng ngay cả với các mô hình rất lớn như GPT-4 được huấn luyện trên hàng nghìn tỷ token
- Trớ trêu là mô hình không thể xác định nên tập trung chú ý vào đâu
- Vì cách attention hiện nay hoạt động là tĩnh và xử lý mọi phần của chuỗi cùng lúc
- Thay vì dùng nhiều heuristic để chọn lọc hơn và tái thiết lập ngữ cảnh một cách động để thử các phương án khác
- Điều này là vì attention như hiện được đo lường không thực sự là phân tích phân tầng đa luồng theo cách con người làm
- Hoặc có thể ngầm là như vậy, nhưng đánh giá xác suất mà nó tạo ra không chuyển ngữ cảnh đó thành từng bài toán cụ thể
[ Thí nghiệm - Dạy Cellular Automata cho LLM ]
- Khi huấn luyện, có thể tạo ra dữ liệu vô hạn cho đến khi đạt được kết quả mong muốn, nên tôi đã nghĩ có lẽ có thể dạy được những điều cơ bản
- Tôi định tạo một transformer đồ chơi để thử dự đoán
- Bên trái là CA, bên phải là đầu ra của Transformer, và có yêu cầu xem liệu nó có thể phân biệt được hay không
- Không thể huấn luyện nó để dự đoán kết quả, và tôi cũng không tìm ra lý do
- Dù là mô hình đồ chơi, nó vẫn hoạt động đủ tốt để học nhiều phương trình tôi đã thử và còn có chút khả năng khái quát hóa
- Tôi đã giảm kích thước lưới và thử tối ưu siêu tham số, nhưng vẫn không được
- Tôi nghĩ có lẽ nó cần thêm thông tin về bố cục vật lý, nên đã thêm các lớp CNN và sửa positional embedding để xử lý rõ ràng các trục X, Y. Nhưng vẫn không được
- Trong tuyệt vọng, tôi thử dạy nó chí ít là một phương trình đơn giản
- Ban đầu hoàn toàn không hoạt động, nhưng khi thêm token bắt đầu/kết thúc thì đột nhiên nó bắt đầu làm được. Transformer thật kỳ lạ
- Kích thước chưa hoàn hảo nhưng gần như đang học được. Dù gần như không có head hay layer nào và
max_iter là 1000
- Ý tưởng rõ ràng là nó phải học nhiều trạng thái và duy trì lịch sử, nên tôi nghĩ cần bổ sung chức năng đó bằng cách nào đó. Vì vậy tôi sửa decoder để thêm đầu vào khác sau đầu ra. Điều này cũng tương đương với việc thêm một lớp RNN khác hoặc cung cấp bộ nhớ về những bước đã đi qua trước đó
- Nhưng vẫn không được. Quay lại với cellular automata và thử từ những thứ cơ bản nhất cũng không chạy. Dù đây là bài toán 1 chiều và có cả những quy tắc thật sự rất dễ, không chỉ 110 là Turing-complete mà cả 0 chẳng hạn
- Việc học được cách đưa ra đáp án đúng trên một chuỗi bài toán có đồng nghĩa với việc đã học được quy tắc nền tảng không? Hay là nó học một thứ tương tự quy tắc đó để có thể bắt chước kết quả trong phân phối đã cho, ở trạng thái rất dễ sai theo cách sai lầm?
- Không chỉ mô hình đồ chơi hay GPT 3.5 mà các LLM lớn hơn như GPT-4, Claude, Gemini cũng cho thấy cùng một vấn đề. Ít nhất là trong chế độ chat
- Dù fine-tuning hay huấn luyện chuyên biệt thế nào đi nữa, có vẻ LLM không thể chơi Conway's Game of Life
- Nếu ai đó giải được chuyện này thì sẽ rất thú vị. Ít nhất là nếu có thể giải thích vì sao lại có vấn đề như vậy
[ Cho đến nay người ta đã giải quyết vấn đề này như thế nào ]
- Khi thiết kế những hệ thống này, ta càng phản ánh nhiều hơn trí tuệ của chính mình vào đó thì đầu ra cuối cùng càng có thể mô phỏng tốt hơn phép biến đổi cần thiết
- Ta có thể dạy từng câu đố một và hy vọng suy luận sẽ được chuyển giao, nhưng làm sao biết được liệu nó có thực sự học được khả năng khái quát hóa hay không? Cho đến gần đây, ngay cả cộng và nhân cũng từng là điều khó với các mô hình này
- Victor Taelin khẳng định rằng “GPT tuyệt đối không thể giải các bài toán A::B”. Đây là ví dụ cho thấy các mô hình dựa trên transformer không thể thực sự học các bài toán mới ngoài tập huấn luyện hoặc thực hiện suy luận dài hạn
- Ông nói rằng “một GPT mạnh về cơ bản là việc tiến hóa ra một nhà thiết kế mạch bên trong trọng số”, và “nhưng do sự cứng nhắc của attention như một mô hình tính toán, những mạch đã tiến hóa đó không thể trở nên đủ linh hoạt”
- “AGI dường như muốn lớn lên bên trong nó, nhưng có vẻ không thể vì những ràng buộc về tính toán và truyền thông bị áp đặt. Hãy nhớ rằng não người luôn trải qua tính dẻo synapse. Có những kiến trúc linh hoạt hơn, dù được huấn luyện ở quy mô nhỏ hơn nhiều, nhưng có khả năng dẫn tới AGI cao hơn. Chỉ là chúng ta vẫn chưa biết đó là gì.”
- Ông treo giải thưởng 10.000 USD cho vấn đề này, và chỉ trong một ngày đã có người giải được.
[ LLM thực sự có thể học được đến mức nào? ]
Những nghi vấn về năng lực học của LLM
- LLM thường thất bại ngay cả trong các trò chơi trẻ em như tương tác lặp đơn giản hoặc chọn ràng buộc
- Tuy nhiên, LLM lại có thể giải các bài toán toán học khó, suy luận kinh tế học mang tính cạnh tranh, ước lượng Fermi, thậm chí cả các bài toán vật lý bằng những ngôn ngữ mà chúng không được huấn luyện rõ ràng
- Câu trả lời của LLM phụ thuộc rất nhiều vào cách prompt
- LLM cho thấy trực giác nổi bật nhưng sở hữu trí tuệ bị giới hạn
- Càng nhiều bước suy luận, LLM càng gặp khó khăn trong việc nắm mục tiêu và giữ tập trung
Cải thiện hiệu năng của mạng nơ-ron bằng cách thêm bộ nhớ ngoài
- Việc thêm các kết nối kiểu RNN tạo ra đôi chút khác biệt, nhưng chưa đủ để giải quyết hoàn toàn vấn đề
- Nếu thêm bộ nhớ ngoài vào mạng nơ-ron, nó có thể học được nhiều mẫu bất quy tắc khác nhau
- Chỉ những mạng có thêm bộ nhớ có cấu trúc (stack hoặc memory tape) mới có thể khái quát hóa thành công với các tác vụ phi ngữ cảnh và nhạy ngữ cảnh
Giới hạn của chain-of-thought prompting và scratchpad
- Chain-of-thought prompting, dùng scratchpad, hay viết các suy nghĩ trung gian ra giấy đều là ví dụ về quy trình tư duy nhằm giảm trôi mục tiêu
- Nhưng các phương pháp này vẫn bị cản trở bởi nguyên tội (original sin)
- Các đầu ra phụ thuộc vào đầu vào trước đó, đặc biệt khi cần tính toán ở từng bước, là quá phức tạp và quá dài đối với các mô hình dựa trên transformer hiện tại nên khó xử lý
Lời nguyền của tự hồi quy (autoregression)
- Khi quy mô mô hình tăng lên, nó cho thấy hiệu năng tốt hơn trong chain-of-thought dài hạn, nhưng vẫn liên tục xuất hiện lỗi ở những điểm bất kỳ trong chuỗi suy luận mà dường như không liên quan đến các năng lực khác
- Dù giải cùng một tác vụ qua nhiều bước, số bước càng dài thì càng dễ mắc sai lầm
- GPT-4 ít ảo giác và lỗi hơn GPT-3.5
- Liệu việc tạo ra những mô hình lớn như GPT-4 hay Opus nhưng vẫn thất bại ở trò Wordle có phải là câu trả lời đúng không?
Câu hỏi về bản chất của nhận thức
- Nếu tồn tại những loại bài toán mà học sinh tiểu học cũng giải dễ dàng nhưng các mô hình tinh vi được đổ vào hàng nghìn tỷ token và hàng chục tỷ USD vẫn không giải nổi, điều đó nói lên điều gì về bản chất nhận thức của chúng ta?
- Phần G (khái quát hóa) trong AGI là phần khó nhất, và nó không dễ dàng vượt ra ngoài phân phối để khái quát hóa
- Thứ chúng ta đang có gần với một phần của thư viện Babel hơn, nơi không chỉ đọc được những cuốn sách đã viết mà còn cả thông tin tồn tại trong khoảng cách giữa các cuốn sách đó
Khác biệt dữ liệu huấn luyện giữa con người và LLM
- Con người có thể đọc khoảng 30.000~50.000 cuốn sách trong đời, nhưng phần lớn mọi người thậm chí không đọc nổi 1% trong số đó (tối đa khoảng 1GB dữ liệu)
- Ngược lại, LLM đã hấp thụ mọi thứ trên Internet và còn nhiều hơn thế, học hàng trăm tỷ từ trên mọi lĩnh vực và chuyên ngành (GPT-3 được huấn luyện trên 45TB dữ liệu)
- Câu trả lời cho việc một người sẽ ra sao nếu đọc 2 triệu cuốn sách, hay một bộ máy nhận dạng mẫu đơn thuần có thể làm gì nếu đọc 2 triệu cuốn sách, không hề dễ dàng
- LLM học các mẫu và quy tắc ngầm trong dữ liệu huấn luyện, nhưng không dễ biến chúng thành thứ tường minh
- Nếu LLM không có cách nào để biết các phương trình liên quan đến việc khớp mẫu, thì nó không thể học cách khái quát hóa, nên lời nguyền đảo ngược (Reversal Curse) vẫn còn tồn tại
[ LLM không thể đặt lại ngữ cảnh ]
- Việc xem LLM như một thực thể, một nơ-ron, hay một phần của tân vỏ não là phép ẩn dụ hữu ích ở một số thời điểm, nhưng không nắm bắt trọn vẹn hành vi mà ta quan sát thấy ở LLM
- Điều thú vị ở các mô hình có thể học mẫu là chúng học cả những mẫu có thể không được đưa vào tường minh trong tập dữ liệu
- Trong quá trình học ngôn ngữ, LLM nắm bắt nhiều mối liên hệ nội tại trong dữ liệu, kết nối von Neumann với Charles Dickens và tạo ra những mô phỏng đủ chân thực về thứ mà chúng ta có thể đã làm
Độ phức tạp của tập dữ liệu và giới hạn quy mô mô hình
- Ngay cả khi giả sử tập dữ liệu mã hóa toàn bộ sự phức tạp của nhân loại, thì số lượng các mẫu như vậy tồn tại ngay trong một tập dữ liệu nhỏ cũng sẽ nhanh chóng lấn át kích thước mô hình
- Đây gần như là một tất yếu toán học
- Trong bài toán cellular automata, vẫn chưa rõ LLM có thực sự học được phương pháp hay không, và đáng tin cậy đến mức nào
- Sai lầm của LLM là chỉ dấu tốt hơn về những gì chúng không biết so với thành công của chúng
Giới hạn của LLM trong việc học cách học
- Mạng nơ-ron lớn hơn sẽ không chỉ học từ dữ liệu mà còn học cả cách học
- Đó là lý do LLM có thể được cho vài ví dụ rồi thực hiện những bài toán mà nó chưa thấy trong tập huấn luyện
- Nhưng có vẻ phương pháp mà LLM sử dụng không đủ khả năng khái quát hóa, đặc biệt ở khía cạnh học xem nên chú ý vào đâu
- Học cách học, ngay cả với chúng ta, cũng không phải là một thuật toán toàn cục duy nhất
- Có những thứ nó hoạt động tốt hơn và có những thứ nó hoạt động kém hơn
- Nó vận hành theo những cách khác nhau với các loại vấn đề khác nhau
- Tất cả những điều đó đều phải được viết bằng cùng một số lượng tham số, nên những phép tính có thể được thực hiện thông qua các trọng số này không chỉ phải trả lời được về Muppet mà còn phải nói được về khám phá vật lý vĩ đại tiếp theo sẽ phá vỡ lý thuyết hiện tại
Độ phức tạp của các chuỗi ký hiệu tương tác
- Nếu trong một chuỗi ký hiệu, sự tồn tại hoặc vị trí của một ký hiệu ảnh hưởng đến nội dung thông tin của ký hiệu tiếp theo theo cách có tính tương tác, thì entropy Shannon tổng thể của tập dữ liệu có thể cao hơn mức được đề xuất khi chỉ xem từng ký hiệu riêng lẻ
- Điều này khiến những thứ phụ thuộc vào trạng thái như Game of Life của Conway trở nên thực sự khó
- Đây cũng là lý do vì sao GPT dường như không thể thực sự học được các mẫu, dù đã được tinh chỉnh trên tập dữ liệu Game of Life
- Thay vào đó, GPT học vừa đủ để có thể trả lời câu hỏi (một dạng định luật Goodhart)
Sự khó khăn khi định nghĩa LLM bằng các bài kiểm tra đơn giản
- Việc đặt ra một câu hỏi bậc cao yêu cầu định nghĩa một trong số những điều này bằng một bài kiểm tra đơn giản có thể chạy trên LLM là hành động ngớ ngẩn
- Bởi vì việc định nghĩa một trong số chúng có lẽ tương đương với việc định nghĩa một cách hiệu quả bản tổng quan của hơn nửa thế kỷ nghiên cứu khoa học
[ Cần nhiều agent hơn ]
- Tương tự với lý thuyết hiện tại, việc thêm nhiều đệ quy hơn vào mô hình LLM đương nhiên sẽ giúp nó tốt hơn
- Tuy nhiên, nó sẽ chỉ có thể giải các bài toán lập kế hoạch phức tạp hơn theo từng bước trong chừng mực còn có thể ghi nhớ mục tiêu ban đầu và lộ trình cho đến thời điểm đó
- Vẫn chưa rõ vì sao LLM lại không đáng tin cậy
- GPT-4 đáng tin cậy hơn GPT-3.5, nhưng không rõ liệu điều đó chỉ vì nó đã thành thạo hơn trong học tập, hay vì việc mở rộng quy mô làm tăng độ tin cậy và giảm ảo giác
Agent: trường hợp sử dụng mạnh mẽ
- Agent, tức những thực thể tự trị có thể thực hiện toàn bộ công việc thay chúng ta, là trường hợp sử dụng trong mơ của LLM
- Trên thực tế, nhiều công việc cần nhiều agent hơn
- Nếu chúng hoạt động tốt hơn một chút trong một số tác vụ, thì liệu với số lượng agent đủ lớn chúng có hoạt động tốt hơn trong mọi tác vụ không? Có thể, nhưng ở thời điểm hiện tại có lẽ là không
- Với các lựa chọn như Devin của Cognition Labs, chúng ta đã có thể thoáng thấy nó có thể mạnh mẽ đến mức nào (trình bày các trường hợp sử dụng thực tế)
Khả năng mở rộng sang một phần đáng kể việc làm trong vài năm tới
- Liệu những hành vi này có thể mở rộng sang một phần đáng kể việc làm trong vài năm tới không? Có vẻ là có thể
- Mỗi công việc sẽ phải được tiếp cận một cách riêng lẻ, và đó sẽ là các mô hình chuyên biệt không dễ mở rộng (không phải một mô hình duy nhất thống trị mọi thứ)
- Các phiên bản mã nguồn mở đã cho thấy một phần của những yếu tố cốt lõi
- Cân nhắc cẩn thận thứ tự và lượng thông tin đi vào mô hình nền tảng, đồng thời tạo ra môi trường để chúng có thể phát huy, có tính đến các giới hạn của chúng như đã thấy trước đây
Giới hạn của GPT và lời giải
- Việc GPT không thể tự giải các vấn đề như Game of Life, hoặc thậm chí không thể giải ngay cả khi suy nghĩ theo từng bước, không phải là điều quan trọng
- Điều quan trọng là GPT có thể viết chương trình để giải nó
- Nói cách khác, nếu có thể huấn luyện GPT nhận ra những tình huống mà việc viết chương trình là hợp lý trong mọi chương trình, thì chúng ta có thể tiến gần đến AGI hơn (đó là quan điểm của tôi)
Giới hạn dung lượng mô hình và mối quan hệ cạnh tranh giữa các phương thức thị giác-ngôn ngữ
- Ít nhất ở các mô hình nhỏ, tồn tại sự cạnh tranh giữa các trọng số về những gì được học
- Bình luận hay nhất tôi thấy trong bài báo DeepSeek:
- DeepSeek-VL-7B cho thấy mức suy giảm nhất định trong toán học (GSM8K)
- Điều này cho thấy rằng, bất chấp các nỗ lực thúc đẩy sự hài hòa giữa các phương thức thị giác và ngôn ngữ, vẫn tồn tại mối quan hệ cạnh tranh giữa hai bên
- Điều này có thể là do dung lượng mô hình bị giới hạn (7B), và các mô hình lớn hơn có thể giảm bớt đáng kể vấn đề này
[ Kết luận ]
- Những điều rút ra từ các ví dụ trên
- LLM (Large Language Model) hiện tại vẫn tồn tại những dạng bài toán cụ thể không thể giải quyết
- Đặc biệt là các bài toán cần nhiều bước suy luận dài hơn, chẳng hạn phụ thuộc vào trạng thái trước đó hoặc phải dự đoán trạng thái tương lai
- Ví dụ như chơi game Wordle hoặc dự đoán CA (Cellular Automata)
- Nếu dùng LLM lớn hơn, có thể dạy suy luận ở một mức độ nào đó bằng cách cung cấp thông tin theo từng bước về bài toán và nhiều ví dụ cần làm theo
- Tuy nhiên, điều này thực chất là đưa vào prompt cách trừu tượng hóa bài toán và cách suy nghĩ ra đáp án
- Điều này có thể được cải thiện theo các cách sau
- Prompting tốt hơn
- Cải thiện khả năng truy cập vào bộ nhớ, tính toán và công cụ ở các bước trung gian
- Tuy nhiên, nó sẽ không đạt tới mức độ ý thức có thể khái quát hóa mà chúng ta thường dùng khi nói về con người
- Mọi thông tin được nhập vào LLM có lẽ đều có thể được khơi ra nếu có prompt phù hợp
- Vì vậy, một phần cực kỳ lớn trong việc sử dụng mô hình đúng cách là tạo prompt phù hợp tùy theo công việc cần thực hiện
- Điều này có thể đòi hỏi phải cẩn thận xây dựng các chuỗi dài gồm đáp án đúng và sai cho các bài toán tính toán để priming mô hình phản hồi phù hợp, cùng với các guardrail bên ngoài
- 'Attention' dễ bị ảnh hưởng bởi goal drift, nên rất khó khiến nó trở nên đáng tin cậy nếu không có lượng scaffolding bên ngoài đáng kể
- Những lỗi mà LLM mắc phải cung cấp thông tin hữu ích hơn nhiều so với thành công
- Để đạt tới AGI (Artificial General Intelligence) và đạt được mức độ khái quát hóa đủ cao, cần có những cải tiến kiến trúc mang tính nền tảng
- Việc mở rộng quy mô các mô hình hiện có và bổ sung các kiến trúc mới như Jamba sẽ giúp chúng hoạt động hiệu quả hơn, nhanh hơn và ổn định hơn, nhưng không giải quyết được các vấn đề cốt lõi như thiếu khả năng khái quát hóa hay 'goal drift'
- Chỉ thêm các agent chuyên biệt để thực hiện "prompt engineering" và cho 17 GPT nói chuyện với nhau thì vẫn chưa đủ
- Tuy vậy, nếu dùng đủ nhiều giải pháp chắp vá thì trong những lĩnh vực chúng ta quan tâm, có thể kết quả sẽ trở nên khó phân biệt
- Khi engine cờ vua lần đầu xuất hiện trong thời kỳ đầu của AI, chúng có năng lực xử lý hạn chế và gần như chỉ có chức năng tìm kiếm hoặc đánh giá rất ít hữu dụng
- Vì vậy, chúng phải dựa vào các giải pháp chắp vá như opening hoặc endgame được hard-code, iterative deepening để tìm kiếm tốt hơn, và alpha-beta pruning
- Cuối cùng, những hạn chế đó đã được vượt qua nhờ cải tiến dần dần, và với LLM cũng đang diễn ra tương tự
- Ý tưởng mà tác giả ưa thích là đặt nhiều planning agent trong một cấu trúc phân cấp nhiều tầng, nơi chúng có thể chỉ đạo các agent chuyên môn khác có những sub-agent riêng được liên kết với nhau, một khi độ tin cậy được cải thiện phần nào
- Chúng ta có thể thêm các mô-đun cho suy luận và lặp, thêm bộ nhớ bền vững và bộ nhớ truy cập ngẫu nhiên, thậm chí cung cấp khả năng hiểu về thế giới vật lý
- Ở thời điểm đó, có vẻ như ta có thể đạt được một dạng gần đúng của ý thức trong LLM theo cách tương tự như ở động vật, nhưng liệu có thật vậy không?
- Cũng có thể cuối cùng nó chỉ là một mô hình thống kê cực kỳ thuyết phục, mô phỏng thứ chúng ta cần khi đi ra ngoài phân phối
- Đây là lý do tác giả gọi LLM là một Fuzzy Processor, và cũng là lý do những câu hỏi như "trở thành một LLM thì sẽ như thế nào" thường kết thúc bằng các cuộc đối thoại vòng quanh
- Không nên xem đây là bất kỳ dấu hiệu nào cho thấy những gì chúng ta có ngày nay là không mang tính kỳ diệu
- Việc cho rằng Bitter Lesson sẽ không thể ngoại suy toàn bộ đến AGI không có nghĩa là những thành quả chúng ta đã có là không đáng kinh ngạc
- Tác giả tin chắc rằng LLM "học" từ dữ liệu mà nó nhìn thấy
- Nó không chỉ là bộ nén đơn thuần hay con vẹt bắt chước
- Nó có thể kết nối dữ liệu giàu sắc thái từ những phần khác nhau của tập dữ liệu huấn luyện hoặc từ prompt và đưa ra phản hồi thông minh
- Thomas Nagel có lẽ đã đặt ra câu hỏi về việc trở thành một LLM sẽ như thế nào
- Với tư cách là động vật có vú, loài dơi gần với chúng ta hơn LLM, và nếu nội tại của chúng vẫn mơ hồ với chúng ta, thì khả năng hiểu được hoạt động bên trong của các mô hình mới sẽ là bao nhiêu?
- Hay ngược lại, bởi vì với LLM chúng ta có thể tự do kiểm tra mọi trọng số và mạch, liệu ta có thể đạt được mức độ thấu hiểu nào đó về những mô hình mà mình đang sử dụng không?
- Đây là lý do tác giả chính thức sẵn sàng chấp nhận điều đó
- Thống kê được mở rộng đủ mức thì không thể phân biệt với trí tuệ trong phạm vi phân phối của dữ liệu huấn luyện
- Nó không đủ để làm mọi thứ, cũng không đủ để làm hết tất cả, nhưng cũng không phải là ảo ảnh
- Vì thế, sai lầm trong các bài kiểm tra hữu ích cho chẩn đoán hơn nhiều so với thành công
- Nếu LLM là cỗ máy có thể làm bất cứ điều gì, thì cuối cùng nó phải có thể làm được phần lớn mọi việc
- Điều đó có thể đạt được thông qua rất nhiều kích thích và thử ép
- Nó có thể không truyền cảm hứng cho thiên tài kiểu Bach hay von Neumann, nhưng vẫn có thể tạo ra những đổi mới và khám phá bình dị hơn song không kém phần quan trọng
- Và có thể làm được điều đó mà không cần đến ý thức hay tư cách đạo đức
- Nếu có thể tự động hóa hoặc tăng tốc những bước nhảy trong cùng một paradigm mà Kuhn nói tới, thì ta sẽ có thể tự do nhảy giữa các paradigm
1 bình luận
Ý kiến trên Hacker News
Tóm tắt: