Suy luận của mô hình ngôn ngữ lớn: góc nhìn hình học

(arxiv.org)

1 điểm bởi GN⁺ 2024-07-09 | 1 bình luận | Chia sẻ qua WhatsApp

Hiệu năng suy luận của LLM được diễn giải không chỉ là vấn đề kích thước mô hình mà còn là hình học của các tầng Transformer, qua đó bàn về mối liên hệ rằng mật độ của đồ thị self-attention làm thay đổi chiều nội tại của đầu vào MLP
MLP chia không gian đầu vào thành nhiều vùng affine từng phần; khi chiều nội tại của đầu vào tăng lên, nó có thể tạo ra nhiều vùng hơn để xấp xỉ các hàm phi tuyến một cách tinh vi hơn
Trong đồ thị attention xem token là nút, khi số head hoặc độ dài ngữ cảnh tăng lên thì mật độ đồ thị cao hơn, và vì vậy không gian biểu diễn mà MLP xử lý cũng có thể mở rộng
Trong các thí nghiệm với GSM8K-Zero và Llama 3 8B/70B Instruct, khi gắn thêm 1~10 ví dụ few-shot thì mức tăng chiều nội tại ở tầng cuối có tương quan mạnh với việc cải thiện tỷ lệ trả lời đúng
Mức tăng chiều nội tại ở tầng đầu có thể xuất hiện ngay cả khi chỉ gắn thêm token ngẫu nhiên nên khả năng giải thích yếu hơn; cải thiện suy luận thực sự bộc lộ rõ hơn khi ngữ cảnh liên quan làm giàu biểu diễn ở tầng cuối

Vì sao nhìn năng lực suy luận qua lăng kính hình học

Trong việc ứng dụng LLM thực tế, nâng cao năng lực suy luận là một bài toán cốt lõi, và các mô hình như GPT-4 hay Llama 3 cho thấy hiệu năng mạnh ở nhiều tác vụ
Các hướng cải thiện trước đây chủ yếu có hai nhánh lớn
- Tăng kích thước mô hình: có nhiều trường hợp mô hình lớn hơn thể hiện năng lực suy luận tốt hơn
- Tăng độ dài ngữ cảnh: các cách như chain of thought, retrieval augmented generation, hay prompting dựa trên ví dụ đều dùng cách tăng số token đầu vào
Đầu vào dài hơn và mô hình lớn hơn có thể làm tăng chi phí tính toán và độ trễ suy luận trong sử dụng thực tế
Nghiên cứu này xem xét mối quan hệ giữa năng lực biểu diễn và năng lực suy luận của LLM thông qua hình học của các tầng Transformer
Câu hỏi cốt lõi là độ dài chuỗi đầu vào và số attention head ảnh hưởng thế nào đến hình học của LLM, đặc biệt là chiều nội tại của khối self-attention

Phân vùng không gian của MLP và năng lực biểu diễn

MLP dùng các phi tuyến như ReLU, leaky-ReLU, absolute value, max-pooling có thể được xem như hàm affine từng phần liên tục chia không gian đầu vào thành nhiều vùng
Mỗi vùng gắn với một ánh xạ affine xử lý đầu vào trong khoảng đó
- Nếu hàm mục tiêu là tuyến tính trên một khoảng nào đó thì chỉ một vùng là đủ
- Nếu hàm mục tiêu là phi tuyến thì cần nhiều vùng để xấp xỉ độ cong
Trong thí nghiệm toy xấp xỉ hàm sine, khi số hidden neuron tăng từ 50 lên 500 thì số vùng tạo ra nhiều hơn và phép xấp xỉ trở nên tinh vi hơn
Cách các vùng được bố trí trong không gian đầu vào phụ thuộc vào dữ liệu, và kích thước, độ đồng đều cũng như biến đổi cấu trúc của dữ liệu có thể ảnh hưởng đến mật độ phân vùng
Ngay cả với cùng số neuron, khi chiều nội tại của đầu vào lớn hơn thì số vùng mà MLP có thể tạo ra tăng theo cấp số mũ

Cách chiều nội tại hình thành trong Transformer

Một tầng Transformer của causal LLM gồm self-attention, multi-head attention, MLP, residual connection và layer normalization
Attention map có thể được diễn giải thành một đồ thị với token là nút và giá trị attention là trọng số cạnh
Mật độ của đồ thị self-attention biểu thị mức độ kết nối giữa các token, và mật độ này liên hệ với chiều nội tại của đầu vào MLP
Theo Theorem 2.1, mỗi hàng trong đầu ra của multi-head attention nằm trong Minkowski sum của các convex hull đơn head, và chiều hiệu dụng bị chặn bởi tổng số token có giá trị attention lớn hơn 0 ở từng head
Soft intrinsic dimension được dùng trong nghiên cứu được định nghĩa là số token có giá trị attention lớn hơn ngưỡng ε
- Trong thí nghiệm, ε được chọn dựa trên thống kê và phân bố của các giá trị attention
- Trong mọi thí nghiệm, ngưỡng được đặt là 0.1

Con đường để attention head và độ dài ngữ cảnh làm tăng năng lực biểu diễn

Vì chiều nội tại của đầu vào MLP được quyết định bởi attention map, đồ thị attention càng dày đặc thì MLP càng có thể tạo nhiều vùng hơn
Có thể tóm tắt hai cách làm tăng chiều nội tại
- Tăng số attention head: hiệu ứng của nhiều head được cộng dồn và có thể làm tăng chiều hiệu dụng
- Chỉnh sửa prompt hoặc mở rộng ngữ cảnh: thay đổi đầu vào có thể làm tăng mật độ của đồ thị attention
Thí nghiệm toy với LLM một tầng dùng cấu trúc embedding → attention block → MLP một hidden layer để xấp xỉ hàm sine
Khi so sánh context length 10/100 và số head 1/10, kết quả cho thấy độ dài ngữ cảnh và số head càng tăng thì số vùng mà MLP tạo ra trong không gian đầu vào cũng tăng theo
Việc thay đổi số head có thể đòi hỏi pre-training hoặc fine-tuning, nhưng độ dài ngữ cảnh có thể điều chỉnh mà không cần đụng đến trọng số mô hình

Thí nghiệm với GSM8K-Zero và Llama 3

Thí nghiệm dùng bộ dữ liệu GSM8K-Zero để đánh giá hiệu năng phản hồi của LLM trên các câu hỏi reasoning
Các điều kiện gồm baseline 0-shot và các biến thể prompt 1~10-shot
- Các ví dụ few-shot là các cặp question-answer được chọn ngẫu nhiên từ tập huấn luyện của GSM8K-Zero
- Trong thí nghiệm đối chứng, token ngẫu nhiên hoặc văn bản few-shot đã bị xáo trộn được gắn thêm vào phía trước
Các mô hình được dùng là Llama3 8B Instruct và Llama3 70B Instruct
Base prompt gồm khoảng 300 mẫu từ GSM8K-Zero mà mô hình trả lời sai
Tính đúng sai của phản hồi được đánh giá bằng cách prompting mô hình Mixtral 8×22B Instruct

ID ở tầng cuối khớp với hiệu năng tốt hơn

Khi thêm các ví dụ few-shot vào đầu prompt, nếu chiều nội tại tăng ở tầng cuối thì xác suất nhận được câu trả lời đúng cũng cao hơn
Trên cả Llama3 8B và 70B Instruct, mức thay đổi ID của tầng cuối càng lớn thì tỷ lệ phản hồi đúng càng có xu hướng tăng
Ở tầng đầu, chiều nội tại có thể tăng với bất kỳ loại token nào được gắn thêm
- Đồ thị attention ở tầng đầu vận hành gần như một uniform distribution trên toàn bộ token
- Thí nghiệm với token ngẫu nhiên cho thấy việc tăng ID ở tầng đầu không nhất thiết gắn với cải thiện hiệu năng suy luận
Trong điều kiện token ngẫu nhiên, mức tăng ID bị hạn chế hoặc âm, còn tỷ lệ phản hồi đúng bão hòa ở khoảng 40%
Ở Figure 8 so sánh nhiều tầng, bất kể kích thước mô hình, ID của tầng cuối xuất hiện như tín hiệu hữu ích hơn để phân biệt phản hồi đúng hay sai
Trong LLM, mỗi token do self-attention head tạo ra được biến đổi độc lập trong MLP, và MLP có phân vùng tinh hơn có thể áp dụng các affine map thích nghi hơn cho từng token
Dự đoán được tạo ra bằng cách kết hợp tuyến tính các token đã được embedding, nên sai số xấp xỉ theo từng token có thể tích lũy; phân vùng tinh hơn quanh token có thể giảm sai số xấp xỉ của dự đoán cuối cùng
Mối liên hệ giữa chiều nội tại và phân vùng affine map với khả năng tổng quát hóa của LLM vẫn chưa được khám phá đầy đủ trong nghiên cứu này cũng như phần lớn các công trình liên quan

1 bình luận

GN⁺ 2024-07-09

Các ý kiến trên Hacker News

Giá trị của AI trông giống như đường cong bồn tắm. Ở mức thấp, nó là một công cụ tự động hoàn thành siêu mạnh, viết khá ổn các đoạn code 1–3 dòng; ở mức cao, nó hữu ích để giải thích các khái niệm cấp cao liên quan đến công việc trước mắt
Ở vùng giữa thì không tốt. Khi bắt nó lập kế hoạch nhiều bước, từng mảnh riêng lẻ có thể ổn, nhưng chúng không ăn khớp với nhau. AI không có cảm giác rằng “bốn phần này phải liên kết chặt chẽ để tạo thành một tổng thể”, và khi tạo bốn bước đi từ A đến B, nó giống như chắp vá đại khái các con đường khác nhau lại với nhau
- Đó không phải là đường cong bồn tắm. Các tác vụ mức thấp và tác vụ “mức cao” rốt cuộc đều là cùng một kiểu sinh văn bản xác suất
  Nó không suy luận về code, cũng không suy luận về lời giải thích mà nó đưa ra. AI không biết nghĩ, không tạo mô hình nội tại của vấn đề được giao, mà chỉ đoán. Lý do các tác vụ “ở giữa” này thất bại là vì để đưa ra đáp án đúng cần suy luận trừu tượng
- Nếu nghĩ về dữ liệu huấn luyện, ví dụ về kế hoạch nhiều bước không nhiều lắm. Nếu cấu trúc học là học cách các khái niệm, tức các vector chiều cao, khớp với nhau như thế nào, thì nó không thể làm tốt khi không có đủ ví dụ suy luận cần thiết
  Cuối cùng, khi dữ liệu như dữ liệu tổng hợp, mô tả tốt về mục tiêu và code triển khai mục tiêu đó được tích lũy, mọi thứ sẽ tốt hơn
- Trục mức thấp và mức cao có thể không phải là thước đo tốt để đánh giá AI. Cần áp dụng kernel trick cho thước đo này để tách độ cao thấp của mức độ khỏi vấn đề lập kế hoạch đa bước
  Nói cách khác, cần dùng một chiều khác để phân biệt ba vấn đề này
Không biết bạn còn nhớ trò “Mad Libs” không. Đó là trò điền vào các ô trống như “động từ”, “danh từ”, “tính từ”, rồi ở trang sau dùng các từ đó để tạo ra một câu chuyện buồn cười. Khi nhập các từ ban đầu không có ngữ cảnh, nên tuy đúng ngữ pháp nhưng lại vô nghĩa về mặt ngữ cảnh, vì thế mới gây cười
LLM giống như Mad Libs có gắn thêm bộ dự đoán ngữ cảnh. Nó tạo ra đầu ra đúng ngữ pháp, và vì các tương quan thống kê nhìn chung tạo ra kết quả có ý nghĩa, bộ dự đoán ngữ cảnh giúp giảm bớt những điều nhảm nhí. Nhưng ở đây không có “suy luận”, chỉ có điền khung ngữ pháp và tự động hoàn thành thống kê
- Đúng, nhưng đó là một mô hình tự động hoàn thành phức tạp đến mức gần như khó tưởng tượng. Và một phần đáng kể suy luận của con người có thể được dự đoán bằng thống kê từ văn bản, nên chỉ với một mô hình tự động hoàn thành tốt cũng thực sự có thể thu được hành vi giống suy luận
  Việc nó không hoạt động trong mọi trường hợp không có nghĩa là nên đánh giá thấp việc nó hoạt động tốt đáng kinh ngạc đến mức nào, cũng như bản thân sự thật rằng nó hoạt động lại bất ngờ đến mức nào. Trọng tâm của bài gốc cũng là khám phá cách các hiện tượng giống suy luận xuất hiện từ một mô hình tự động hoàn thành đủ khổng lồ
- Cách nói “chỉ là điền khung ngữ pháp và tự động hoàn thành thống kê” chính là giả thuyết vẹt ngẫu nhiên, và cứ mỗi khi có bài về LLM được đăng lên HN thì nó lại nhất định được lặp lại
  Giả thuyết này không chỉ dừng ở một lập luận triết học mà còn tạo ra các dự đoán có thể phản chứng, và các thí nghiệm đã phản chứng nó đầy đủ. LLM có mô hình thế giới. Một bài báo nổi tiếng về chủ đề này là OthelloGPT, và gần đây hơn có Transformers Represent Belief State Geometry in their Residual Stream
- Tôi không hiểu vì sao mọi người cứ chắc chắn rằng “suy luận” không phải là một dạng điền khung ngữ pháp và tự động hoàn thành thống kê nào đó
- Tôi cho rằng suy luận là điền khung ngữ pháp và tự động hoàn thành thống kê đã phát triển đủ mức
  Cũng đáng nhớ rằng các phép biến đổi ngữ pháp là Turing-complete: https://wiki.c2.com/?RewriteRules
- Tôi đã lấy ý tưởng này, chính xác hơn là ad-libs, để đặt tên cho một thư viện TypeScript dùng điền chỗ trống LLM: https://github.com/gsuuon/ad-llama/
Có vẻ cuộc thảo luận có hai khía cạnh. Có quan điểm cho rằng khi hấp thụ một lượng văn bản khổng lồ, mô hình bằng cách nào đó đã tạo ra năng lực suy luận, tức là suy luận xuất hiện sau ngôn ngữ
Ngược lại, cũng có quan điểm rằng suy luận là thứ con người đã thực hiện sẵn rồi viết ra, nên khi hỏi những câu như “sau Juliet, Romeo có nên tìm một tình yêu khác không”, mô hình chỉ phản chiếu lại tập hợp suy luận đã được phản ánh trong hàng tỷ bài luận văn học tiếng Anh. Có phải tôi đang bỏ sót điều gì không?
- Hai điều đó trông giống như hai mặt của cùng một đồng xu. Về cơ bản, LLM được huấn luyện để hoàn thành văn bản, và huấn luyện là quá trình tìm ra cách làm việc đó hiệu quả nhất trong phạm vi cấu trúc mô hình và số lượng tham số cho trước
  Nếu bắt đầu từ câu “LLM hấp thụ một lượng văn bản khổng lồ”, một mô hình đơn giản có thể hoàn thành văn bản bằng cách ghi nhớ. Nhưng để hoàn thành đúng 234 * 452 =, việc thực sự tính toán đơn giản hơn nhiều so với ghi nhớ mọi phép nhân có thể có. Tương tự, nếu có thể hiểu thế giới và suy luận, mô hình sẽ hoàn thành các câu do con người viết tốt hơn. Vì vậy, có thể kỳ vọng rằng một mô hình được huấn luyện đủ tốt, có đủ nhiều tham số để làm việc này nhưng không nhiều đến mức chỉ đơn thuần overfit, sẽ phát triển năng lực suy luận ở một mức độ nào đó
  Nếu bắt đầu từ ý “tập huấn luyện có rất nhiều suy luận”, thì ngay cả ở giai đoạn ghi nhớ cũng có thể thu được kết quả trông giống suy luận. Nhưng lập luận rằng mô hình sẽ phát triển suy luận thực sự vẫn còn hiệu lực và thậm chí mạnh hơn. Nếu phải hoàn thiện lập luận của ai đó, việc có thể đi theo dòng suy nghĩ của người đó sẽ dễ hơn nhiều
- Nên xem các bài kiểm tra suy luận rộng hơn hiện dùng cho LLM, chẳng hạn như MuSR. Vì câu hỏi được tạo mới, nên rõ ràng khó giải thích chỉ bằng cách giải thích thứ hai: https://arxiv.org/abs/2310.16049
- Lý do những mô hình như vậy có thể “suy luận”, hay nói chính xác hơn là xử lý các khái niệm phức tạp, khá trực quan. Khi xử lý khối lượng văn bản khổng lồ, chúng tạo ra biểu diễn nội tại trong đó các khái niệm được biểu diễn bằng những nút đơn giản, tức là neuron hoặc các cụm neuron
  Vì thế, trên thực tế chúng chưng cất tri thức. Hoặc cũng có thể nghĩ về nó như một dạng phân tích thành phần chính rất tốt, trích xuất nhiều khía cạnh quan trọng, hay như một đồ thị ngữ nghĩa được tạo tự động. Khi tri thức đã được chưng cất, ta có thể dễ dàng xây dựng lên trên nó bằng cách kết hợp các khái niệm. Không có bí mật đặc biệt nào cả
- Xem lướt bài báo thì có vẻ họ nhận ra vấn đề này nhưng phần nào lướt qua
  Họ nói rằng rõ ràng năng lực xấp xỉ và khái quát hóa không phải là cùng một khái niệm. Nhưng việc năng lực suy luận của LLM có liên hệ với khái quát hóa hay không vẫn chưa được xác định, và vì các khái niệm này vẫn khó chỉ ra chính xác, nên phần thực nghiệm tập trung vào chiều nội tại, tức là mối quan hệ giữa khả năng biểu đạt và năng lực suy luận
- Trong cụm “mô hình phản chiếu lại câu trả lời đó”, từ phản chiếu hàm chứa rất nhiều điều. Liệu có thật sự đơn giản như vậy không?
  Có nghĩa là mô hình chấp nhận quan điểm của một bài phê bình văn học cụ thể mà nó đã “đọc” không? Hay nó lấy một quan điểm “trung bình” nào đó của toàn bộ? Ngay từ đầu, làm sao có thể định nghĩa một quan điểm “trung bình” về một chủ đề nào đó?
  Đây là một vấn đề thú vị chạm tới cốt lõi LLM là gì, nhưng bài báo này có phạm vi hẹp hơn nhiều nên có lẽ sẽ không đưa ra câu trả lời cho điều đó
Suy luận thì liên quan gì đến hình học? Có phải giống ý tưởng rằng các khái niệm khác nhau có những dạng hình học nội tại không? Đây là một góc nhìn kiểu Plato hoặc duy trí luận về hình học của lý tính à? Khó hiểu phần lớn bài báo
- Bổ sung sau khi đọc thêm một chút bài báo về chuyện hình học xuất hiện từ đâu
  Một trong các tài liệu mà bài báo trích dẫn, bài báo này[1], cho thấy các tầng phi tuyến của mạng nơ-ron sâu hiện đại chia đầu vào thành các vùng và tạo đầu ra bằng cách áp dụng ánh xạ affine[2] theo từng vùng. Nó cũng bàn đến việc điều này liên hệ thế nào với lượng tử hóa vector và phân cụm k-means
  Vì vậy, góc nhìn hình học ở đây không phải là hình học kiểu trung học, mà là các khái niệm trừu tượng hơn như không gian vector[3] hoặc hình học tính toán tổ hợp[4]
  Bài báo được gửi cho thấy việc phân chia như vậy liên hệ trực tiếp với năng lực xấp xỉ của mạng nơ-ron. Tiếp đó, khi năng lực xấp xỉ tăng lên thì câu trả lời cho các bài toán đố bằng lời trong toán học tốt hơn, nên bài báo đề xuất rằng năng lực xấp xỉ có tương quan với khả năng suy luận của LLM
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Mạng nơ-ron hiện đại dùng rất nhiều đại số tuyến tính, đặc biệt là kiến trúc transformer[1] vận hành các LLM hiện đại
  Đại số tuyến tính có liên hệ mật thiết với hình học[2], nên việc có những khía cạnh hình học quy định năng lực và hiệu năng là khá tự nhiên
  Trong bài báo này, cụ thể là họ xem xét chiều nội tại[3] của tầng attention và tìm hiểu nó tương quan thế nào với hiệu năng của LLM
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- Ý tưởng rằng “các khái niệm khác nhau có những dạng hình học nội tại” là đúng. Thực ra cũng có thể xây dựng nền tảng toán học trên khái niệm này, và tạo ra “suy luận” cùng chứng minh theo một nghĩa nào đó
  Hệ kiểu phụ thuộc hoạt động theo cách như vậy. Có thể tìm hiểu HoTT và lý thuyết đồng luân modal. Lean4, Coq và chứng minh định lý cũng hoạt động theo cách này
  Nếu nghĩ đến nền tảng của lambda calculus hoặc đại số Boole, ta xử lý các đối tượng toán học được tổ chức trên các lattice hoặc semilattice là tập có thứ tự bộ phận như một chuỗi các phép biến đổi. Chẳng hạn trong đại số Boole, phép kéo theo cung cấp thứ tự bộ phận
  Sẽ rất thú vị nếu hiểu được liệu mật độ của cơ chế attention có đi theo một tiến trình tương tự hệ kiểu phụ thuộc hay không, và liệu có mối liên hệ giữa các kiểu phụ thuộc tham gia vào chứng minh với không gian tương ứng bên trong LLM, thông qua một phép nới lỏng liên tục giống toán tử lân cận và phép biến đổi từ các khái niệm cấp cao sang token đầu ra hay không
  Ta đã thấy rằng hình học có ý nghĩa trong embedding. Một số khái niệm đơn giản nhất định tương ứng với hướng vector. Sẽ không có gì đáng ngạc nhiên nếu việc suy luận về các khái niệm phụ thuộc tương ứng với một không gian con phức tạp trên đường đi mà LLM đi qua, và khi được huấn luyện đủ, mối liên hệ đó ngày càng tiến gần đến cấu trúc logic của chứng minh tương ứng
- Bài báo này không nói điều đó, nhưng ở đây có thể tạo một benchmark tổng hợp kiểu AlphaGeometry[1]. Tức là để một engine hình học tạo ra 100 triệu bài toán đố bằng lời và bắt LLM giải
  Bài toán hình học dễ tạo và giải một cách cơ học, nhưng LLM transformer thông thường không có lý do gì phải đặc biệt giỏi, và lợi thế là có thể mở rộng quy mô cực lớn. Khác với các benchmark chỉ có 164 bài như HumanEval, nên cũng dễ tránh lời phê bình rằng LLM đã học thuộc đáp án
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Có vẻ đang nói về word embedding. Ở đây, ngữ cảnh được nhúng vào một không gian hình học nhiều chiều, và một số chiều có thể nắm bắt những thứ như một từ “nữ tính” đến mức nào hoặc “gần màu xanh dương” đến mức nào
Tôi thắc mắc vùng ở đây là gì, có phải càng nhiều vùng thì càng tốt không, các vùng được phân biệt thế nào, và liệu một vùng có thể là cùng một khái niệm với nhiều vùng liên quan hay không
- Theo cách tôi hiểu, vùng là các mảnh tạo nên phép phân hoạch của miền đầu vào, tức là các mảnh của không gian vector được hình thành bởi trọng số. Từ mục 3.1 trở đi của bài báo được trích dẫn[1] có nội dung chi tiết hơn
  Luận điểm của bài báo đó là các tầng của mạng nơ-ron sâu nói chung chia miền đầu vào thành nhiều vùng, và mỗi vùng có ánh xạ affine riêng của nó đối với đầu vào
  Với một hàm kích hoạt tùy ý, ta phải tìm cả chính phép phân hoạch lẫn các tham số của ánh xạ affine theo từng vùng. Nhưng bài báo cho thấy vì các hàm kích hoạt phổ biến là lồi trên toàn cục, có thể tận dụng điều đó để phép phân hoạch được quyết định hoàn toàn bởi các tham số ánh xạ affine theo từng vùng
  Vì vậy, đầu ra của tầng đối với một đầu vào x nào đó trở thành “phép biến đổi affine từng phần của x, phụ thuộc vào phân hoạch-vùng”. Các tham số ánh xạ affine thực chất là thứ thay đổi trong quá trình học, và do đó số lượng cũng như hình dạng của các vùng cũng thay đổi trong quá trình học
  Bài báo được gửi cho thấy càng nhiều vùng thì năng lực xấp xỉ của tầng mạng nơ-ron càng lớn. Nghĩ theo nội dung trên thì bản thân điều đó không đáng ngạc nhiên, nhưng nó được dùng như một bước đệm quan trọng
  [1]: https://arxiv.org/abs/1805.06576v2
Cũng như nhiều cuộc tranh luận triết học, việc khẳng định LLM có thể “suy luận” không có nhiều ý nghĩa. Vì “suy luận” không phải là một thuật ngữ được định nghĩa rõ ràng, và không phải ai cũng đồng ý với một định nghĩa duy nhất
Nếu hỏi một nhà khoa học máy tính, một triết gia lục địa và một nhà nhân học “suy luận” là gì, họ sẽ đưa ra những câu trả lời hoàn toàn khác nhau
Nếu hiểu suy luận là suy luận diễn dịch dùng trong toán học và suy luận quy nạp dùng trong khoa học, thì không có bằng chứng nào cho thấy LLM làm những việc đó. Cũng không có lý do để tin rằng chỉ bằng đối sánh mẫu ngôn ngữ là có thể bắt chước mọi thứ ta gọi là tư duy của con người. Để lập luận như vậy, phải định nghĩa “tư duy” theo cách cực kỳ hẹp, và bỏ qua thực tế rằng chúng ta là trí tuệ có thân thể, có thể biết về chính mình theo một cách minh bạch và có lẽ là tiền ngôn ngữ. Chừng nào AI chưa được hiện thân và chưa thể làm điều tương tự, tôi không tin nó sẽ “nghĩ” hay “suy luận” như con người. Vẫn chỉ là một trò đánh lừa thống kê rất xuất sắc
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Có nhiều bằng chứng cho thấy chúng thực hiện quy nạp
- Có thể điều đó đúng, nhưng nếu “đủ tốt” thì tại sao lại quan trọng? Nếu tôi không thể phân biệt được người dùng trên Slack/Teams xử lý ticket đúng hạn và chất lượng mã cũng ổn là LLM hay là tôi, thì tôi không mấy bận tâm liệu thực thể đó có biết về chính mình theo một cách minh bạch và tiền ngôn ngữ hay không
“Chỉ cần thêm nhiều chiều hơn là được thôi, bro!”
Tôi không phải người trong lĩnh vực AI, chỉ thích đứng ngoài quan sát. Sau khi lướt qua bài báo, dưới góc nhìn của người không chuyên tôi tóm tắt như sau; nếu có chỗ sai thì mong được sửa
Các mạng nơ-ron hiện đại, chẳng hạn các lớp perceptron đa tầng[1] dùng trong LLM, về bản chất chia đầu vào thành nhiều vùng. Số vùng mà một lớp MLP đơn lẻ có thể chia phụ thuộc theo cấp số nhân vào số chiều nội tại[2] của đầu vào, và số vùng/phân hoạch dường như làm tăng khả năng xấp xỉ của lớp MLP
Vì vậy, ngay cả khi không tăng số nơ-ron, ta vẫn có thể “chưng cất” đầu vào trên thực tế để tăng mạnh khả năng xấp xỉ của lớp MLP
Trong kiến trúc Transformer, đầu vào của lớp MLP là lớp self-attention[3]. Các tác giả cho thấy mật độ đồ thị của lớp self-attention tương quan mạnh với số chiều nội tại của lớp self-attention. Nói cách khác, lớp self-attention càng dày đặc thì MLP càng có thể làm tốt hơn
Một cách để tăng mật độ của lớp attention là thêm nhiều ngữ cảnh hơn. Có vẻ như nếu gắn bất kỳ token nào làm ngữ cảnh trước câu hỏi để tăng số chiều nội tại của lớp cuối cùng, hiệu năng của LLM sẽ tốt hơn
Họ cũng viết rằng kiến trúc Transformer dễ tích lũy sai số xấp xỉ, và các phân hoạch tinh hơn do lớp MLP nhận đầu vào có số chiều nội tại cao cung cấp có thể giúp ích cho việc này. Tuy nhiên, tác động của điều này tới khả năng khái quát hóa vẫn cần được nghiên cứu thêm
Nếu kết quả vẫn giữ vững, bài báo này có vẻ đem lại insight tốt để tối ưu tốt hơn các mạng nơ-ron tương tự LLM
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Sẽ trực quan hơn nếu hiểu mật độ trong đồ thị attention là số cạnh nối các token. Nói đơn giản hơn, đó là số lần token có kết nối nào đó với token khác chia cho số token
  Vì vậy, các token thực sự liên quan và cung cấp thông tin cho nhau thì tốt, còn các token lạc đề thì không giúp ích
  Cách diễn đạt “nếu gắn bất kỳ token nào làm ngữ cảnh trước câu hỏi thì hiệu năng của LLM sẽ tốt hơn” có vẻ không chính xác. Điều bài báo tìm thấy là nếu gắn bất kỳ loại token nào trước câu hỏi hiện tại thì số chiều nội tại của lớp đầu tiên tăng, nhưng mức tăng này không nhất thiết tương quan với năng lực suy luận của mô hình
  Chỉ khi các token được gắn ở phía trước làm tăng số chiều nội tại của lớp cuối cùng của mô hình thì năng lực suy luận của LLM mới được cải thiện đáng kể
- Số lượng các vùng khác nhau mà ta quan tâm là một tập con của chiều Vapnik–Chervonenkis[a] của dữ liệu, và trong trường hợp cực đoan có thể xem là bằng nhau chăng?
  Trong nguyên văn không có nhắc đến VC dimension
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Suy luận của mô hình ngôn ngữ lớn: góc nhìn hình học

Vì sao nhìn năng lực suy luận qua lăng kính hình học

Phân vùng không gian của MLP và năng lực biểu diễn

Cách chiều nội tại hình thành trong Transformer

Con đường để attention head và độ dài ngữ cảnh làm tăng năng lực biểu diễn

Thí nghiệm với GSM8K-Zero và Llama 3

ID ở tầng cuối khớp với hiệu năng tốt hơn

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News