Kiến thức thủ tục từ tiền huấn luyện dẫn dắt suy luận của LLM

(arxiv.org)

1 điểm bởi GN⁺ 2024-12-03 | 1 bình luận | Chia sẻ qua WhatsApp

Việc đánh giá suy luận của LLM đang bị lung lay vì bão hòa benchmark và nhiễm dữ liệu, và nghiên cứu này truy vết các tài liệu tiền huấn luyện đã ảnh hưởng đến đầu ra thay vì chỉ nhìn vào trọng số mô hình
Nghiên cứu xếp hạng các tài liệu có ảnh hưởng đối với 40 truy vấn sự thật và 40 truy vấn suy luận trên Command R 7B và 35B của Cohere, với 2,5 tỷ token và 5 triệu tài liệu tiền huấn luyện
Các truy vấn sự thật có tài liệu ảnh hưởng khác nhau theo từng câu hỏi, nhưng các truy vấn suy luận trong cùng một bài toán toán học lại cho thấy các mẫu ảnh hưởng tương tự giữa nhiều câu hỏi, gợi ý sự tồn tại của kiến thức thủ tục
Trong truy vấn sự thật, câu trả lời thường được tìm thấy trong top 0,01% tài liệu ảnh hưởng, trong khi ở truy vấn suy luận, đáp án đúng hoặc các bước trung gian nhìn chung không xuất hiện trong các tài liệu ảnh hưởng hàng đầu
Suy luận có vẻ gần với việc tổng hợp quy trình giải có thể khái quát hóa từ các tài liệu chứa thủ tục tương tự, hơn là chỉ truy xuất lại câu trả lời đã từng thấy trước đó

Truy vết tài liệu tiền huấn luyện thay vì chỉ nói về nhiễm benchmark

LLM nhanh chóng cho thấy hiệu năng cao trên nhiều benchmark suy luận, nhưng do nhiễm dữ liệu, rất khó diễn giải trực tiếp điểm số đó như năng lực khái quát hóa
- Trong machine learning thông thường, dữ liệu huấn luyện và dữ liệu kiểm thử được tách riêng để đo khả năng khái quát hóa
- Các mô hình tiên tiến hiện nay dùng dữ liệu ở quy mô hàng nghìn tỷ token, nên gần như không thể tránh khả năng benchmark bị trộn vào dữ liệu tiền huấn luyện
- Ngay cả dữ liệu benchmark đã được diễn đạt lại cũng có thể ảnh hưởng đến hiệu năng mà vẫn né được phát hiện dựa trên N-gram
Câu hỏi cốt lõi là LLM học suy luận từ dữ liệu tiền huấn luyện như thế nào
- Liệu nó có tìm lại rồi tái tổ hợp các đáp án hay dấu vết suy luận đã từng thấy
- Hay nó học thủ tục từ nhiều tài liệu có liên quan ở mức trừu tượng hơn đến câu hỏi rồi khái quát hóa
Phân tích không trực tiếp diễn giải trọng số bên trong mô hình, mà lần ngược về các tài liệu tiền huấn luyện đã ảnh hưởng đến một đầu ra cụ thể
- Nghiên cứu sử dụng phương pháp hàm ảnh hưởng áp dụng kỹ thuật thống kê vững cho Transformer quy mô lớn
- Với mỗi tài liệu tiền huấn luyện, họ tính mức độ tài liệu đó ảnh hưởng đến khả năng xảy ra của một cặp prompt-hoàn thành cụ thể

Thiết lập thí nghiệm

Hai mô hình được thử nghiệm là Command R 7B và 35B của Cohere
Tập dữ liệu tiền huấn luyện được phân tích gồm 2,5 tỷ token, được xử lý thành 5 triệu tài liệu
Tổng cộng có 80 truy vấn
- 40 truy vấn sự thật: các câu hỏi cần truy xuất đáp án từ tri thức tham số
- 40 truy vấn suy luận: các câu hỏi suy luận toán học đơn giản
Các truy vấn suy luận gồm ba bài toán toán học
- Số học 2 bước
- Tính độ dốc
- Giải phương trình tuyến tính
Với mỗi truy vấn, 5 triệu tài liệu tiền huấn luyện được xếp hạng theo mức độ ảnh hưởng đến xác suất đầu ra của mô hình

Trong suy luận, các tài liệu chứa cùng thủ tục lặp đi lặp lại có ảnh hưởng

Những truy vấn suy luận khác nhau nhưng thuộc cùng một bài toán toán học cho thấy mẫu ảnh hưởng tài liệu tương tự nhau
- Mức ảnh hưởng của một tài liệu lên dấu vết suy luận của một truy vấn suy luận dự đoán mạnh mức ảnh hưởng của nó lên các truy vấn khác trong cùng bài toán
- Mẫu này được xác nhận trong 3 trên 4 trường hợp
Các tài liệu không chỉ tương ứng với một con số hay một đáp án cụ thể, mà đóng góp tương tự cho nhiều câu hỏi áp dụng cùng một thủ tục lên các con số khác nhau
Ngược lại, truy vấn sự thật chủ yếu dựa vào các tập dữ liệu khác nhau cho từng câu hỏi, và không xuất hiện mẫu ảnh hưởng chung như ở truy vấn suy luận
Ở bài toán tính độ dốc, tương quan này đặc biệt mạnh
- Trong nhiều truy vấn của bài toán này, các quy trình giải dưới dạng code hoặc biểu thức toán học được tìm thấy lặp lại trong top 0,002% dữ liệu tiền huấn luyện

Truy xuất sự thật và suy luận có bản chất tài liệu ảnh hưởng khác nhau

Trong truy vấn sự thật, bản thân đáp án thường xuất hiện trong các tài liệu có ảnh hưởng cao
- Trong top 500 tài liệu, tức top 0,01% tài liệu ảnh hưởng, 55% truy vấn của mô hình 7B và 30% truy vấn của mô hình 35B chứa đáp án
Trong truy vấn suy luận, đáp án đúng hầu như không xuất hiện trong các tài liệu có ảnh hưởng cao
- Ngay cả khi có thể tìm thấy đáp án đúng trong toàn bộ 2,5 tỷ token, nó thường không xuất hiện trong các tài liệu ảnh hưởng hàng đầu
- Đáp án của các bước suy luận trung gian cũng nhìn chung không nằm trong các tài liệu ảnh hưởng cao
Ở truy vấn suy luận, mức ảnh hưởng của từng tài liệu riêng lẻ trên mỗi đơn vị thông tin truy vấn do mô hình tạo ra nhìn chung thấp hơn so với truy vấn sự thật
- Khi tạo ra dấu vết suy luận, mô hình ít phụ thuộc hơn vào từng tài liệu riêng lẻ
Tổng mức ảnh hưởng của cả tập tài liệu ảnh hưởng cũng dao động ít hơn trong truy vấn suy luận
- Việc một tập con ngẫu nhiên của 2,5 tỷ token tiền huấn luyện có chứa tài liệu cực kỳ ảnh hưởng hay không phụ thuộc vào may rủi nhiều hơn ở truy vấn sự thật
Khi đặt hai mẫu này cạnh nhau, có thể thấy suy luận gần với việc ít phụ thuộc vào tài liệu đơn lẻ và khái quát hóa từ một tập tài liệu mang tính tổng quát hơn

Vai trò của code và dữ liệu thủ tục chất lượng cao

Trong phần đầu bảng xếp hạng ảnh hưởng tích cực và tiêu cực của các truy vấn suy luận toán học, dữ liệu code được lấy mẫu vượt trội mạnh so với phân phối huấn luyện
Có bằng chứng cho thấy code đóng vai trò quan trọng trong mọi bài toán toán học được phân tích
Suy luận của mô hình khác với cách truy xuất đáp án từ tri thức tham số hình thành trong tiền huấn luyện
- Các mô tả thủ tục tổng quát
- Các ví dụ áp dụng thủ tục tương tự
- Các tài liệu cho thấy quy trình giải bằng code hoặc công thức
Thay vì đưa mọi trường hợp có thể có vào dữ liệu tiền huấn luyện, việc tập trung vào dữ liệu chất lượng cao thể hiện thủ tục qua nhiều bài toán suy luận có thể hiệu quả hơn
Phạm vi nghiên cứu chỉ giới hạn ở trường hợp học thủ tục trong cùng một bài toán toán học
- Liệu có những kiểu dữ liệu tiền huấn luyện như code có thể hỗ trợ học thủ tục xuyên nhiều bài toán khác nhau hay không vẫn là một câu hỏi mở tiếp theo

1 bình luận

GN⁺ 2024-12-03

Ý kiến trên Hacker News

Có vẻ hiển nhiên là LLM không thể tìm được ví dụ cho mọi bài toán trong dữ liệu huấn luyện. Vì chắc chắn không thể có đủ ví dụ đến mức cần thiết cho kiểu tra cứu sự kiện như truy xuất thông tin, nên có thể xem là với một bài toán cho trước, nó tạo ra lời giải mới bằng một dạng ngoại suy nào đó
Điều thú vị là bài báo này cũng không mâu thuẫn với kết luận của bài báo về Apple LLM[0]. Bài báo đó biến đổi prompt để khiến LLM mắc lỗi, và có thể tin rằng ngay cả khi LLM tạo lời giải mới, nó cũng chỉ tạo được độ lệch nhỏ so với các lời giải ví dụ đã có
Tôi không thích gọi quá trình tạo lời giải này là “suy luận”. Tôi cho rằng đó gần như là một thuật ngữ do các công ty LLM tạo ra để khơi gợi phản ứng cảm xúc khi nói về công nghệ. Dù vậy, việc giờ đây có thể khiến máy làm theo một chuỗi bước chỉ bằng ngôn ngữ tự nhiên và một mức độ mơ hồ nhất định là một tiến bộ lớn
[0] https://machinelearning.apple.com/research/gsm-symbolic
- Tôi rất đồng ý với quan điểm rằng LLM không thật sự phù hợp với suy luận theo nghĩa giải quyết vấn đề sáng tạo hay áp dụng logic. Tôi nghĩ tiềm năng thật sự trong lĩnh vực này nằm ở việc dùng nó như một loại lớp biên dịch nối giữa ngôn ngữ tự nhiên thiếu chính xác và các ngôn ngữ hình thức như SQL, Prolog, Python, Lean
  Sau đó có thể tổng hợp kết quả hoặc đầu ra của lớp ngôn ngữ hình thức, về cơ bản trở thành một “agent”. Tuy nhiên, tôi nghĩ LLM có thể làm các tác vụ “suy luận ngôn ngữ”. Tôi không rõ ranh giới giữa suy luận ngôn ngữ, định tính và định lượng nằm ở đâu, và tôi nghĩ đến phần ngôn ngữ trong các kỳ thi chuẩn hóa
- Có thể tin rằng nó “tạo ra lời giải mới bằng một dạng ngoại suy nào đó”, nhưng tôi tò mò niềm tin đó đang dựa trên bằng chứng nào
  Và phần tóm tắt của bài báo Apple nói rằng họ đã thay đổi các giá trị số ban đầu, thay vì dùng một cách diễn đạt khéo léo nào đó như “làm hỏng”
- Việc nhân cách hóa máy tính đã có từ rất lâu trước ChatGPT. Khi máy tính chết khiến tài liệu không được lưu, nói “máy tính ăn mất bài tập của tôi” không có nghĩa là có ai nghĩ nó thật sự ăn, đó chỉ là cách diễn đạt dễ hiểu để chỉ chuyện vừa xảy ra
  Trước LLM, người ta cũng có thể nói “máy tính đang nghĩ”. Không phải ai cũng biết thuật ngữ toán học, nên nếu nói “Claude đã lấy tích vô hướng bài luận của tôi” hay “tôi bảo ChatGPT lấy tích vô hướng lá thư gửi sếp”, nhiều người sẽ không biết tích vô hướng là gì. Dù có một động từ chính xác hơn về mặt kỹ thuật thì ai sẽ dùng chứ
  Không phải các công ty AI không thúc đẩy những cách nói như “nghĩ” hay “suy luận”, nhưng đó cũng là những từ dễ dùng nhất. Người ta nói mô hình “nghĩ” rằng strawberry có hai chữ R, chứ không nói nó “lấy tích vô hướng”. Nó cũng nhân ma trận, thỉnh thoảng làm softmax và cả tích chập, nhưng đa số chúng ta không phải Terence Tao nên không có cảm giác rằng thứ gì đó đang softmax
- Những công ty này đang quảng bá mô hình AI của họ như thể đó là AI tự suy nghĩ và suy luận, nhưng thực tế tôi cho rằng nó gần với việc được huấn luyện trên một tập dữ liệu khổng lồ rồi ngoại suy từ đó để tìm câu trả lời đúng
  Nó vẫn không thể nghĩ bên ngoài chiếc hộp của tập dữ liệu của chính mình
Có phải ý là con người phải giải bài toán từng bước thì mạng nơ-ron mới có thể bắt chước điều đó không? Viết ra như vậy nghe cũng khá hiển nhiên
- Tôi nghĩ là không. Nếu tôi hiểu đúng, ý là sau khi hấp thụ các ví dụ giải quyết vấn đề theo quy trình, phần mềm học được phương pháp chung để giải bài toán
Điều này có thể giải thích lợi ích ngoài dự đoán khi huấn luyện bằng code
- Nghe thú vị, nhưng tôi là người ngoài ngành nên không rõ lắm. Không biết có thể cho liên kết liên quan không
  Tôi tìm thấy https://arxiv.org/abs/2408.10914, nhưng không có đủ nền tảng để đánh giá liệu đây có phải bài báo được nhắc tới không
Tôi thấy bất ngờ khi câu “LLM thể hiện năng lực chung trong giải bài toán, nhưng so với con người cũng bộc lộ những khoảng trống suy luận đáng kinh ngạc, đặt ra nghi vấn về độ vững chắc của chiến lược khái quát hóa” lại được ủng hộ
Vì trên HN có nhiều người đến mức đáng ngạc nhiên cho rằng LLM hoàn toàn không suy luận, và phải giải thích LLM chỉ qua lăng kính bộ dự đoán token tiếp theo. Lần trước khi tôi nói về trí thông minh của LLM, có người còn bất lịch sự bảo tôi đi học cách LLM hoạt động, rằng chúng ta đã biết chính xác nó vận hành thế nào rồi và nó chỉ là bộ dự đoán token mà thôi
- Tôi nghĩ chính những “khoảng trống đáng kinh ngạc” đó xuất hiện vì LLM không suy luận. Ít nhất thì nó không suy luận về đối tượng mà con người nghĩ tới khi giải bài toán, mà gần hơn với việc xử lý một tập hợp sự thật khác thường xuyên tương quan về quan hệ token trong văn bản
  Các kiểu thất bại cho thấy sự khác biệt đó rõ nhất. Đầu ra của LLM chỉ có nghĩa theo nghĩa chúng ta thường nói sau khi con người gán ý nghĩa bên ngoài cho nó. LLM không ngừng hoạt động hay “bối rối” khi bạn đưa vào những lời vô nghĩa. Đó là vì ý nghĩa mà nó trích xuất không phụ thuộc vào ý nghĩa do con người gán, và chúng ta chỉ tình cờ khiến hai thứ đó khớp nhau bằng cách cho nó ăn những thứ mà chúng ta xem là không vô nghĩa. Xét về “thực tế nó hoạt động như thế nào”, đó là vấn đề riêng
- Những người to tiếng nhất thường có vẻ ở các lập trường cực đoan, và các câu hỏi kiểu “AI cụ thể nào đó vô dụng/siêu phàm trong một lĩnh vực cụ thể hay không” cũng vậy. Có thể chỉ là cảm nhận đơn giản, nhưng như CGP Grey từng nói, chính tranh luận có thể là thứ giúp họ tồn tại lâu hơn: https://www.youtube.com/watch?v=rE3j_RHkqJc
  Nếu ở lập trường trung dung, bạn sẽ bị cả hai cực tấn công. “Đây là công cụ hữu ích nhưng cũng thấy nhiều cách nó có thể hỏng” — một suy nghĩ ở mức đó lại có cảm giác như nằm ngoài cửa sổ Overton trong chủ đề này, thật là một vị trí kỳ lạ. Tôi tò mò không biết diễn ngôn thường ngày thực tế về máy dệt thời Cách mạng Công nghiệp ra sao, không phải các bản tóm tắt hiện đại mà là bầu không khí thật sự khi đó
- Cả hai có thể cùng đúng. Đúng, LLM là bộ dự đoán token tiếp theo, nhưng đôi khi để làm đúng việc đó, nó phải thật sự hiểu toàn bộ nội dung phía trước và suy luận logic
  Như câu được cho là của Sutskever: nếu đầu vào của mô hình là phần lớn một tiểu thuyết trinh thám và token tiếp theo là tên hung thủ, thì mô hình đó đã hiểu cuốn tiểu thuyết. Transformer là bộ xấp xỉ hàm tùy ý, nên không có giới hạn cứng chắc về việc nó có thể hay không thể làm gì
- Tôi nghĩ “bộ dự đoán token tiếp theo” và có trí thông minh thực ra không loại trừ lẫn nhau
Rất liên quan đến thảo luận gần đây https://news.ycombinator.com/item?id=42285128
Google lập luận rằng việc sử dụng tiền huấn luyện là yêu cầu then chốt nếu muốn đưa ra dù chỉ một chút cải thiện trong thiết kế chip. Và họ cho rằng bài phản biện không thử tiền huấn luyện lẽ ra phải được dự đoán là sẽ thấp hơn rất nhiều so với trình độ tiên tiến nhất hiện nay trong thiết kế chip
Nếu suy luận là quan trọng trong thiết kế chip, và tiền huấn luyện là quan trọng để khơi gợi suy luận ở các mô hình ngôn ngữ lớn, thì lập luận của Google khá hợp lý. Nếu Google dùng tiền huấn luyện mà cũng chỉ vừa vượt qua mức tiên tiến nhất, thì đúng là nên kỳ vọng một thử nghiệm không tiền huấn luyện sẽ thấp hơn rất nhiều so với mức tiên tiến hiện tại. Vì vậy, hiệu năng thấp của thử nghiệm thứ hai đó không nói lên được liệu kết quả của Google có hợp lý hay không
- Tôi không phải chuyên gia về lĩnh vực ứng dụng cụ thể trong bài đó, nhưng có thể hiểu vì sao lập luận về tiền huấn luyện có thể có lý. Nói rằng tiền huấn luyện mạng nơ-ron cải thiện hiệu năng học từ ít ví dụ thì không có gì quá gây tranh cãi
  Với mọi bài toán, có vẻ sẽ có một điểm uốn nơi mạng nơ-ron đã được tiền huấn luyện cho hiệu năng học từ ít ví dụ tốt hơn các cách tiếp cận cần ít dữ liệu hơn như đặc trưng thủ công hay các giả định tiên nghiệm mạnh. Chỉ là câu hỏi ở đây dường như là liệu trường hợp này đã đạt tới điểm uốn đó hay chưa
“Ở trường hợp cực đoan, một mô hình ngôn ngữ trả lời câu hỏi suy luận có thể phụ thuộc nhiều vào việc truy xuất từ tri thức trong tham số chịu ảnh hưởng bởi một tập tài liệu giới hạn trong dữ liệu tiền huấn luyện. Khi đó, thông tin được truy xuất, tức các tài liệu cụ thể chứa dấu vết suy luận, đóng góp lớn vào đầu ra của mô hình, còn nhiều tài liệu khác chỉ đóng vai trò rất nhỏ”
“Ngược lại, ở đầu kia của phổ, mô hình lấy thông tin từ một phạm vi rộng các tài liệu liên quan đến câu hỏi theo cách trừu tượng hơn; mỗi tài liệu có thể ảnh hưởng tương tự đến nhiều câu hỏi nhưng chỉ đóng góp một lượng tương đối nhỏ vào đầu ra cuối cùng. Chúng tôi đề xuất rằng suy luận có khả năng khái quát hóa nên trông giống chiến lược sau”
Nhưng nếu mô hình có thể khái quát hóa từ chỉ một ví dụ duy nhất, chẳng phải điều đó còn ấn tượng hơn nhiều sao?
Đồng cảm. Ý là dữ liệu huấn luyện suy luận quan trọng hơn sự kiện. Trong số dữ liệu không tổng hợp, thứ dễ kiếm nhất có lẽ là các chứng minh toán học
Nếu dùng thứ như Prolog, có thể tạo ra nhiều đường suy luận thay thế. Liệu các đường đi đa dạng như vậy có giúp ích cho huấn luyện LLM hay không thì khó nói nếu không trực tiếp thử nghiệm trên một cỗ máy khổng lồ. Điều đó quá bất công
Kết luận này có giống AlphaGo so với AlphaZero theo cách hiểu của một người ngoài ngành không? Kiểu như tri thức thủ tục của con người giúp ích cho huấn luyện học máy đến một mức nào đó, nhưng sau đó lại trở thành giới hạn?
- Không. Ý là mô hình được phân tích chủ yếu dùng thông tin về cách giải bài toán, hơn là các tài liệu chứa đáp án của cùng bài toán trong dữ liệu huấn luyện
  “Chúng tôi khảo sát dữ liệu nào ảnh hưởng đến dấu vết suy luận do mô hình tạo ra, và dữ liệu đó liên quan thế nào đến bài toán cụ thể được xử lý. Liệu mô hình có đơn giản ‘truy xuất’ rồi tái tổ hợp đáp án từ dữ liệu tiền huấn luyện nó từng thấy, hay dùng một chiến lược khái quát hóa vững chắc hơn?”
  “Khi mô tả định tính các tài liệu hàng đầu đối với câu hỏi suy luận, chúng tôi thấy các tài liệu có ảnh hưởng thường chứa tri thức thủ tục, chẳng hạn như chỉ ra cách dùng công thức hoặc mã để đi đến lời giải. Kết quả của chúng tôi cho thấy kiểu suy luận mà mô hình sử dụng khác với truy xuất, và gần với một chiến lược có thể khái quát hóa hơn: tổng hợp tri thức thủ tục từ các tài liệu thực hiện những dạng suy luận tương tự”
  Ví dụ câu hỏi suy luận: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
Điều này có nghĩa là LLM có thể làm tốt hơn nếu được huấn luyện trên lượng lớn tài liệu như ghi chép của học sinh, bài kiểm tra, bài điểm sách không? Nếu vậy thì thật sự thú vị
- Thỉnh thoảng tôi tự hỏi tại sao người ta không huấn luyện hệ thống AI bằng cách thêm trò chơi và hoạt động vui chơi vào chương trình giáo dục
  Dùng nhiều hệ thống giáo dục khác nhau trên khắp thế giới rồi xem điều gì xuất hiện cũng có thể rất hấp dẫn
Có thể đây là câu hỏi ngớ ngẩn, nhưng nếu vậy thì tại sao ảnh được tạo ra lại thành những thứ nhảm nhí như ác mộng? Tại sao nó không thể cấu thành sơ đồ theo thủ tục?

Kiến thức thủ tục từ tiền huấn luyện dẫn dắt suy luận của LLM

Truy vết tài liệu tiền huấn luyện thay vì chỉ nói về nhiễm benchmark

Thiết lập thí nghiệm

Trong suy luận, các tài liệu chứa cùng thủ tục lặp đi lặp lại có ảnh hưởng

Truy xuất sự thật và suy luận có bản chất tài liệu ảnh hưởng khác nhau

Vai trò của code và dữ liệu thủ tục chất lượng cao

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News