Khả năng ‘tăng tốc đột ngột’ của LLM có thể mang tính dần dần và có thể dự đoán

(quantamagazine.org)

1 điểm bởi GN⁺ 2024-03-26 | 1 bình luận | Chia sẻ qua WhatsApp

Các nhà nghiên cứu Stanford cho rằng một số năng lực trỗi dậy của LLM có thể không xuất hiện đột ngột, mà trông như một cú nhảy vọt do cách đo lường hiệu năng
BIG-bench đánh giá LLM bằng 204 tác vụ, và ở một số tác vụ đã quan sát thấy mức cải thiện gián đoạn: hiệu năng gần bằng 0 rồi tăng vọt sau khi vượt qua một quy mô nhất định
Với các bài như cộng ba chữ số, chỉ số độ chính xác chỉ xét đúng/sai có thể tính cả những câu trả lời đúng một phần là thất bại, từ đó che khuất quá trình cải thiện thực sự
Khi dùng điểm phần theo từng chữ số, có thể thấy sự cải thiện dần dần: số lượng chữ số đúng tăng theo số tham số, làm suy yếu cách diễn giải rằng khả năng cộng là một năng lực trỗi dậy
Vẫn còn các câu hỏi về cách dự đoán chỉ số nào sẽ cho thấy mức tăng đột ngột và về việc đánh giá những tác vụ mà đáp án chính xác là quan trọng, nên cần một khoa học dự đoán cho thế hệ mô hình tiếp theo

Bước nhảy hiệu năng đột ngột qua góc nhìn của BIG-bench

Beyond the Imitation Game benchmark, tức BIG-bench, đánh giá năng lực của các mô hình ngôn ngữ lớn bằng 204 tác vụ do 450 nhà nghiên cứu xây dựng
Ở nhiều tác vụ, hiệu năng cải thiện một cách có thể dự đoán và mượt mà khi mô hình lớn lên, nhưng ở một số tác vụ, hiệu năng gần như giữ ở mức 0 trong một thời gian rồi bất ngờ tăng mạnh
Bài báo tháng 8/2022 cho rằng hành vi này gây ngạc nhiên, khó dự đoán và cần được phản ánh trong các thảo luận về an toàn AI, tiềm năng và rủi ro
Năng lực này được gọi là trỗi dậy (emergence), chỉ hành vi tập thể chỉ xuất hiện khi hệ thống đạt đến mức độ phức tạp cao

Phản biện từ Stanford: có thể là ảo giác do chỉ số chứ không phải do mô hình

Sanmi Koyejo, Rylan Schaeffer và Brando Miranda của Stanford University phản biện trong một bài báo mới rằng sự xuất hiện đột ngột của năng lực có thể bắt nguồn từ cách đo hiệu năng của LLM
Điểm cốt lõi là năng lực không nhất thiết xuất hiện theo cách không thể dự đoán; thay vào đó, một quá trình cải thiện mượt mà và có thể dự đoán có thể trông như cú nhảy đột ngột tùy theo chỉ số đo lường
Nhóm nghiên cứu thừa nhận chính việc LLM trở nên hiệu quả hơn khi quy mô tăng là điều có thật
Tuy vậy, đường cong cải thiện trông mượt mà hay gồ ghề, sắc nhọn có thể bị ảnh hưởng không chỉ bởi cơ chế bên trong mô hình mà còn bởi lựa chọn chỉ số hoặc số lượng ví dụ kiểm thử quá ít

Quy mô mô hình và đối tượng đánh giá

LLM được huấn luyện bằng cách phân tích các bộ dữ liệu văn bản khổng lồ từ sách, tìm kiếm web, Wikipedia và các nguồn trực tuyến khác để tìm ra mối liên hệ giữa những từ thường xuất hiện cùng nhau
Kích thước mô hình được đo bằng số lượng tham số, và các tham số gần tương ứng với những cách mà các từ có thể liên kết với nhau
Các quy mô mô hình chính gồm:
- GPT-2: 1,5 tỷ tham số
- GPT-3.5: 350 tỷ tham số
- GPT-4: được công bố vào tháng 3/2023, là nền tảng của Microsoft Copilot, được cho là dùng 1,75 nghìn tỷ tham số
Trọng tâm tranh luận không nằm ở việc LLM lớn có thể làm được những tác vụ mà mô hình nhỏ không làm được
Nhóm Stanford cũng thừa nhận độ phức tạp bổ sung của mô hình lớn hơn có thể nâng hiệu năng trên những bài toán khó hơn và đa dạng hơn

Giới hạn của chỉ số độ chính xác thể hiện qua phép cộng ba chữ số

Trong nghiên cứu BIG-bench năm 2022, GPT-3 và LAMDA bị đánh giá là không giải đúng các bài toán cộng khi số tham số còn ít
GPT-3 dường như đột nhiên biết cộng khi được huấn luyện với 13 tỷ tham số, còn LAMDA cũng cho thấy thay đổi tương tự ở 68 tỷ tham số
Kết quả này dẫn tới cách diễn giải rằng năng lực cộng trỗi dậy ở một ngưỡng nhất định
Nhóm Stanford chỉ ra rằng vì cách đánh giá này chỉ nhìn vào độ chính xác, mọi đáp án không hoàn toàn đúng đều bị tính là thất bại
- Ví dụ, nếu trả lời 376 cho phép tính 100+278 thì đáp án đó vẫn gần đúng thực tế hơn nhiều so với −9.34, nhưng theo chỉ số đúng/sai thì cả hai đều là thất bại
Nhóm nghiên cứu dùng chỉ số điểm phần để xem mô hình dự đoán tốt đến mức nào ở chữ số thứ nhất, thứ hai và thứ ba
Với chỉ số này, khi số tham số tăng lên, có thể thấy LLM dần dự đoán chính xác hơn chuỗi chữ số của kết quả phép cộng
Vì vậy, năng lực cộng có thể được diễn giải là sự cải thiện dần dần và có thể dự đoán, chứ không phải một cú nhảy đột ngột và không thể dự đoán

Những tranh luận vẫn còn lại

Tianshi Li của Northeastern University cho rằng bài báo của Stanford chưa giải thích được cách dự đoán chỉ số nào sẽ cho thấy mức cải thiện đột ngột của LLM và vào thời điểm nào
Ở khía cạnh này, vẫn còn chỗ để xem một số năng lực là khó dự đoán
Jason Wei của OpenAI lập luận rằng với những năng lực như số học, nơi đáp án đúng là điều quan trọng, thì bản thân câu trả lời chính xác vẫn rất quan trọng, nên các báo cáo trước đây về tính trỗi dậy vẫn có giá trị
Alex Tamkin của Anthropic đánh giá bài báo mới đã giúp chia nhỏ các tác vụ nhiều bước để nhận diện đóng góp của từng thành phần
Đồng thời, Tamkin cho rằng không thể nói mọi cú nhảy đều là ảo giác, vì trong tài liệu hiện có vẫn có các trường hợp cho thấy tính gián đoạn ngay cả khi dùng dự đoán một bước hoặc chỉ số liên tục

Bài toán dự đoán các mô hình lớn hơn

Xia “Ben” Hu của Rice University cho rằng ngay cả khi hiện tượng trỗi dậy ở LLM hiện nay có thể được giải thích bằng các công cụ đo khác, chưa chắc cùng cách giải thích đó sẽ áp dụng được cho các LLM lớn hơn và phức tạp hơn trong tương lai
Hu nói rằng khi LLM mở rộng lên cấp độ tiếp theo, chúng sẽ vay mượn tri thức từ các tác vụ khác và các mô hình khác
Với Tamkin, tranh luận về tính trỗi dậy gắn trực tiếp với nỗ lực dự đoán cách LLM sẽ hành xử
Vì công nghệ LLM có phạm vi ứng dụng rất rộng, việc xây dựng một khoa học dự đoán để không bị bất ngờ trước thế hệ mô hình tiếp theo trở nên quan trọng

1 bình luận

GN⁺ 2024-03-26

Ý kiến trên Hacker News

Nghiên cứu này có vài vấn đề: 1) Việc thay độ chính xác kiểu đạt/không đạt bằng một chỉ số mềm hơn như khoảng cách chỉnh sửa token có thể là thước đo đại diện rất tệ cho năng lực, tùy theo bài toán
2) Ngay cả theo chỉ số của các tác giả, vẫn phát hiện một vài năng lực có khả năng nổi lên
3) Sau khi mọi chuyện đã xảy ra thì cái gì cũng trông dễ. Có thể nhìn lại dữ liệu và chỉnh cho đến khi tìm được một phép biến đổi làm hiện tượng nổi lên biến mất, nhưng điểm thực sự đáng chú ý là vào thời điểm đó người ta dùng chỉ số độ chính xác kiểm thử phổ biến, và kết quả là không thể dự đoán, gây bất ngờ
Bài báo có giá trị, nhưng không nên đẩy kết luận đi quá xa
- Như phần sau của bài cũng nói, với phép cộng thì “gần đúng” hầu như chẳng có ý nghĩa gì. Hoặc đúng, hoặc sai
  Dù vậy, sau khi đổi cách chấm điểm vẫn còn lại một phần năng lực nổi lên, nên nỗ lực đó là đáng ghi nhận
Tôi nghĩ câu “nếu dùng thước đo khác thì hiện tượng nổi lên biến mất” cũng đúng với phần lớn hành vi nổi lên thì phải
Nếu đổi thang đo và nhìn từng phân tử nước một, ta sẽ không thấy một khối băng đột ngột xuất hiện, mà sẽ thấy các phân tử lần lượt gắn vào cấu trúc tinh thể
- Không hẳn vậy. Vấn đề là định nghĩa trong học máy đặc biệt lỏng lẻo
  Tôi đã viết chi tiết hơn ở đây[0]. Điều bạn vừa nói là cách giải thích hiện tượng nổi lên, nhưng khác với điều được tuyên bố khi nói LLM có năng lực nổi lên. Sự phân biệt đó cũng được giải thích trong bài
  [0] https://news.ycombinator.com/item?id=39812315
- Nhưng dù biết cấu trúc phân tử ở 50°C và 75°C, ta vẫn gần như không biết gì về điểm đóng băng
  Một ví dụ khác: nếu đo số ca nhiễm của một virus nào đó, nó có thể lan ra toàn thế giới (R0 > 1, ví dụ COVID-19) hoặc không lan rộng được (R0 < 1, ví dụ Ebola). Dù không hoàn toàn nhị phân, bề ngoài nó trông như nhị phân nên là hành vi nổi lên
  Ngược lại, nếu đo trực tiếp R0 thì sẽ thấy mức tăng dần dần, và có thể dự đoán biến thể tương lai, hiệu quả vaccine, v.v. dễ hơn nhiều
  Tôi xem “nổi lên” là chỉ, chẳng hạn, một hàm sigmoid, còn “dần dần” là chỉ hàm tuyến tính hoặc log
- Không ai nhầm băng là một hiện tượng nổi lên đột ngột cả. Nhìn bằng mắt thường cũng thấy rõ nó hình thành dần dần
Bài báo: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Tương lai sau khi đã đến thì lúc nào cũng dễ dự đoán hơn
Thực tế có thể có những đặc tính nổi lên như chuyển pha mà ngay cả khi nhìn lại vẫn khó dự đoán, nhưng tôi nghĩ chúng không phổ biến. Tôi cũng nghi ngờ liệu có một trường hợp LLM nào thật sự thuyết phục không
Trường hợp phổ biến hơn, theo tôi, là năng lực cấp cao phụ thuộc vào nhiều năng lực cấp thấp, và mối quan hệ đó khó dự đoán. Có thể các thành phần đã được cải thiện trơn tru, nhưng phải biết cần nhìn vào đâu, tức các thành phần cốt lõi là gì
Để dự đoán một năng lực nổi lên, cần xác định trước các thành phần cần thiết, và cũng phải mô phỏng phần nào xem mỗi thành phần cần đạt mức nào để hỗ trợ hành vi kỳ vọng
Tất nhiên không chỉ là chuyện kích thước mô hình hay quy mô dữ liệu; loại và chất lượng dữ liệu cũng quan trọng, và có thể có những thay đổi đột ngột giữa các phiên bản mô hình. Rất khó phân tích trước xem từ tập huấn luyện được cập nhật, mô hình sẽ học được mẫu hình hay thao tác mới nào, tức năng lực thành phần nào
Tôi cũng tò mò chiều ngược lại xảy ra thường xuyên đến đâu. Ý tôi là trường hợp nhà thiết kế mô hình xác định thành công rằng “để làm X cần năng lực A, B, C; để có A, B, C cần các tập dữ liệu mới P và Q”. Trong kịch bản giả định đó, lẽ ra họ có thể đo tiến độ hướng tới năng lực X
- Theo tôi biết, trước Transformer thì chuyện như vậy hoàn toàn không xảy ra. Vì mô hình khi đó không thể chứa nhiều kỹ năng riêng lẻ đến vậy mà không gây nhiễu lẫn nhau
  Bản thân việc có một mô hình sở hữu nhiều năng lực chất lượng cao vẫn còn là hiện tượng khá mới
  Dù vậy, tôi cho rằng cần có cách tiếp cận như thế, và rất có thể các LLM tốt nhất hiện nay đã làm điều tương tự. Chỉ là không nơi nào công khai họ đang làm gì, nên đây chỉ là phỏng đoán
“Nhưng ở các bài toán khác, năng lực không cải thiện một cách trơn tru. Hiệu năng gần như ở mức 0 trong một thời gian rồi đột ngột nhảy vọt. Các nghiên cứu khác cũng phát hiện những bước nhảy năng lực tương tự.”
Chà, tiêu đề bài đăng có vẻ khá thiếu chính xác nhỉ
- Đoạn đó là phần tóm tắt kết quả nghiên cứu trước đây, còn bài báo này là để thách thức chính những kết quả đó
- Trong ngữ cảnh này, có vẻ ý là những năng lực đó đã được chủ đích nghiên cứu và tạo ra, chứ không phải đột nhiên bật ra từ hư không
  Phần lớn thế giới đã bị sự xuất hiện đột ngột của “AI” làm cho bất ngờ, nhưng cũng có những người biết rằng các thứ như vậy sẽ đến
Cách tiếp cận cho điểm một phần là ổn, nhưng nếu cố huấn luyện mô hình đưa ra đáp án đúng thì việc đúng hay sai vẫn quan trọng
Khi huấn luyện số học bằng các mô hình nhỏ, dù đường cong loss đã đạt trạng thái ổn định, tôi thấy có những chữ số đúng nhưng đáp án vẫn sai. Có thể huấn luyện thêm, nhưng số epoch huấn luyện cần thiết dường như tỉ lệ nghịch theo hàm mũ với kích thước mô hình
Vì vậy, một mô hình có x tham số sẽ mất lâu hơn n² lần so với mô hình có 2x tham số, đại loại như vậy
Ở một số lượng tham số nhất định, việc đạt được đáp án đúng bằng huấn luyện gradient descent trên thực tế gần như trở nên bất khả thi
Càng nhiều tham số thì càng dễ đẩy đến hội tụ, và đây thực sự là một chỉ số quan trọng
Từ một thời điểm nào đó, thời gian kỳ vọng để năng lực đó tự xuất hiện sẽ dài hơn tuổi thọ con người, thậm chí dài hơn tuổi thọ của toàn nhân loại. Theo nghĩa việc tăng kích thước mô hình khiến điều đó trở nên khả thi, tôi nghĩ có thể nói năng lực đó xuất hiện theo kiểu emergent đủ đột ngột
- Điểm cốt lõi là ngay cả khi muốn một mô hình đưa ra đáp án đúng, để xem còn cách mục tiêu bao xa thì nên dùng điểm số một phần thay vì độ chính xác nhị phân
  Nếu dùng một chỉ số mà cải thiện xuất hiện đột ngột và khó dự đoán, năng lực có thể tự xuất hiện, nên thậm chí không thể ước tính còn phải huấn luyện thêm bao lâu
  Ngược lại, nếu chỉ số điểm số một phần cải thiện trơn tru và có thể dự đoán, ta có khả năng ngoại suy tiến trình huấn luyện để ước lượng khi nào sẽ đạt độ chính xác mục tiêu, thay vì ngoại suy trực tiếp chính độ chính xác
  Nếu thời gian dự kiến quá dài nên quyết định huấn luyện một mô hình lớn hơn, cũng có thể thử ước tính cần mô hình lớn đến mức nào bằng cách ngoại suy giữa các kích thước mô hình
- Việc huấn luyện mô hình có vẻ được tối ưu hóa quá nhiều cho tính liên tục. Ví dụ, biến liên tục có thể được chia nhỏ vô hạn, nhưng logic và thuật toán là những cấu trúc cứng, chứ không mờ nhòe theo kiểu đó
  Có lẽ để một tác tử học tập học đúng logic và thuật toán, nó cần có khả năng khái quát hóa từ các khái niệm mờ sang các khái niệm cứng. Chưa rõ điều đó sẽ tự động xảy ra chỉ bằng cách mở rộng, hay cần một chuyển đổi căn bản
- Bạn đã thấy bài gửi này chưa? https://news.ycombinator.com/item?id=39575264
  Nghe như hai chuyện có liên quan với nhau
Bài báo hay. Tuy nhiên emergence không nhất thiết đòi hỏi một cú nhảy đột ngột trong chỉ số hay tính khó dự đoán. Năng lực mới cũng có thể xuất hiện dần dần
- Khi nói về “emergence” trong machine learning, như bài báo đã đưa thuật ngữ này vào giải thích, ý là nói đến các chỉ số có cú nhảy đột ngột: https://arxiv.org/abs/2206.07682
Mô hình có thể đang trở nên thông minh hơn mà không cần các bước nhảy rời rạc. Có thể chỉ vì đo lường theo cách không chấm điểm cho đáp án một phần nên đã bỏ lỡ tín hiệu rằng nó liên tục trở nên sắc bén hơn
Điều này cũng có vẻ khá khớp với điều dường như là suy nghĩ của Sam Altman. OpenAI dường như cảm thấy có thể dự đoán khá tốt năng lực suy luận của mô hình chỉ bằng lượng tính toán huấn luyện và kích thước dữ liệu
- Sam Altman gần giống một người phụ trách bán hàng hơn, và đó không hẳn là suy nghĩ của ông ấy mà là việc ông ấy lặp lại suy nghĩ của rất nhiều chuyên gia làm việc tại OpenAI
Đồng hồ chết cũng đúng hai lần mỗi ngày
LLM là cỗ máy tạo sự có vẻ hợp lý. Giả thuyết nền tảng đang được kiểm chứng ở đây là khi sự có vẻ hợp lý tăng lên thì độ chính xác cũng tăng theo
Giả thuyết này dễ dàng bị bác bỏ chỉ cần nhìn vào nội dung do con người viết được dùng để huấn luyện LLM, và do đó mọi hiện tượng phụ thuộc vào nó đều sẽ có trần. Vì vậy, chỉ đơn giản phóng to LLM sẽ không tạo ra AGI
- “LLM là cỗ máy tạo sự có vẻ hợp lý” là một cách nhìn về LLM, nhưng chỉ riêng điều đó không tự động tạo ra trần cho năng lực
  Nói con người là sinh vật sinh sản cũng đúng. Thoạt nhìn, vì con người chỉ được chọn lọc vì khả năng sinh sản, có vẻ họ không thể tiến hóa để có trí thông minh, nhưng thực tế không phải vậy. Dù là một phân loại đúng, nó không xác định trần năng lực của con người
  LLM tiến hóa để bảo tồn tri thức hiệu quả nhất có thể
  Một chiến lược đơn giản để bảo tồn tri thức là ghi nhớ, và mạng nơ-ron chắc chắn có thể ghi nhớ
  Một chiến lược khác là dùng thuật toán. Mạng nơ-ron cũng có thể tiến hóa để bảo tồn tri thức bằng thuật toán. Ví dụ, người ta đã thấy một mạng nơ-ron nhỏ tiến hóa ra một cấu trúc giống FFT để thực hiện phép cộng. Ban đầu nó khởi đầu bằng ghi nhớ và không hoàn hảo, nhưng ở giai đoạn cuối của huấn luyện, nó chuyển sang thuật toán cộng dùng FFT và cho kết quả hoàn hảo
  Tôi cho rằng các LLM tốt hơn bảo tồn tri thức bằng cách nén tinh vi. Điều này bao gồm việc tạo mô hình thế giới và liên kết văn bản đầu vào với mô hình đó
  Tôi xem đây là các thành phần của một cỗ máy suy luận. Nó không hoàn hảo, có bug, và kiến trúc hiện tại cũng có thể sắp chạm giới hạn, nhưng nó hoàn toàn khác với ghi nhớ thuần túy
- Bạn đang giả định rằng con người theo đuổi độ chính xác một cách ổn định, chứ không phải sự có vẻ hợp lý
  Việc toàn bộ hệ thống khoa học được thiết kế để kiềm chế những tuyên bố trông có vẻ hợp lý nhưng sai thực ra lại cho thấy điều ngược lại
- Theo nghĩa triết học thì đúng, nhưng trên thực tế AI đang trên đường vượt con người trong nhiều nhiệm vụ và công việc mà trước đây được cho là cần trí thông minh
- Kết luận “mọi hiện tượng phụ thuộc vào nó đều sẽ có trần” nghe có vẻ hợp lý, nhưng dễ bị phá vỡ bằng phản ví dụ. Học trò giỏi có thể vượt thầy, và học trò bình thường nếu học từ nhiều thầy cũng có thể vượt tất cả
  Nói ngoài lề, vì vậy tôi nghĩ chế độ master-journeyman thời trung cổ rất hiệu quả
  Nói trừu tượng hơn, kết luận đó có vẻ giả định rằng transfer learning không tồn tại
Tôi thấy các chỉ số mà tác giả dùng hơi khó hiểu
Edit distance có vẻ là một cách kỳ lạ để kiểm tra liệu mô hình có hiểu số học hay không ([1], Figure 3). 1+3=3 có lẽ sẽ được xem là đúng ngang với 1+1=9
Tôi thắc mắc vì sao không xem đầu ra của mô hình lệch khỏi giá trị thực bao nhiêu bằng abs(actual-expected). Tôi cũng tò mò liệu chỉ số đó có điểm uốn hay không
https://arxiv.org/abs/2206.07682
- Còn tùy làm số học theo cách nào. Nếu con người làm phép cộng đặt cột, thì 12345+35791=58136 là một sai lầm lớn ngang 48146. Kết quả thật là 48136, và cả hai đều chỉ sai một cột chữ số. Bộ bán cộng nhị phân cũng hoạt động theo cách tương tự
  Chúng ta không biết LLM làm số học thế nào. Token edit distance có thể cũng thú vị, nhưng dù thế nào thì lập luận chính của bài báo cũng không thay đổi nhiều
  Riêng chuyện khác, link bị sai. Bài báo bạn nói là ở đây: https://arxiv.org/pdf/2304.15004.pdf

Khả năng ‘tăng tốc đột ngột’ của LLM có thể mang tính dần dần và có thể dự đoán

Bước nhảy hiệu năng đột ngột qua góc nhìn của BIG-bench

Phản biện từ Stanford: có thể là ảo giác do chỉ số chứ không phải do mô hình

Quy mô mô hình và đối tượng đánh giá

Giới hạn của chỉ số độ chính xác thể hiện qua phép cộng ba chữ số

Những tranh luận vẫn còn lại

Bài toán dự đoán các mô hình lớn hơn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News