Mạng Kolmogorov-Arnold có thể giúp nâng cao khả năng hiểu về mạng nơ-ron

(quantamagazine.org)

1 điểm bởi GN⁺ 2024-09-14 | 1 bình luận | Chia sẻ qua WhatsApp

Kolmogorov-Arnold network (KAN), được công bố vào tháng 4/2024, được đề xuất như một lựa chọn thay thế dễ đọc hiểu hoạt động bên trong hơn so với các mạng nơ-ron dựa trên MLP hiện có, và trong một số nhóm bài toán nhất định có thể thực hiện gần như mọi việc mà mạng nơ-ron thông thường làm được
KAN khớp đầu ra bằng cách đặt các hàm phi tuyến có thể học được trên các cạnh thay vì trọng số số học; cấu trúc này bắt nguồn từ định lý Kolmogorov-Arnold năm 1957
Sau khi gặp giới hạn của KAN 2 tầng, nhóm nghiên cứu của Ziming Liu và Max Tegmark tại MIT đã thử kiến trúc từ 3 tầng trở lên, và cho thấy KAN 3 tầng có thể biểu diễn những hàm mà kiến trúc 2 tầng không thể biểu diễn chính xác
Trong các bài toán về lý thuyết nút và Anderson localization, KAN không chỉ đưa ra đáp án mà còn cho thấy các công thức hoặc quan hệ liên quan; nó có khả năng đặc biệt hữu ích trong các bài toán khoa học có ít biến, như vật lý
Các nghiên cứu tiếp theo xác nhận thế mạnh của KAN trong các nhiệm vụ về khả năng diễn giải và giải phương trình đạo hàm riêng, nhưng MLP tốt hơn trong thị giác máy tính và xử lý âm thanh; KAN 2.0 được công bố dưới dạng dễ sử dụng hơn

Hộp đen MLP và sự xuất hiện của KAN

Thành phần nền tảng tiêu biểu của mạng nơ-ron hiện đại là multilayer perceptron (MLP), vốn cho hiệu năng mạnh mẽ khi mở rộng với các tập dữ liệu quy mô lớn
Dù thành công, các mạng dựa trên MLP khiến con người khó hiểu quá trình đi đến kết luận, và cũng không dễ xác định liệu có nguyên lý nền tảng nào giải thích kết quả hay không
Tháng 4/2024, bài báo KAN đề xuất Kolmogorov-Arnold network (KAN), minh bạch hơn nhưng vẫn có thể làm gần như mọi việc mà mạng nơ-ron thông thường làm được trong một số nhóm bài toán nhất định
Alan Yuille từ Johns Hopkins University cho rằng KAN có khả năng diễn giải cao hơn và có thể đặc biệt hữu ích trong các ứng dụng khoa học cần trích xuất quy luật khoa học từ dữ liệu

Cách KAN khớp hàm

Mạng nơ-ron thông thường nối các tầng nơ-ron nhân tạo hoặc nút bằng các cạnh, rồi điều chỉnh trọng số của từng cạnh trong quá trình học để đầu ra tiến gần đáp án đúng
Một mục tiêu phổ biến của mạng nơ-ron là tìm hàm toán học hoặc đường cong nối các điểm dữ liệu tốt nhất
- Nếu mô hình hóa một quá trình vật lý, người ta kỳ vọng hàm đầu ra sẽ trở thành phương trình mô tả vật lý, tức là một dạng tương ứng với định luật vật lý
Với MLP, có các định lý toán học cho biết nó có thể tiến gần đến hàm tối ưu khả dĩ đến mức nào; kết quả là MLP không thể biểu diễn hoàn hảo hàm đó
KAN không đặt trọng số số học đơn giản trên các cạnh, mà đặt hàm phi tuyến có thể học được
- Các hàm trên cạnh này có thể biểu diễn những đường cong phức tạp hơn
- Chúng có thể được điều chỉnh tinh vi hơn so với trọng số số học của MLP

Định lý năm 1957 và 35 năm hoài nghi

Cốt lõi của KAN là các kết quả toán học do Andrey Kolmogorov và Vladimir Arnold lần lượt công bố năm 1957
- Nội dung là một hàm toán học có nhiều biến có thể được chuyển thành tổ hợp của các hàm một biến
Ràng buộc quan trọng là các hàm một biến mà định lý tạo ra có thể không trơn
- Chúng có thể có những phần sắc nhọn như đỉnh chữ V
- Để mạng có thể uốn theo giá trị mục tiêu trong quá trình học, các mảnh một biến đơn giản cần phải trơn
Một bài báo năm 1989 của Tomaso Poggio và cộng sự tại MIT nêu rõ rằng ý tưởng toán học cốt lõi của KAN “không liên quan trong bối cảnh mạng dùng để học”
Ziming Liu và Max Tegmark chú ý rằng ngay cả khi các hàm một biến không trơn, mạng vẫn có thể xấp xỉ chúng bằng các hàm trơn, và hầu hết các hàm gặp trong khoa học đều trơn
Vì phần mềm và phần cứng đã phát triển mạnh kể từ năm 1989, Liu đã thử lại một ý tưởng từng không được chú ý trong quá khứ

Chuyển từ KAN 2 tầng sang KAN nhiều tầng

Liu mất khoảng 1 tuần để tạo nguyên mẫu KAN 2 tầng, dạng đơn giản nhất, nhưng không đạt hiệu năng tốt trong các nhiệm vụ liên quan đến khoa học mà ông nhắm tới
KAN 2 tầng dường như khớp tự nhiên với cấu trúc mà định lý Kolmogorov-Arnold dùng để tách hàm nhiều biến thành một tập các hàm bên trong và bên ngoài
Tegmark đề xuất thử KAN có nhiều tầng hơn 2 tầng, và cách tiếp cận này đã mang lại kết quả
Nhóm nghiên cứu cùng các đồng nghiệp từ MIT, California Institute of Technology và Northeastern University lập một hợp tác gồm các nhà toán học và chuyên gia trong lĩnh vực ứng dụng
Trong bài báo tháng 4/2024, nhóm nghiên cứu cho thấy KAN 3 tầng là khả thi, và đưa ra ví dụ trong đó KAN 3 tầng biểu diễn chính xác một hàm mà KAN 2 tầng không thể biểu diễn chính xác
Sau đó, họ thử nghiệm đến tối đa 6 tầng và xác nhận rằng càng tăng số tầng thì càng có thể khớp với các hàm đầu ra phức tạp hơn

Khả năng diễn giải thể hiện trong các bài toán thực tế

Lý thuyết nút
- Năm 2021, nhóm DeepMind đã tạo một MLP nhận đầu vào là nhiều thuộc tính của một nút nhất định và dự đoán thuộc tính tô pô của nút đó
- KAN mới tái hiện kết quả này, đồng thời cho thấy thuộc tính được dự đoán liên quan như thế nào với các thuộc tính khác
- Liu đánh giá đây là việc mà MLP hoàn toàn không thể làm
Anderson localization
- Bài toán thứ hai liên quan đến hiện tượng Anderson localization trong vật lý vật chất ngưng tụ
- Mục tiêu là dự đoán ranh giới nơi một chuyển pha cụ thể xảy ra và tìm công thức toán học giải thích quá trình đó
- MLP chưa từng thực hiện được nhiệm vụ này, còn KAN của nhóm nghiên cứu thì làm được
- Tegmark cho rằng ưu điểm lớn nhất của KAN và động lực chính của các phát triển gần đây nằm ở khả năng diễn giải
- Ông mô tả việc đưa ra một công thức có thể in lên áo phông khi được cung cấp dữ liệu là một dạng của khả năng diễn giải
- Brice Ménard từ Johns Hopkins đánh giá rằng nếu một bài toán thực sự được mô tả bằng một phương trình đơn giản, KAN khá giỏi trong việc tìm ra phương trình đó
- Tuy nhiên, lĩnh vực mà KAN hoạt động tốt nhất có thể bị giới hạn ở những bài toán có rất ít biến trong phương trình, như vật lý

Nghiên cứu tiếp theo và KAN 2.0

Bài báo KAN của Liu và Tegmark được trích dẫn 75 lần chỉ sau khoảng 3 tháng, và các nhóm nghiên cứu khác cũng bắt đầu nghiên cứu KAN riêng
Một bài báo do Yizheng Wang và cộng sự tại Tsinghua University công bố trực tuyến vào tháng 6/2024 cho biết mạng nơ-ron dựa trên Kolmogorov-Arnold (KINN) vượt xa MLP trong việc giải phương trình đạo hàm riêng (PDE)
- Wang nói rằng PDE hiện diện khắp khoa học
Một bài báo tháng 7/2024 của các nhà nghiên cứu tại National University of Singapore cho kết quả pha trộn hơn
- KAN tốt hơn MLP trong các nhiệm vụ liên quan đến khả năng diễn giải
- Trong thị giác máy tính và xử lý âm thanh, MLP cho kết quả tốt hơn
- Trong xử lý ngôn ngữ tự nhiên và các nhiệm vụ học máy khác, hai mạng nhìn chung tương tự nhau
Liu cho rằng những kết quả này không đáng ngạc nhiên
- Trọng tâm ban đầu của nghiên cứu KAN là các nhiệm vụ liên quan đến khoa học, nơi khả năng diễn giải được ưu tiên hàng đầu
Tháng 8/2024, Liu và các cộng sự công bố bài báo KAN 2.0
- Liu mô tả nó giống một hướng dẫn sử dụng hơn là một bài báo truyền thống
- KAN 2.0 dễ dùng hơn và cung cấp các công cụ như phép nhân, vốn không có trong mô hình ban đầu

Từ trọng tâm ứng dụng sang trọng tâm hiểu biết

Liu và các đồng tác giả cho rằng KAN thúc đẩy khoa học dựa trên tò mò, vượt ra ngoài vai trò một phương tiện đơn thuần để đạt mục tiêu
Cách tiếp cận chi phối lâu nay trong học máy là khoa học hướng ứng dụng
- Ví dụ, khi quan sát chuyển động của thiên thể, nhà nghiên cứu hướng ứng dụng tập trung vào dự đoán trạng thái tương lai
- Nhà nghiên cứu dựa trên tò mò cố gắng làm sáng tỏ vật lý phía sau chuyển động đó
Với KAN, nhà nghiên cứu không chỉ nhận được trợ giúp để giải các bài toán tính toán khó, mà còn có thể sử dụng mạng nơ-ron với mục tiêu là chính sự hiểu biết

1 bình luận

GN⁺ 2024-09-14

Các ý kiến trên Hacker News

Tác giả chính của KAN hôm qua đã có một phiên tutorial tại MLCAD, một hội nghị về giao điểm giữa thiết kế phần cứng/bán dẫn và machine learning/deep learning
Trông nó thật sự thú vị và rất phù hợp cho mục đích thu được hiểu biết sâu và diễn giải về các hệ vật lý, chẳng hạn như biểu thức ký hiệu, các đại lượng bảo toàn và tính đối xứng
Nó có thể hữu ích cho khoa học và toán học, nhưng trong kỹ thuật, khả năng diễn giải như vậy có thể không phải là mục tiêu ưu tiên hàng đầu của machine learning/deep learning
Khả năng học các bài toán khó hơn hay dung lượng học vẫn còn chưa rõ, và việc chọn hàm cơ sở dùng cho “kích hoạt” KAN, cũng như nên gắn lớp này vào kiến trúc nào để có lợi, vẫn chưa được khám phá nhiều
Tôi nghĩ khi mọi người thử nghiệm KAN nhiều hơn, sẽ có thêm câu trả lời cho những câu hỏi này
- Có một bài trình bày của cùng tác giả cách đây 2 tháng: https://www.youtube.com/watch?v=FYYZZVV5vlY
- Tôi tò mò không biết có phiên bản công khai của phiên đó không
Tôi nghĩ là không thể
Việc một phép toán nội bộ có thể hiểu được không có nghĩa là toàn bộ mạng nơ-ron sẽ trở nên có thể hiểu được
Chỉ cần nhìn vào cây quyết định đơn giản hơn rất nhiều: trong sách giáo khoa, chúng được giới thiệu như một hệ thống dễ hiểu, ra quyết định theo từng đặc trưng một và đưa ra đầu ra ở nút lá
Điều đó đúng vào thập niên 90, khi máy tính còn chậm và cây còn nhỏ, nhưng giờ thì các cây quyết định khổng lồ và rừng ngẫu nhiên có thể tạo ra những cây với hàng triệu nút, và những thứ như vậy không còn diễn giải được nữa
Có một khoảng cách toán học cơ bản trong việc hiểu các hệ phức tạp, và thêm một loại mạng nơ-ron khác sẽ không giải quyết được
- Tôi nghĩ: “Liệu Newton có thể dùng thứ này để tìm ra công thức lực mà ông ấy đang phân tích, ví dụ như trọng lực = g m_1 m_2 / d^2 không?”
  Trước đây tôi từng hỏi một giáo sư vật lý liệu về nguyên lý có thể làm được không, và ông ấy nói là có
  KAN có vẻ có thể tìm ra những công thức như vậy khi được cung cấp dữ liệu thực nghiệm, và nếu đúng thế thì tôi nghĩ điều đó xứng đáng được gọi là khả năng diễn giải
- Có thể ngay từ đầu đã không tồn tại công thức hay phương trình nào cho phép ta suy luận về các hệ phức tạp
  Để suy luận về độ phức tạp, rất có thể thực sự phải thực hiện chính độ phức tạp đó
- Nhìn chung tôi đồng ý, và với các mô hình phi tuyến đủ phức tạp, tôi nghĩ việc theo đuổi khả năng diễn giải là công cốc
  Dù vậy, tôi sẽ khá ngạc nhiên nếu một ngày nào đó không có đột phá thành công trong các lĩnh vực như động lực học phi tuyến hay hình thành mẫu
- Ngay cả các cây quyết định rất phức tạp cũng có thể diễn giải được ở một mức độ nào đó
  Vì ta có thể lần theo cây và trả lời các câu hỏi như “nếu điều kiện này không đúng thì kết quả có khác không?”
  Có thể khó giữ toàn bộ cây trong đầu cùng lúc, nhưng khi cần hiểu đường đi thực tế đã xảy ra thì vẫn có thể khảo sát được
- Nhiều người gọi ensemble cây là hộp đen
  Tôi thì thấy nó gần với hộp xám hoặc hộp xám đậm hơn
  Nếu muốn thì có thể diễn giải, nhưng thực tế ai lại muốn rà soát toàn bộ 500 cây chứ
Thuật toán đơn giản hóa bán tự động mà bài báo KAN cung cấp có vẻ giải một bài toán tương tự như https://arxiv.org/pdf/2112.04035
Tuy nhiên, nó có thêm ràng buộc là không hướng tới một bộ nén trừu tượng tổng quát, mà nhắm đến khả năng diễn giải hàm truyền xuôi
Không phải vậy
Trong các bài toán khớp hàm tầm thường, KAN cho phép trực quan hóa mức độ mỗi hàm cơ sở đóng góp cho lớp tiếp theo
Nhưng những mạng nơ-ron nông và tầm thường như thế ngay từ đầu đã hầu như không cần soi vào bên trong
Mạng nơ-ron sâu sẽ không trở nên giải thích được bằng cách tiếp cận này
- Đúng vậy
  Tôi không biết liệu thứ có hàng triệu đến hàng tỷ tham số có thể trở nên “giải thích được” theo cách chúng ta mong muốn hay không
  Thử tưởng tượng viết một hàm đa biến tổng quát với hàng tỷ hạng lên một tấm bảng trắng rất lớn, liệu ta có thật sự hiểu được vì sao nó cho ra những con số đó không?
  KAN có thể có số tham số ít hơn khoảng một bậc độ lớn, nhưng vấn đề cơ bản vẫn y như vậy
Có thể không liên quan trực tiếp đến chủ đề này, nhưng tôi có một điều thắc mắc
Một trong những sức mạnh của mạng nơ-ron là tận dụng tính song song khổng lồ mà GPU cung cấp; vậy có phải ta đang để phí tài nguyên tính toán khi chỉ dùng trọng số vô hướng không?
Nếu dùng ma trận hàm thay cho ma trận trọng số thì sao?
- Nên xem mạng nơ-ron vốn đã được tạo thành từ các hàm
  Một tập hợp các nút xếp thành các lớp trở thành một hàm phi tuyến phức tạp
  Ví dụ, ngay cả một mạng nơ-ron nhỏ 3 lớp cũng có thể được huấn luyện để mô hình hóa hàm spline bậc 3
  Bên trong hàm được học ở mọi bước, mọi phép cộng và phép nhân
  Có thể xem số hàm trong mạng nơ-ron là một phần của số trọng số, vì thế về lý thuyết nó linh hoạt và mạnh hơn việc mô hình hóa trực tiếp các hàm phức tạp hơn
  Nếu biết hàm đúng, ta có thể mô hình hóa một MLP hàm cố định nhỏ bằng một hàm cụ thể để tăng hiệu quả học, nhưng nếu không cẩn thận cũng có thể mất hiệu năng
  Vấn đề chính là ta không biết nên dùng hàm nào, và việc thêm các hàm phi tuyến có thể tạo ra khó khăn mới về hiệu năng, độ chính xác, khởi tạo và chuẩn hóa
  Toán tuyến tính thì dễ và mạnh, và đã có thể mô hình hóa các hàm phức tạp, nhưng toán phi tuyến cũng có thể hữu ích nên có vẻ cần nghiên cứu thêm
- GPU được tối ưu cho ma trận giá trị dấu phẩy động, nên các mạng nơ-ron hiện nay dựa trên ma trận chứa trọng số vô hướng
- Mô tả đó rất giống với quá trình Gaussian sâu
- Gắn tính phi tuyến vào từng hàng hoặc cột của trọng số chính là hàm có thể học được
Gần đây cũng đã được thảo luận tại https://news.ycombinator.com/item?id=40219205
Trong các ứng dụng khoa học, trọng tâm của khả năng diễn giải nằm ở hồi quy ký hiệu
MLP không phải lúc nào cũng có thể nhả ra một phương trình cho một dataset nào đó, nhưng KAN thì có thể
- Tôi tưởng MLP là bộ xấp xỉ hàm phổ quát: https://en.wikipedia.org/wiki/Universal_approximation_theorem
Bạn có thể giải thích chính xác điều gì là “chưa biết” trong mạng nơ-ron không?
Chúng ta đã tạo ra nó, biết nó gồm những gì và hoạt động như thế nào.
Tuy không thể ánh xạ từng kết nối giữa các nút của “perceptron đa tầng” này, nhưng chẳng phải chúng ta biết các kết nối đó được hình thành như thế nào sao?
- Các LLM hiện đại như GPT-4o về cơ bản có thể hiểu văn bản mã hóa b64.
  Chúng ta cũng có thuật toán để giải mã và mã hóa văn bản b64, nhưng liệu GPT-4o có đang thực hiện đúng thuật toán đó không?
  Quá trình huấn luyện đã học thuật toán đó ư? Rõ ràng là không, hoặc ít nhất là không hoàn toàn.
  Vì ngay cả lỗi gõ trong b64 vốn sẽ khiến thuật toán của chúng ta không thể trích xuất ý nghĩa văn bản gốc, thì với 4o hầu như lại không thành vấn đề.
  Vậy nó giải mã b64 bằng cách nào? Chúng ta không biết.
  Chúng ta không thật sự “tạo ra” mạng nơ-ron, mà tạo ra cấu trúc rồi huấn luyện nó.
  Ngoài việc cung cấp dữ liệu huấn luyện, việc nó học gì nằm ngoài sự kiểm soát trực tiếp của con người.
  Trừ các ví dụ đồ chơi rất nhỏ, phần lớn những gì nó đã học vẫn chưa được biết.
  Chúng ta biết các kết nối được hình thành, có thể xem trọng số, cũng có thể xem các phép nhân ma trận.
  Nhưng chúng ta không biết các phép tính đó đang làm gì, hay chúng có ý nghĩa gì.
  Một người ngoài hành tinh có thể nhìn thấy mã C đang chạy thì liệu có thể nói là họ hiểu đoạn mã đó không?
- Chúng ta không biết từng kết nối có ý nghĩa gì, hay thông tin nào được mã hóa trong từng trọng số.
  Cũng không biết nếu thay đổi từng trọng số trong số hàng triệu đến hàng nghìn tỷ trọng số thì hành vi sẽ thay đổi ra sao.
  So với từ điển thì khác: trong từ điển, thông tin nằm ở trang nào, dòng nào là điều rất rõ ràng.
- Bỏ qua một chút chi tiết, mô hình áp dụng nhiều hàm chiều cao lên đầu vào, và chúng ta không biết vì sao các hàm đó lại giải được bài toán.
  Việc giảm số chiều của trọng số xuống các giá trị con người có thể đọc được không hề đơn giản, và nhiều nơ-ron tương tác với nhau theo những cách khó dự đoán.
  Nghiên cứu về khả năng diễn giải đã tạo ra nhiều kết quả hữu ích và các trực quan hóa đẹp mắt[1][2], cũng như có nhiều nỗ lực nhằm hiểu Transformer[3][4], nhưng vẫn còn rất xa mới có thể giải thích hoàn toàn các mô hình lớn đang được sử dụng hiện nay.
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- LLM không phải là bộ não, nhưng bộ não là một phép ví von hữu ích.
  Cũng như việc nhìn vào toàn bộ nơ-ron của chúng ta không có nghĩa là có thể hiểu hoàn toàn cách chúng ta suy nghĩ, LLM cũng không thể được hiểu chỉ bằng cách phân tích từng thành phần riêng lẻ.
  Việc giải mã LLM có lẽ dễ hơn não bộ, nhưng điều đó không có nghĩa là dễ.
- Chúng ta biết các kết nối được hình thành như thế nào, và biết cách khiến chúng được hình thành.
  Chỉ là chúng ta không biết vì sao sự hình thành theo cách cụ thể đó lại giải được vấn đề trước mắt.
  Giờ đây, ngay cả cách diễn đạt này cũng không còn hoàn toàn chính xác.
  Vì đã có rất nhiều nghiên cứu về những gì đang diễn ra bên trong hộp đen.
  Vấn đề là nó chưa từng là một hộp đen hoàn toàn. Ta luôn có thể nhìn vào bên trong, nhưng khó hiểu được nó.
  KAN giúp chuyển một phần việc đó sang công thức hóa toán học, và việc tạo bản đồ kích hoạt cho dữ liệu cũng đem lại những hiểu biết tương tự.

Mạng Kolmogorov-Arnold có thể giúp nâng cao khả năng hiểu về mạng nơ-ron

Hộp đen MLP và sự xuất hiện của KAN

Cách KAN khớp hàm

Định lý năm 1957 và 35 năm hoài nghi

Chuyển từ KAN 2 tầng sang KAN nhiều tầng

Khả năng diễn giải thể hiện trong các bài toán thực tế

Lý thuyết nút

Anderson localization

Nghiên cứu tiếp theo và KAN 2.0

Từ trọng tâm ứng dụng sang trọng tâm hiểu biết

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News