- Cơ chế của quá trình học deep learning xem việc huấn luyện mạng nơ-ron như một động lực học được tạo ra bởi sự tương tác giữa tham số, dữ liệu, tác vụ và quy tắc học, và đang bắt đầu định hình như một lý thuyết khoa học thống nhất
- Thách thức cốt lõi không nằm ở tính mờ đục mà ở độ phức tạp; mạng nơ-ron có cấu trúc phi lồi và quá tham số hóa, đồng thời học các biểu diễn nội tại có cấu trúc, nên không thể được giải thích đầy đủ chỉ bằng các lý thuyết cổ điển hiện có
- Trên các trục như thiết lập có thể phân tích được, giới hạn độ rộng/độ sâu vô hạn, các quy luật thực nghiệm đơn giản, lý thuyết hyperparameter và các hiện tượng phổ quát, những tính quy luật đang liên tục lộ rõ và đặt nền móng cho cơ chế học
- Các kết quả như deep linear network, NTK, mean-field và phân biệt lazy-rich cho phép xử lý định lượng động lực học học, khả năng khái quát hóa, feature learning và scaling law
- Những lý thuyết này rất quan trọng để cung cấp nền tảng dự đoán được hơn và có thể kiểm soát hơn cho thiết kế mô hình, tối ưu hóa, lựa chọn hyperparameter, cũng như AI safety và mechanistic interpretability
Giới thiệu
- Deep learning rất mạnh mẽ, nhưng vẫn còn thiếu một khuôn khổ khoa học có thể giải thích một cách thống nhất nguyên lý vận hành bên trong của nó
- Mạng nơ-ron thể hiện hiệu năng vượt con người trong nhiều tác vụ, nhưng vẫn chưa có lý thuyết thống nhất nào về vì sao chúng hoạt động như vậy và hiệu năng đó được tạo ra như thế nào
- Cách huấn luyện trong thực tế cũng vẫn phụ thuộc nhiều vào thử-sai hơn là vào first principles, và lý thuyết hiện vẫn giữ vai trò hạn chế trong công việc deep learning hằng ngày
- Khi bước vào kỷ nguyên mô hình ngôn ngữ lớn và diffusion model, bí ẩn càng sâu hơn, nhưng lý thuyết khoa học về deep learning thực sự đã bắt đầu hình thành, và hình dạng của nó gần với cơ chế của quá trình học
- Trọng tâm của lý thuyết deep learning đã thay đổi theo thời gian
- Ở giai đoạn đầu, trọng tâm là mô hình có thể biểu diễn những hàm nào và học từ dữ liệu như thế nào
- Sau đó, trọng tâm chuyển sang khi nào mô hình có thể khái quát hóa với số mẫu hữu hạn, kéo theo sự phát triển của classical learning theory, lý thuyết học tính toán, lý thuyết PAC và lý thuyết tối ưu hóa cổ điển
- Đồng thời, truyền thống statistical physics of machine learning nghiên cứu hành vi trung bình của các mô hình đơn giản cũng hình thành song song
- Mạng nhiều tầng, backpropagation, cùng sự mở rộng quy mô dữ liệu và tài nguyên tính toán đã làm lộ rõ giới hạn của các lý thuyết cũ
- Mạng nơ-ron có cấu trúc phi lồi và quá tham số hóa, khác với các mô hình đơn giản và lồi mà lý thuyết cổ điển xử lý tốt
- Chúng vượt ra ngoài mục tiêu lỗi huấn luyện thấp để học các biểu diễn nội tại có cấu trúc, đồng thời bộc lộ tính quy luật trên nhiều tác vụ và quy mô
- Sự thay đổi này khiến lý thuyết deep learning chuyển từ giai đoạn đặt câu hỏi toán học về điều gì là khả thi sang giai đoạn khoa học nhằm mô tả và dự đoán hành vi của các hệ thống thực nghiệm phức tạp
- Vì vậy, cần một cách tiếp cận khoa học có khả năng tiếp nhận các quan sát thực nghiệm, tìm ra các nguyên lý thống nhất và nhận diện những mẫu hình lặp lại
- Con đường phía trước vì thế có lẽ gần với quá trình trưởng thành của một ngành khoa học hơn là với sự phát triển của một lĩnh vực toán học thuần túy
learning mechanics là gì
- Có thể xem việc học của mạng nơ-ron tương tự như mechanics mô tả vật thể chuyển động trong không gian và thời gian
- Giống như vật thể di chuyển liên tục trong không gian vật lý dưới tác dụng của lực, mô hình di chuyển trong parameter space thông qua các cập nhật rời rạc
- Cũng như trong vật lý, lực sinh ra từ tương tác giữa các thành phần của hệ, trong deep learning, sự tương tác giữa tham số, tập dữ liệu, tác vụ và quy tắc học định hình quá trình học
- Cũng có sự tương ứng giữa trường trong vật lý và gradient trong deep learning
- Giống như một hệ vật lý ổn định tại điểm cực tiểu cục bộ của thế năng do các tương tác bên trong và ràng buộc bên ngoài quyết định, mạng nơ-ron cũng hội tụ về các điểm cực tiểu cục bộ của loss landscape do kiến trúc và dữ liệu huấn luyện tạo ra
- Phép so sánh này không chỉ là cách nói hình tượng mà còn ăn khớp với dòng nghiên cứu đang diễn ra hiện nay
- Giống như nhiều nhánh của mechanics sử dụng thiết lập có thể phân tích được, các giới hạn đơn giản hóa, thống kê tóm tắt, phân tích tham số hệ thống và hiện tượng phổ quát, learning mechanics cũng dùng chính những công cụ đó
- Đặc biệt, giống như continuum mechanics và statistical mechanics khi xử lý nhiều thành phần tương tác, deep learning cũng có ích hơn khi giải thích các đại lượng thống kê ở mức vĩ mô thay vì từng thành phần riêng lẻ
- Chương trình nghiên cứu này có thể được gộp lại dưới tên gọi learning mechanics
7 điều kiện cần cho learning mechanics
-
Tính nền tảng
- Việc huấn luyện mạng nơ-ron phải được triển khai một cách logic bắt đầu từ first principles
- Ở các bước trung gian, có thể dùng các giả định về trọng số, động lực học và hiệu năng như công cụ, nhưng cuối cùng cả những điều đó cũng phải được giải thích từ first principles
-
Tính toán học
- Cần đưa ra các phát biểu định lượng rõ ràng, không mơ hồ về các đặc tính quan trọng của mạng nơ-ron
- Chỉ mô tả định tính thì chưa đủ để tạo thành mechanics
-
Tính dự đoán
- Cần đưa ra các khẳng định có thể được kiểm chứng bằng những phép đo thực nghiệm đơn giản và có thể lặp lại
- Vì khả năng kiểm soát thực nghiệm đối với hệ thống này là rất cao, những tiến bộ chính phải có thể được xác minh rõ ràng bằng thực nghiệm
-
Tính bao quát
- Cần kết nối quá trình huấn luyện, các biểu diễn nội tại và trọng số cuối cùng trong một bức tranh thống nhất
- Thay vì cố gắng chứa mọi chi tiết, nên chọn một độ phân giải phù hợp đủ đem lại insight ngay cả khi phải hy sinh một phần chi tiết
-
Tính trực quan
- Cần ưu tiên những insight đơn giản và illuminating hơn là sự phức tạp kỹ thuật
- Đó phải là một lý thuyết mang lại cảm giác thỏa mãn vì giúp vén màn bí ẩn của deep learning
-
Tính hữu dụng
- Giống như vật lý là nền tảng của các ngành kỹ thuật khác, nó phải trở thành nền tảng khoa học cho deep learning ứng dụng
- Các mục tiêu cụ thể gồm giảm nhu cầu tinh chỉnh hyperparameter, công cụ dự đoán cho dataset design và nền tảng chặt chẽ cho AI safety
-
Tính khiêm tốn
- Cần làm rõ điều gì được giải thích tốt và điều gì không thể giải thích
- Ngay cả mechanics có thể áp dụng cho deep learning thực tế cũng có thể thất bại trong những trường hợp đặc biệt nhỏ và được thiết kế thủ công, và điều này có thể được xem là cái giá phải trả để có được một bức tranh đơn giản trong miền quan tâm
Vì sao learning mechanics quan trọng
-
Lý do khoa học
- Thành công về mặt kỹ thuật của các mạng nơ-ron lớn cho thấy chúng đang khai thác những nguyên lý sâu sắc về học và biểu diễn mà ta vẫn chưa hiểu rõ
- Các tiền lệ công nghệ đi trước lý thuyết được nêu ra gồm động cơ hơi nước và nhiệt động lực học, máy bay và lý thuyết khí động học
- Nguyên lý học của mạng nơ-ron nhân tạo cũng có thể soi sáng việc hiểu biological intelligence, từ đó có hàm ý đối với neuroscience và cognitive science
-
Lý do thực tiễn
- Một lý thuyết deep learning trưởng thành có thể dẫn dắt thiết kế mô hình, tối ưu hóa, scaling và triển khai bằng những nguyên lý đáng tin cậy hơn
- Lý thuyết đã bắt đầu đóng vai trò trong một số lĩnh vực
- empirical scaling laws
- các công thức toán học cho scaling hyperparameter
- optimizer và các phương pháp data attribution được thiết kế dựa trên động cơ lý thuyết
- Một lý thuyết sâu sắc và hoàn chỉnh hơn có thể cung cấp nhiều chỉ dẫn như vậy hơn, đồng thời làm chúng sắc bén và có tính dự đoán hơn
-
Lý do liên quan đến an toàn
- Để mô tả, đặc trưng hóa và kiểm soát các hệ thống AI ngày càng mạnh, cần có khả năng xác định rõ các biến số liên quan, cơ chế và các nguyên lý tổ chức
- Rất khó để quản lý một công nghệ không thể được mô tả rõ ràng, và fundamental theory có thể mang lại sự minh bạch cần thiết cho reliability, oversight và control
- Đặc biệt, có khả năng nó sẽ đóng góp cho AI safety theo cách hỗ trợ mechanistic interpretability
Bằng chứng cho thấy mechanics của học đang xuất hiện
- Các thành phần cốt lõi của deep learning đều tường minh và đo lường được
- Kiến trúc được cho bởi mạng nơ-ron f(x; θ), được định nghĩa như hợp thành của các phép biến đổi tuyến tính và phi tuyến đơn giản
- Dữ liệu được cho bởi tập mẫu D = {(xi, yi)} lấy ra từ một phân phối sinh dữ liệu chưa biết
- Bài toán được định nghĩa bởi hàm mục tiêu L(θ) đo hiệu năng trên tập dữ liệu
- Quy tắc học được mô tả bằng cập nhật dựa trên gradient như
θ(t+1) = θ(t) −η∇L(θ(t)), cùng với khởi tạo và các siêu tham số tối ưu hóa
- Gần như không có gì bị che giấu trong quá trình học
- Khác với nhiều hệ phức tạp, deep learning trực tiếp phơi bày equations of motion chi phối động lực học
- Có thể ghi lại mọi weight, activation, gradient và loss, rồi từ đó tạo ra bất kỳ thống kê nào
- Thiết kế thí nghiệm, tái lập và kiểm chứng đều dễ, thuận lợi cho việc phát hiện các quy luật thực nghiệm và kiểm tra nghiêm ngặt các dự đoán lý thuyết
- Bài toán khó trung tâm không nằm ở tính mờ đục mà ở độ phức tạp
- Sự tương tác giữa architecture, data, task và learning rule tạo ra động lực học học phi tuyến, liên kết, đa chiều cao
- Nhạy cảm với lựa chọn siêu tham số, trong khi bản thân phân phối dữ liệu cũng khó đặc trưng hóa một cách đơn giản
- Dù vậy, bên dưới độ phức tạp này vẫn ẩn có quy luật, và có năm quan sát được nêu ra để hậu thuẫn điều đó
-
Các thiết lập giải được bằng giải tích
-
Các giới hạn mang lại trực giác
-
Các quy luật thực nghiệm đơn giản
-
Lý thuyết siêu tham số
Các thiết lập giải được bằng giải tích
- Trong các hệ phức tạp, hiểu biết khoa học thường tăng nhanh khi có thể tính toán định lượng trong những thiết lập đã được đơn giản hóa nhưng vẫn có tính đại diện
- Giống như harmonic oscillator hay hydrogen atom trong vật lý, trong deep learning các mô hình tối giản cũng cung cấp trực giác khi nhìn vào những hệ thống thực tế hơn
- Deep learning đặc biệt phù hợp với cách tiếp cận này, và đã tìm ra nhiều thiết lập nơi động lực học học được đơn giản hóa và các đại lượng cốt lõi trở nên tính được
-
Tuyến tính hóa theo dữ liệu
- deep linear network loại bỏ tính phi tuyến, khiến mô hình tuyến tính theo đầu vào x nhưng vẫn rất phi tuyến theo tham số θ
- Dù trông đơn giản, các mô hình như vậy vẫn giữ lại những hành vi đặc trưng của deep learning
- bề mặt loss bị chi phối bởi saddle point
- động lực học có phase transition rõ rệt và các thang thời gian tách biệt
- dao động edge-of-stability dưới gradient descent
- inductive bias phụ thuộc mạnh vào khởi tạo
- Phân tích thường được thực hiện dưới gradient flow, là giới hạn thời gian liên tục của gradient descent, và nếu đặt các giả định đơn giản hóa lên phân phối dữ liệu và khởi tạo thì có thể thu được nghiệm chính xác hoặc rút gọn về hệ động lực học ít chiều
- Điểm cốt lõi lặp đi lặp lại là greedy low-rank bias
- Quá trình học tiếp thu một số thành phần của bài toán trước những thành phần khác
- Trong kết quả của [Saxe et al. 2014], mạng học tuần tự các singular vector của tương quan đầu vào-đầu ra, và các mode có singular value lớn được học trước
- Thiên lệch này được liên hệ với khả năng hỗ trợ tổng quát hóa bằng cách tách signal khỏi noise
- Nó cũng giống với hiện tượng trong mạng phi tuyến, nơi các hàm đơn giản được học trước các hàm phức tạp
- Khởi tạo nhỏ, độ sâu lớn hơn, nhiễu mini-batch mạnh hơn và ℓ2 regularization tường minh đều được tổng kết là làm thiên lệch greedy này mạnh hơn
-
Tuyến tính hóa theo tham số
- linearized network thu được bằng cách cắt bỏ các hạng phi tuyến trong khai triển Taylor quanh tham số khởi tạo; khi đó mô hình vẫn phi tuyến theo dữ liệu x nhưng tuyến tính theo tham số θ
- Trong một số thiết lập nhất định, mô hình gốc được xấp xỉ tốt bởi phép tuyến tính hóa này suốt toàn bộ quá trình huấn luyện, và khi đó động lực học học về thực chất trở thành tương đương với hồi quy tuyến tính
- Khác biệt là thay vì Gram kernel, động lực học được chi phối bởi neural tangent kernel, NTK
- Với least squares và gradient descent có step size nhỏ, bộ dự đoán cuối cùng được cho bởi kernel ridge regression dùng NTK, nên rất dễ diễn giải
- Thiết lập này cho thấy architecture quyết định inductive bias như thế nào thông qua cấu trúc NTK
- Khi tính đến cả cấu trúc dữ liệu đầu vào, ta còn có thể dự đoán sai số tổng quát hóa kỳ vọng cho hàm mục tiêu bất kỳ, và kết quả trong Figure 1 cũng cho thấy các dự đoán như vậy khớp tốt với thí nghiệm
- Nó cũng có thể nắm bắt double descent và scaling laws
- Tuy vậy, tính hiện thực và giới hạn của nó cũng rất rõ
- không nắm bắt được feature learning mạnh của generic neural network
- có thể tạo ra các dự đoán quá bi quan về độ phức tạp mẫu
- bằng cách biến quá trình học thành một bài toán tuyến tính, nó lách qua các hiện tượng tối ưu hóa không lồi đặc trưng của deep learning
-
Vượt ra ngoài tuyến tính hóa
- Một mặt trận quan trọng của lý thuyết là làm cho các toy model thật sự phi tuyến cả theo dữ liệu lẫn tham số trở nên có thể phân tích được
- Ở đây ảnh hưởng của phân phối dữ liệu trở nên phức tạp hơn nhiều, nên khó thiết lập một khuôn khổ thống nhất, nhưng đã có tiến triển theo nhiều hướng
- Trong họ mô hình single-index và multi-index với đầu vào Gaussian và mục tiêu có cấu trúc, fully nonlinear neural network hoạt động tốt hơn kernel method với ít mẫu hơn
- vì chúng học được relevant feature bằng cách khai thác cấu trúc của hàm mục tiêu
- Các phương pháp statistical physics còn cho phép tính được hành vi tiệm cận chính xác của suy luận Bayes-tối-ưu và động lực học học trong các mô hình này
- Với mạng nơ-ron hai tầng dùng quadratic activation, người ta đã đặc trưng hóa được cả tiệm cận chính xác, động lực học huấn luyện và scaling laws
- Ngoài ra, nhiều hiện tượng phi tuyến khác cũng đã được tách riêng để phân tích
- hiện tượng homogeneous network được huấn luyện bằng logistic loss hội tụ về max-margin solution
- hiện tượng động lực học huấn luyện trong teacher-student model rút gọn về các thống kê tóm tắt ít chiều
- memorization trong associative memory model
- cấu trúc mang tính thuật toán được học trong modular arithmetic task
- các mô hình có thể phân tích phi tuyến của attention
- các trường hợp feature learning phi tuyến tạo ra scaling law tốt hơn
- Hiện tại, các toy model phi tuyến mỗi loại chỉ nắm bắt một lát cắt của quá trình học hoàn toàn phi tuyến, nhưng một khung lý thuyết thống nhất vẫn chưa xuất hiện
Những giới hạn mang lại trực giác
- Các hệ thống deep learning hiện đại gồm hàng chục tỷ tham số trở lên và lượng dữ liệu khổng lồ, nên một lý thuyết vi mô theo dõi từng tham số riêng lẻ gần như bất khả thi
- Tuy nhiên, các hệ phức tạp thường được đơn giản hóa ở giới hạn khi kích thước tiến tới vô hạn trên thực tế, và cấu trúc đơn giản này mang lại trực giác hữu ích ngay cả cho các hệ hữu hạn ngoài đời thực
- Đây cũng là logic tương tự như việc định luật khí lý tưởng được suy ra ở giới hạn số hạt vô hạn nhưng vẫn khớp tốt với các chất khí hữu hạn thực tế
- Trong deep learning, các giới hạn cũng là công cụ toán học then chốt để xử lý độ phức tạp, và thành công lặp đi lặp lại của chúng tự thân đã được đưa ra như bằng chứng mạnh mẽ cho một lý thuyết đang hình thành
-
Giới hạn độ rộng vô hạn và phép phân đôi lazy-rich
- Khi số neuron trong
hidden layer được cho tiến tới vô hạn, sẽ xuất hiện mean-field behavior, nơi chỉ cần xét sự tiến hóa phân bố của toàn bộ quần thể neuron thay vì từng neuron riêng lẻ
- Tuy nhiên, để tránh việc activation của các tầng sâu bị phân kỳ, cần giảm thang khởi tạo khi độ rộng tăng lên, và tùy theo tốc độ giảm này mà xuất hiện hai loại động lực học giới hạn khác nhau
-
Chế độ lazy, kernel hoặc linearized
- Nếu giảm độ lớn của mỗi tham số tại khởi tạo xuống [width]−1/2, đầu vào của hidden neuron sẽ không biến mất cũng không bùng nổ
- Khi huấn luyện mạng như vậy, trọng số và hidden representation hầu như không thay đổi, nhưng các thay đổi nhỏ đó tích lũy lại khiến hàm đầu ra thay đổi lớn
- Kết quả là động lực học học trở nên tuyến tính theo tham số, và sự tiến hóa của hàm đầu ra được biểu diễn hoàn toàn bằng NTK
- Khả năng phân tích cao, nhưng do hidden representation gần như không đổi nên không thể hiện feature learning
- Giới hạn này về sau được hệ thống hóa dưới tên gọi lazy
-
Chế độ rich, active hoặc feature-learning
- Nếu thu nhỏ trọng số tầng cuối mạnh hơn xuống [width]−1, sẽ xuất hiện một giới hạn khác cho phép feature learning, vì mô hình phải thay đổi nhiều hơn trong quá trình học
- Trong trường hợp này, đầu ra ban đầu trở thành 0 ở độ rộng vô hạn, nhưng trong quá trình huấn luyện, nó vẫn có thể tăng lên một cách có ý nghĩa ở mức order-one sau mỗi bước gradient
- Ý tưởng này khởi đầu từ
shallow mean-field network, sau đó được mở rộng sang các mạng có độ sâu tùy ý, và phép scale liên quan được kết nối với Maximal Update Parameterization, µP
- Hiện nay, việc cả mạng
infinite-width cũng có thể học feature đã được chấp nhận rộng rãi
-
Hành vi xuất hiện trong rich regime
- Hidden feature thay đổi theo thời gian và thích nghi với cấu trúc của dữ liệu đầu vào
- Geometry của biểu diễn nội bộ thay đổi trong quá trình huấn luyện
- Các phân nhóm neuron chuyên biệt hóa cho những latent feature khác nhau
- Khi dự đoán tối ưu nằm trong một không gian con thấp chiều của dữ liệu cao chiều, phân bố trọng số tầng đầu sẽ tiến hóa theo hướng khuếch đại không gian con cần quan tâm đó
- Nếu làm cho thang khởi tạo nhỏ hơn nữa, greedy low-rank bias đã nhắc trước đó thường lại xuất hiện
-
Chuyển pha lazy-rich ngay cả ở độ rộng hữu hạn
- Giảm thang đầu ra sẽ thúc đẩy feature learning và dịch chuyển về phía rich regime
- Tăng thang đầu ra sẽ khiến động lực học huấn luyện được tuyến tính hóa mạnh hơn, từ đó xuất hiện hành vi lazy
- Cùng một mạng hữu hạn cũng có thể thể hiện kiểu học lazy hoặc rich tùy theo thang đầu ra, và Figure 2 trực quan hóa sự khác biệt này
-
Giới hạn độ sâu vô hạn và các giới hạn siêu tham số khác
- Trong
deep residual network, nếu giảm đóng góp của mỗi tầng một cách phù hợp thì có thể đạt tới infinite depth limit ổn định
- Nếu kiềm chế mỗi tầng theo [depth]−1, sẽ xuất hiện một giới hạn trong đó
residual stream thay đổi trơn tru theo độ sâu, gợi nhớ tới Neural ODE
- Nếu kiềm chế mỗi tầng theo [depth]−1/2, sẽ xuất hiện một giới hạn trong đó
residual stream khuếch tán như thể được dẫn dắt bởi phương trình vi phân ngẫu nhiên
- Hai giới hạn này hội tụ tới các nghiệm khác biệt về mặt định tính trong những kiến trúc thực tế như transformer, và hiện vẫn chưa rõ bên nào quan trọng hơn
-
Các giới hạn kích thước khác
- Với
recurrent architecture, có thể phân tích giới hạn vô hạn của cấu trúc hồi quy thay cho số lượng tầng feedforward
- Các transformer hiện đại chứa những khối giàu năng lực biểu đạt hơn như
multi-head self-attention và MLP kiểu mixture-of-expert
attention có nhiều hướng scale như head count, head size, context length
mixture-of-expert có nhiều hướng scale như expert count, expert size, sparsity
- Việc làm rõ tương tác giữa các giới hạn vô hạn khác nhau này là rất quan trọng để kết nối với thực tiễn hiện đại, cũng như để hiểu tách bạch các siêu tham số liên quan đến khởi tạo và tối ưu hóa
Tóm lược thể hiện qua bảng và hình
- Table 1 tóm tắt rằng các công cụ nghiên cứu cốt lõi của deep learning rất giống với các công cụ của vật lý
- solvable settings tương ứng với
deep linear network, kernel regression, multi-index model, còn trong vật lý tương ứng với harmonic oscillator, hydrogen atom, Ising model
- simplifying limits gắn với học lazy so với rich, các giới hạn vô hạn của độ rộng và độ sâu, cùng với
small initialization, còn trong vật lý được đặt song song với thermodynamic limit, classical limit, hydrodynamic limit
- simple empirical laws xuất hiện dưới dạng
neural scaling laws, edge of stability, neural feature ansatz, và được đặt cạnh các định luật trong vật lý như Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble
- Nghiên cứu system parameters được kết nối với góc nhìn coi
step size như sharpness regularization, với µP và width scaling, và được sắp xếp tương tự với scaling analysis, nondimensionalization, chaotic vs ordered regime trong vật lý
- universal phenomena xuất hiện dưới dạng
inductive bias và biểu diễn chung trên nhiều mô hình, tương ứng với critical phenomena và renormalization group flow trong vật lý
- Figure 1 nhấn mạnh rằng phép tuyến tính hóa cung cấp nghiệm chính xác và khớp tốt với thực nghiệm
- Trong
deep linear network, các singular mode được học tuần tự dưới điều kiện task-aligned initialization và whitened input
- Nếu tuyến tính hóa
nonlinear network bằng khai triển Taylor tại điểm khởi tạo, bài toán sẽ được quy về kernel ridge regression thông qua NTK, và dự đoán hiệu năng kiểm thử khớp khá sát với thực nghiệm trên nhiều tác vụ phân loại nhị phân của CIFAR-5m
- Figure 2 cho thấy chỉ riêng việc dùng hệ số khuếch đại đầu ra lớn hoặc nhỏ cũng đủ để dẫn tới động lực học huấn luyện lazy và rich
- Trong cùng một
shallow student network, khi α = 0.1, trọng số student di chuyển mạnh và tụ lại quanh hướng feature của teacher, thể hiện rich dynamics
- Khi
α = 30, loss giảm nhưng trọng số student hầu như không di chuyển, thể hiện lazy dynamics
1 bình luận
Ý kiến trên Hacker News
Từ góc nhìn của người đang làm trong lĩnh vực này, bài viết này tóm tắt khá tốt những chủ đề nghiên cứu được bàn tới nhiều nhất hiện nay
Đặc biệt, phần open problems ở cuối thực chất đã chỉ ra gần như toàn bộ các hướng nghiên cứu cốt lõi, nên là phần hữu ích nhất
Thấy trong phần bình luận có nhiều ý kiến hoài nghi thì khá tiếc, vì điều đó cho thấy những nghiên cứu như thế này hầu như chưa được truyền tải tới công chúng
Hiện vẫn chưa có nhiều cơ chế cho phép suy ra trực tiếp bằng toán học thiết kế mạng tối ưu, nhưng phần lớn là vì thực nghiệm thường đi nhanh hơn lý thuyết nên nhiều việc chỉ được giải thích hậu nghiệm
Dù vậy, với câu hỏi vì sao mạng nơ-ron hoạt động tốt hơn các mô hình khác, giờ đây chúng ta đã khá gần với một câu trả lời vững chắc
Vấn đề là câu hỏi mà mọi người thực sự tò mò từ đầu lại không phải điều đó, nên có vẻ giờ đã đến giai đoạn phải quyết định xem tiếp theo nên hỏi điều gì
Câu hỏi vì sao nó hoạt động về cơ bản đã được giải xong, và điểm mấu chốt là tối thiểu hóa hiệu quả phần mất mát thông tin bất khả nghịch so với noise floor
Toán học đang chỉ ra những con đường hiệu quả hơn, nhưng ngành này mấy năm nay vẫn lãng phí khi chỉ chăm chăm đẩy mô hình lớn hơn
Một mô hình 70B được làm tốt cũng có thể chạy ở khoảng 16GB mà không mất năng lực, thậm chí còn tiếp tục học được, nhưng vốn vẫn cứ đổ dồn vào bigger
Giờ đây ngành này đã chuyển mục tiêu sang Agency và Long-horizon Persistence, và bước chuyển từ chiếc máy tính dự đoán sang một hệ thống tồn tại bền lâu gần hơn với bài toán nhiệt động lực học phi cân bằng
Ở đây có những toán học và định luật áp dụng nguyên vẹn cho AI, và nguyên lý khiến tín hiệu tồn tại trong mô hình với nguyên lý khiến một tác nhân tồn tại thực ra nối liền bằng gần như cùng một hệ toán học
Chuyên môn của tôi cũng chính là dạng tính bền vững này, nên nhìn AI phải vật lộn học lại các nguyên lý bậc nhất mà lĩnh vực khác đã nắm từ lâu thì thành thật mà nói đôi lúc khá sốt ruột
Vì vậy tôi viết và chia sẻ các tài liệu giải thích toán học đó vận hành ra sao và áp dụng vào từng domain thế nào; đọc xong thì thay vì đoán mò theo cảm tính, bạn sẽ biết chính xác phải cải thiện điều gì để tăng tính bền vững
Những câu hỏi như có thể bắt mô hình làm việc được bao nhiêu giờ thậm chí còn thấy khá dễ thương, vì còn có những câu hỏi bản chất hơn nhiều
Từ góc nhìn cổ điển, hiệu ứng của overparameterization hay các kiến trúc mạng nơ-ron khác quả thực rất khó chấp nhận một cách trực giác
Tôi công nhận double descent có hiệu quả về mặt thực nghiệm, nhưng cảm giác là lẽ ra nó không nên như vậy
Với người rất thích Elements của Hastie và cộng sự, chỉ riêng bias-variance tradeoff thôi cũng khiến kết quả kiểu đó có vẻ khó xuất hiện
Đây là điều khiến tôi băn khoăn nhiều năm nay, nên nếu có tiến triển ở điểm này thì ngay cả ở bình diện triết học cũng sẽ cực kỳ hữu ích
Tôi mới chỉ đọc phần mở đầu nhưng bài viết được viết rất tốt, và kiểu chương trình nghiên cứu như thế này hoàn toàn đáng được ủng hộ
Nó cũng giống như bagging hay boosting, ban đầu thành công nhờ thực nghiệm trước khi có lý thuyết giải thích
Có lẽ ảnh hưởng lớn là do mạng nơ-ron thường bị mô tả như ở thái cực đối lập với linear regression vốn có thể diễn giải theo kiểu cổ điển
Vì kỹ thuật phát triển quá nhanh nên cũng có bầu không khí là nếu nghiên cứu không tạo ra kết quả tức thì thì chẳng ai muốn chờ
Ngay cả các nhà nghiên cứu interpretability dường như cũng thường bỏ cuộc quá sớm nếu chưa thấy kết quả nổi bật ngay lập tức
Nếu có tài liệu tham khảo nào mà cả người ngoài ngành cũng đọc được thì tôi muốn biết
Đúng là chúng xử lý được một tập bài toán rộng hơn nhiều, như ảnh chẳng hạn, nơi ML truyền thống gặp khó, nhưng ở các bài toán có thể so sánh công bằng thì tôi biết có không ít trường hợp gradient boosting cho kết quả tốt hơn
Điều tôi không hiểu là chỗ này
Ý tưởng mạng nơ-ron đã có từ vài chục năm trước nhưng không được chú ý nhiều, rồi sau Attention Is All You Need năm 2017 thì deep learning bùng nổ
Tôi hiểu GPU tăng tốc deep learning, nhưng bản thân khái niệm transformer chẳng phải lẽ ra đã có thể được thử sớm hơn trên phần cứng chậm hơn sao
AlexNet, như trong https://en.wikipedia.org/wiki/AlexNet, đã cho thấy mức cải thiện hiệu năng khác hẳn trước đó tại cuộc thi phân loại ImageNet, và từ đó các phòng lab nghiên cứu ảnh ML lớn đều chuyển hẳn sang deep CNN
Chỉ trong vài năm, các cách tiếp cận khác gần như biến mất khỏi các cuộc thi ảnh SOTA, và sau đó mạng nơ-ron sâu bắt đầu thống trị cả những lĩnh vực ML khác
Cách giải thích phổ biến rốt cuộc là tổ hợp của hai yếu tố
Thứ nhất là lượng tính toán lớn hơn áp đảo so với trước đây, và thứ hai là các bộ dữ liệu chất lượng cao lớn hơn nhiều như ImageNet, vốn được tinh lọc và gán nhãn thủ công
attention đặc biệt hữu ích trong việc học các quan hệ phức tạp trên các chuỗi có cấu trúc thứ tự khá tự do như văn bản, nhưng hiện nay nhiều người xem kiến trúc không phải là bản chất của việc học mà chỉ là một tradeoff khi dữ liệu và compute còn thiếu
Cuối cùng, giống như https://en.wikipedia.org/wiki/Bitter_lesson, nhiều compute hơn và nhiều dữ liệu hơn thường đánh bại các mô hình “thông minh hơn” nhưng khó scale
Con người có khoảng 10^11 nơ-ron, chó khoảng 10^9, chuột khoảng 10^7, và điểm nổi bật ở đây là tất cả đều là những con số khổng lồ
Ngay cả trí thông minh hạn chế như của chuột cũng cần tới hàng chục triệu nơ-ron, và dường như trí thông minh chỉ xuất hiện khi vượt qua một ngưỡng năng lực tính toán nào đó
Có lẽ là vì để xử lý độ phức tạp nội tại của môi trường học tập phức tạp thì cần rất nhiều tham số
Ngược lại, ở các bài toán đơn giản hoặc có cấu trúc rõ ràng thì có nhiều kỹ thuật ít tham số hơn vẫn hoạt động tốt, thậm chí còn được chứng minh là tối ưu
Điều chúng ta gọi là học và trí thông minh thường mặc định một môi trường phức tạp, và độ phức tạp đó về bản chất đòi hỏi số lượng lớn tham số
Nó đã áp đảo cuộc thi, và chỉ vài năm sau thì cách làm đó gần như trở thành tiêu chuẩn cho các tác vụ hình ảnh
Tôi nhớ hình như là Jeremy Howard, từng viết đâu đó vào khoảng năm 2017 rằng bao giờ thì transfer learning mới phát huy trong NLP mạnh như convnet đã làm được với ảnh
Bài báo attention năm đó không lập tức thống trị thế giới, và khi ấy phần cứng cũng còn thiếu, chưa ai đồng thuận rằng scale sẽ giải quyết mọi thứ
Phải mất gần 5 năm nữa cho tới khi GPT-3 nổi lên, và rồi làn sóng hiện tại mới thực sự bắt đầu
Ngoài ra, nhiều người đánh giá quá thấp quy mô compute cần để huấn luyện những con quái vật này; với một bộ xử lý đơn 1GHz thì huấn luyện một mô hình cỡ này mất cỡ 100 triệu năm
Một mô hình cỡ GPT-3 cũng cần khoảng 25.000 GPU chạy trong nhiều tháng, và với bộ nhớ nghèo nàn của GPU cách đây 10 năm thì việc huấn luyện transformer lớn gần như là bất khả thi
K80 ngày xưa chỉ tầm 12GB, còn H100/H200 hiện nay là hàng trăm GB, nên phải nói rằng trước đầu thập niên 2020 thì transformer lớn thực tế chưa thể xây dựng được
Tôi cũng nhớ thời cuối thập niên 2010 các game thủ than phiền giá GPU tăng vọt vì ML
Điều thú vị là trước đó mạng nơ-ron bị xem như thứ không mấy quan trọng
Khi tôi học môn liên quan vào khoảng năm 2000 thì bầu không khí nhìn chung vẫn là như vậy
Cuối cùng để ngọn lửa bùng lại thì vẫn cần dữ liệu huấn luyện khổng lồ như ImageNet cùng với bộ xử lý nhanh hơn
Sau đó, các cải tiến tiếp nối trên những kiến trúc cụ thể cứ thế chồng lên nhau như quả cầu tuyết
Với cộng đồng rộng hơn thì AlexNet là bước ngoặt lớn, nhưng trong nội bộ học thuật thì xu hướng đã đổi chiều từ trước đó 2–3 năm
Tôi bắt đầu thấy từ khoảng 2008–09 rằng các bài thuyết trình về mạng nơ-ron ở workshop không còn bị phớt lờ nữa
Ma trận đã có từ 400 năm trước, nhưng đại số tuyến tính, đặc biệt là đại số tuyến tính số, chỉ thực sự bùng nổ sau khi máy tính xuất hiện
Trước kia giải hệ phương trình bằng lý thuyết minors từng là chuẩn mực, nhưng khi có máy tính thì những lý thuyết như Gaussian elimination hay không gian Krylov phát triển mạnh
Người ta có thể đã hình dung ra, nhưng chưa có phần cứng để hiện thực hóa
Nói đơn giản, LLM rốt cuộc là transformer cộng với một lượng dữ liệu khổng lồ, và để thực sự học được ở quy mô dữ liệu đó thì phần cứng đủ mạnh là điều bắt buộc
Việc dùng một công cụ học tập là bộ não để cố hiểu một công cụ học tập khác thật thú vị
SGD vốn đã hoạt động đủ tốt, và kể cả có làm nó tốt hơn vài lần thì cũng chưa chắc giải được câu hỏi nền tảng về việc chiếc hộp đen đó thực sự đang làm gì
Cách học diễn ra thế nào và bản thân mô hình thực sự đang làm gì là hai vấn đề khác nhau, bởi bộ não của chúng ta cũng là black box trên nhiều phương diện
Vì vậy tôi cảm thấy cần có những mắt xích nối nghiên cứu về cơ chế học với tâm lý học, và với các ý tưởng triết học về bản chất của tư duy và ngôn ngữ
Điều này đáng khích lệ, nhưng tôi nghĩ tiêu đề hơi cường điệu
Có lẽ các điểm đột phá để hiểu deep learning thực sự đang làm gì sẽ chính xác hơn, chỉ là kém bắt mắt hơn
Nếu điều này có thể dẫn tới cách đo được khi nào hệ thống deep learning tạo ra hallucination thì sẽ cực kỳ có giá trị
Trước khi làm được điều đó, hệ thống deep learning vẫn chỉ có thể được dùng một cách hạn chế cho những công việc mà việc nói sai cũng ít gây hại
Ví dụ, chính từ hallucination đã gán ép một ý nghĩa mang tính con người lên đầu ra của LLM
Nếu nhìn theo nguyên lý toán học thật sự thì hallucination cũng chỉ là một đầu ra nữa mà thôi, và không có ranh giới rõ ràng nào được định nghĩa giữa nó với các đầu ra khác
Đây cũng là hướng nghiên cứu chính của tôi nên có thể tôi hơi thiên vị
Cách tiếp cận phổ biến là OOD detection, nhưng tôi luôn cảm thấy ngay từ cách đặt vấn đề thì nó đã không ổn định
Vì vậy tôi và đồng nghiệp đang thử một cách tiếp cận cơ bản hơn là đo misspecification của mô hình, nhưng chi phí tính toán quá cao nên hiện vẫn gần như là một chủ đề ngách
Dù theo hướng nào thì có lẽ vẫn sẽ cần thêm thời gian mới có được đột phá
Đọc cái này khiến tôi thấy nó khá giống vibecoding về mặt khái niệm
Trước hết cứ làm cho cái gì đó chạy được đã, rồi sau đó việc hiểu vì sao nó chạy và nó chạy như thế nào lại là một công việc hoàn toàn khác
Khoan đã, người ta tạo ra thứ mà vẫn chưa hiểu nổi, cũng chưa giải thích được tử tế, rồi bây giờ lại gọi đó là science sao?
Từ hàng chục năm trước đã vay mượn thuật ngữ từ sinh học, đặc biệt là neurobiology, và rốt cuộc cũng có cảm giác như chỉ copy paste bắt chước loài khỉ vậy
Thành thật mà nói thì hai nỗ lực về lý thuyết phổ quát này lại khiến tôi thấy hứng thú hơn
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Tôi cũng tò mò về mối liên hệ với fuzzy logic
Mạng nơ-ron có vẻ như suy luận theo cách mơ hồ, nhưng tôi không rõ về mặt hình thức thì nên gọi đó là gì
Đã có nhiều năm người ta cố hình thức hóa fuzzy reasoning, nhưng giờ dường như chẳng ai còn quan tâm
Cảm giác của tôi là mạng nơ-ron và transformer giống như OOP của ML
Rất nổi tiếng và trong thực tế làm việc khá hiệu quả, nhưng nền tảng thì vẫn còn mờ mịt, giống như diễn đạt lại bằng một ngôn ngữ mới những gì trước đây đã có thể biểu diễn, trong khi rất khó chỉ ra chính xác lợi ích xuất hiện ở đâu
Tôi vẫn chưa đọc hết bài báo, nhưng cảm giác nó được viết thật sự cuốn hút và khá sâu sắc
Có quá nhiều thứ để tiêu hóa, nhưng thấy tất cả nội dung này được gom lại với nhau khiến tôi thấy rất thú vị
Ở cấp độ cao, lý do deep learning hoạt động tốt rốt cuộc là vì nó giỏi hơn các cách tiếp cận khác ở khả năng tiếp tục học từ nhiều dữ liệu hơn
Nhưng nếu không có khối lượng dữ liệu khổng lồ hiện nay thì kiến trúc có lẽ cũng chẳng quan trọng đến thế
Nếu không giải thích được đồng thời cả hai vế của phương trình mô hình-dữ liệu thì sẽ khó xây dựng một lý thuyết khoa học vững chắc cho những câu hỏi như vì sao mô hình reasoning lại suy luận
Mô hình là sản phẩm được tạo nên cùng lúc bởi kiến trúc và dữ liệu huấn luyện
Hiện giờ vấn đề này vẫn mịt mờ chẳng kém gì việc giải thích con người hay động vật học được điều cụ thể nào đó ra sao giữa một lượng dữ liệu đầu vào khổng lồ
Hiểu biết thực nghiệm có thể sẽ tốt lên, nhưng nền tảng cuối cùng có khi lại không thể quy về khoa học máy tính
Tôi cho rằng cốt lõi của độ phức tạp thực sự nằm ở gigadataset hơn là ở kiến trúc
Lý thuyết trở nên cực kỳ quan trọng vào đúng lúc cần dự đoán failure mode
Một hệ thống hỗ trợ ra quyết định phần lớn thời gian có vẻ đúng nhưng lại âm thầm hỏng ở edge case thực ra còn nguy hiểm hơn một hệ thống đơn giản hơn nhưng có giới hạn rõ ràng
Hiểu được cơ chế thiên lệch sẽ giúp phân biệt khi nào mô hình thực sự chắc chắn, và khi nào nó chỉ đang pattern matching
Sự khác biệt này đặc biệt quan trọng trong những môi trường có mức độ rủi ro cao