- Có một nhận thức rằng hiện tượng tổng quát hóa (generalization) của các mô hình deep learning khác biệt với các mô hình trước đây và mang tính bí ẩn
- Overfitting, double descent, overparametrization thường được nhắc đến như những đặc trưng của deep learning
- Tuy nhiên, các hiện tượng này không chỉ giới hạn ở mạng nơ-ron mà có thể được giải thích bằng các khung tổng quát hóa lâu đời như PAC-Bayes và các cận giả thuyết đếm được
- Khái niệm "soft inductive biases" là nguyên lý cốt lõi để giải thích các hiện tượng tổng quát hóa này
Soft inductive biases
- Inductive bias truyền thống hoạt động bằng cách giới hạn không gian giả thuyết để cải thiện khả năng tổng quát hóa
- Soft inductive biases giữ lại tính linh hoạt của không gian giả thuyết nhưng gán mức độ ưu tiên cho một số nghiệm nhất định
- Giống như việc CNN duy trì tính cục bộ và bất biến theo tịnh tiến thông qua chia sẻ tham số, nó bổ sung các ràng buộc mềm lên những thuộc tính cụ thể
- Lý do các mô hình overparameterized vẫn có khả năng tổng quát hóa tốt là vì soft inductive biases đang phát huy tác dụng
Các khung tổng quát hóa
PAC-Bayes và các cận giả thuyết đếm được
- PAC-Bayes giải thích rủi ro tổng quát hóa bằng rủi ro thực nghiệm và khả năng nén (compressibility) của mô hình
- Ngay cả mô hình lớn vẫn có thể được đảm bảo khả năng tổng quát hóa tốt nếu mô hình đơn giản và có thể nén được
- Công thức:
- rủi ro kỳ vọng ≤ rủi ro thực nghiệm + hạng mục liên quan đến khả năng nén
Số chiều hiệu dụng
- Số chiều hiệu dụng = số lượng trị riêng lớn trong Hessian của hàm mất mát của mô hình
- Số chiều hiệu dụng càng thấp thì mô hình càng đơn giản và khả năng tổng quát hóa càng tốt
Các khung tổng quát hóa khác
- Rademacher complexity, VC dimension và các khái niệm tương tự không giải thích tốt hiện tượng của deep learning
- PAC-Bayes và các cận giả thuyết đếm được có thể khắc phục vấn đề này
Các hiện tượng chính
Benign overfitting
- Hiện tượng mô hình học hoàn hảo cả nhiễu nhưng vẫn có khả năng tổng quát hóa tốt
- Có thể tái hiện benign overfitting ngay cả với các mô hình tuyến tính đơn giản
- Có thể giải thích bằng PAC-Bayes và các cận giả thuyết đếm được
Overparametrization
- Dù số lượng tham số nhiều hơn số lượng dữ liệu, mô hình vẫn cho khả năng tổng quát hóa xuất sắc
- Mô hình lớn có khả năng tổng quát hóa tốt vì sau khi huấn luyện có thể được nén thành cấu trúc đơn giản hơn
Double descent
- Khi độ phức tạp của mô hình tăng lên, loss giảm rồi tăng, sau đó lại giảm tiếp
- Có thể tái hiện hiện tượng này cả trong các mô hình tuyến tính
- Có thể giải thích bằng số chiều hiệu dụng và khả năng nén của mô hình
Góc nhìn thay thế
- Quan điểm truyền thống cho rằng khả năng tổng quát hóa của deep learning là bí ẩn xuất phát từ việc phụ thuộc vào các khung tổng quát hóa hạn chế
- Thông qua PAC-Bayes và các cận giả thuyết đếm được, các hiện tượng tổng quát hóa có thể được giải thích
- Nhận thức rằng khả năng tổng quát hóa của deep learning là bí ẩn có thể chỉ là một định kiến sai lầm
Những yếu tố đặc trưng của deep learning
Học biểu diễn
- Mạng nơ-ron có khả năng học độ tương đồng của dữ liệu
- Có thể đo độ tương đồng tốt hơn khoảng cách Euclid trong dữ liệu nhiều chiều
- Có lợi cho interpolation và extrapolation trong không gian nhiều chiều
Học phổ quát
- Các mô hình deep learning cho hiệu năng tốt một cách nhất quán trên nhiều miền khác nhau
- Thể hiện hiệu năng nổi bật trong transfer learning và in-context learning
Mode connectivity
- Các mô hình được huấn luyện từ những khởi tạo khác nhau có thể được nối với nhau bằng một đường cong đơn giản
- Được khai thác trong các kỹ thuật huấn luyện như SWA(Stochastic Weight Averaging)
Kết luận và triển vọng
- Benign overfitting, overparametrization và double descent không phải là các hiện tượng chỉ giới hạn ở mạng nơ-ron
- Có thể giải thích chúng bằng PAC-Bayes và các cận giả thuyết đếm được
- Deep learning có sự khác biệt ở những đặc tính như học biểu diễn, học phổ quát và mode connectivity
- Khả năng tổng quát hóa không bắt nguồn từ độ phức tạp của mô hình mà từ khả năng nén và tính đơn giản của mô hình
1 bình luận
Ý kiến Hacker News
Nếu quan tâm đến machine learning, khóa học "Probability for computer scientists" của Stanford là một nguồn tài liệu rất tốt
Độ ổn định của thuật toán mang lại lời giải thích thuyết phục hơn so với các hậu duệ của lý thuyết PAC-Bayes hay VC
Nếu muốn hiểu machine learning, tôi khuyên đọc "The StatQuest Illustrated Guide to Machine Learning" của Josh Starmer
DNN không có năng lực khái quát hóa đặc biệt
Thay vì giới hạn không gian giả thuyết để tránh overfitting, điều quan trọng là chấp nhận một không gian giả thuyết linh hoạt và ưu tiên các lời giải đơn giản phù hợp với dữ liệu
Khi mới nhập môn deep learning, việc học chứng minh định lý xấp xỉ phổ quát đã giúp ích rất nhiều
Một ví dụ thú vị cho thấy cần mạng "sâu" được thảo luận trong bài báo gần đây về RNN
Có ý tưởng thu thập dữ liệu văn bản và tạo thuật toán dự đoán bằng cách lưu khoảng cách giữa các từ
Tò mò ranh giới nằm ở đâu trong việc cái gì được quy định và quản lý là 'AI'
Nơ-ron nhân tạo là hồi quy tuyến tính được thêm hàm kích hoạt để trở thành phi tuyến