Deep learning không quá bí ẩn hay khác biệt đến vậy

(arxiv.org)

30 điểm bởi GN⁺ 2025-03-18 | 1 bình luận | Chia sẻ qua WhatsApp

Có một nhận thức rằng hiện tượng tổng quát hóa (generalization) của các mô hình deep learning khác biệt với các mô hình trước đây và mang tính bí ẩn
Overfitting, double descent, overparametrization thường được nhắc đến như những đặc trưng của deep learning
Tuy nhiên, các hiện tượng này không chỉ giới hạn ở mạng nơ-ron mà có thể được giải thích bằng các khung tổng quát hóa lâu đời như PAC-Bayes và các cận giả thuyết đếm được
Khái niệm "soft inductive biases" là nguyên lý cốt lõi để giải thích các hiện tượng tổng quát hóa này

Soft inductive biases

Inductive bias truyền thống hoạt động bằng cách giới hạn không gian giả thuyết để cải thiện khả năng tổng quát hóa
Soft inductive biases giữ lại tính linh hoạt của không gian giả thuyết nhưng gán mức độ ưu tiên cho một số nghiệm nhất định
Giống như việc CNN duy trì tính cục bộ và bất biến theo tịnh tiến thông qua chia sẻ tham số, nó bổ sung các ràng buộc mềm lên những thuộc tính cụ thể
Lý do các mô hình overparameterized vẫn có khả năng tổng quát hóa tốt là vì soft inductive biases đang phát huy tác dụng

Các khung tổng quát hóa

PAC-Bayes và các cận giả thuyết đếm được

PAC-Bayes giải thích rủi ro tổng quát hóa bằng rủi ro thực nghiệm và khả năng nén (compressibility) của mô hình
Ngay cả mô hình lớn vẫn có thể được đảm bảo khả năng tổng quát hóa tốt nếu mô hình đơn giản và có thể nén được
Công thức:
- rủi ro kỳ vọng ≤ rủi ro thực nghiệm + hạng mục liên quan đến khả năng nén

Số chiều hiệu dụng

Số chiều hiệu dụng = số lượng trị riêng lớn trong Hessian của hàm mất mát của mô hình
Số chiều hiệu dụng càng thấp thì mô hình càng đơn giản và khả năng tổng quát hóa càng tốt

Các khung tổng quát hóa khác

Rademacher complexity, VC dimension và các khái niệm tương tự không giải thích tốt hiện tượng của deep learning
PAC-Bayes và các cận giả thuyết đếm được có thể khắc phục vấn đề này

Các hiện tượng chính

Benign overfitting

Hiện tượng mô hình học hoàn hảo cả nhiễu nhưng vẫn có khả năng tổng quát hóa tốt
Có thể tái hiện benign overfitting ngay cả với các mô hình tuyến tính đơn giản
Có thể giải thích bằng PAC-Bayes và các cận giả thuyết đếm được

Overparametrization

Dù số lượng tham số nhiều hơn số lượng dữ liệu, mô hình vẫn cho khả năng tổng quát hóa xuất sắc
Mô hình lớn có khả năng tổng quát hóa tốt vì sau khi huấn luyện có thể được nén thành cấu trúc đơn giản hơn

Double descent

Khi độ phức tạp của mô hình tăng lên, loss giảm rồi tăng, sau đó lại giảm tiếp
Có thể tái hiện hiện tượng này cả trong các mô hình tuyến tính
Có thể giải thích bằng số chiều hiệu dụng và khả năng nén của mô hình

Góc nhìn thay thế

Quan điểm truyền thống cho rằng khả năng tổng quát hóa của deep learning là bí ẩn xuất phát từ việc phụ thuộc vào các khung tổng quát hóa hạn chế
Thông qua PAC-Bayes và các cận giả thuyết đếm được, các hiện tượng tổng quát hóa có thể được giải thích
Nhận thức rằng khả năng tổng quát hóa của deep learning là bí ẩn có thể chỉ là một định kiến sai lầm

Những yếu tố đặc trưng của deep learning

Học biểu diễn

Mạng nơ-ron có khả năng học độ tương đồng của dữ liệu
Có thể đo độ tương đồng tốt hơn khoảng cách Euclid trong dữ liệu nhiều chiều
Có lợi cho interpolation và extrapolation trong không gian nhiều chiều

Học phổ quát

Các mô hình deep learning cho hiệu năng tốt một cách nhất quán trên nhiều miền khác nhau
Thể hiện hiệu năng nổi bật trong transfer learning và in-context learning

Mode connectivity

Các mô hình được huấn luyện từ những khởi tạo khác nhau có thể được nối với nhau bằng một đường cong đơn giản
Được khai thác trong các kỹ thuật huấn luyện như SWA(Stochastic Weight Averaging)

Kết luận và triển vọng

Benign overfitting, overparametrization và double descent không phải là các hiện tượng chỉ giới hạn ở mạng nơ-ron
Có thể giải thích chúng bằng PAC-Bayes và các cận giả thuyết đếm được
Deep learning có sự khác biệt ở những đặc tính như học biểu diễn, học phổ quát và mode connectivity
Khả năng tổng quát hóa không bắt nguồn từ độ phức tạp của mô hình mà từ khả năng nén và tính đơn giản của mô hình

1 bình luận

GN⁺ 2025-03-18

Ý kiến Hacker News

Nếu quan tâm đến machine learning, khóa học "Probability for computer scientists" của Stanford là một nguồn tài liệu rất tốt
- Khóa học này đi sâu vào lý thuyết xác suất và nền tảng lý thuyết của machine learning
- Bài giảng của Andrew Ng cũng nổi tiếng, nhưng cần có hiểu biết toán học về đại số tuyến tính
- Với deep learning, phần giới thiệu trực quan của 3b1b rất hữu ích
Độ ổn định của thuật toán mang lại lời giải thích thuyết phục hơn so với các hậu duệ của lý thuyết PAC-Bayes hay VC
- Có thể xem tài liệu liên quan trong các bài báo trên arXiv
Nếu muốn hiểu machine learning, tôi khuyên đọc "The StatQuest Illustrated Guide to Machine Learning" của Josh Starmer
- Ông là một người dạy xuất sắc, diễn đạt các ý tưởng phức tạp một cách rõ ràng và ngắn gọn
- Có thể đọc và hiểu dễ dàng nhờ định dạng giống sách thiếu nhi
- Cuốn sách gần đây về mạng nơ-ron cũng đáng được khuyến nghị
DNN không có năng lực khái quát hóa đặc biệt
- Thậm chí khả năng khái quát hóa có thể kém hơn các kỹ thuật có nguyên tắc toán học như SVM
- Nếu huấn luyện DNN với bộ dữ liệu "Wine Quality" trong kho dữ liệu machine learning của UCI, sẽ cho kết quả kém và bị overfitting
- "Phép màu" của LLM đến từ mô hình huấn luyện
- Có thể dùng mô hình khổng lồ với bộ dữ liệu cực lớn mà không bị overfitting
- 10 năm trước, nguyên tắc "khả năng tái sử dụng" vẫn chưa rõ ràng
Thay vì giới hạn không gian giả thuyết để tránh overfitting, điều quan trọng là chấp nhận một không gian giả thuyết linh hoạt và ưu tiên các lời giải đơn giản phù hợp với dữ liệu
- Có câu hỏi về việc deep learning thực hiện điều này như thế nào
- Trước đây người ta dùng cách tiếp cận likelihood có thêm penalty
- Từng có ấn tượng rằng cách deep learning phạt độ phức tạp thì phức tạp hơn và kém trực quan hơn
Khi mới nhập môn deep learning, việc học chứng minh định lý xấp xỉ phổ quát đã giúp ích rất nhiều
- Khi hiểu vì sao mạng nơ-ron có thể xấp xỉ hàm, sẽ dễ hiểu mọi thứ được xây dựng trên đó hơn
Một ví dụ thú vị cho thấy cần mạng "sâu" được thảo luận trong bài báo gần đây về RNN
- Các mô hình minGRU và minLSTM không mô hình hóa tường minh sự phụ thuộc vào trạng thái, nhưng nếu đủ sâu thì có thể học được điều đó
Có ý tưởng thu thập dữ liệu văn bản và tạo thuật toán dự đoán bằng cách lưu khoảng cách giữa các từ
- Tò mò không biết cách này gần với GPT 2 đến mức nào
Tò mò ranh giới nằm ở đâu trong việc cái gì được quy định và quản lý là 'AI'
Nơ-ron nhân tạo là hồi quy tuyến tính được thêm hàm kích hoạt để trở thành phi tuyến
- Khi ghép chúng thành mạng, sẽ xuất hiện những kết quả thú vị

Deep learning không quá bí ẩn hay khác biệt đến vậy

Soft inductive biases

Các khung tổng quát hóa

PAC-Bayes và các cận giả thuyết đếm được

Số chiều hiệu dụng

Các khung tổng quát hóa khác

Các hiện tượng chính

Benign overfitting

Overparametrization

Double descent

Góc nhìn thay thế

Những yếu tố đặc trưng của deep learning

Học biểu diễn

Học phổ quát

Mode connectivity

Kết luận và triển vọng

Bài viết liên quan

1 bình luận

Ý kiến Hacker News