30 điểm bởi GN⁺ 2025-03-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Có một nhận thức rằng hiện tượng tổng quát hóa (generalization) của các mô hình deep learning khác biệt với các mô hình trước đây và mang tính bí ẩn
  • Overfitting, double descent, overparametrization thường được nhắc đến như những đặc trưng của deep learning
  • Tuy nhiên, các hiện tượng này không chỉ giới hạn ở mạng nơ-ron mà có thể được giải thích bằng các khung tổng quát hóa lâu đời như PAC-Bayes và các cận giả thuyết đếm được
  • Khái niệm "soft inductive biases" là nguyên lý cốt lõi để giải thích các hiện tượng tổng quát hóa này

Soft inductive biases

  • Inductive bias truyền thống hoạt động bằng cách giới hạn không gian giả thuyết để cải thiện khả năng tổng quát hóa
  • Soft inductive biases giữ lại tính linh hoạt của không gian giả thuyết nhưng gán mức độ ưu tiên cho một số nghiệm nhất định
  • Giống như việc CNN duy trì tính cục bộ và bất biến theo tịnh tiến thông qua chia sẻ tham số, nó bổ sung các ràng buộc mềm lên những thuộc tính cụ thể
  • Lý do các mô hình overparameterized vẫn có khả năng tổng quát hóa tốt là vì soft inductive biases đang phát huy tác dụng

Các khung tổng quát hóa

PAC-Bayes và các cận giả thuyết đếm được

  • PAC-Bayes giải thích rủi ro tổng quát hóa bằng rủi ro thực nghiệm và khả năng nén (compressibility) của mô hình
  • Ngay cả mô hình lớn vẫn có thể được đảm bảo khả năng tổng quát hóa tốt nếu mô hình đơn giản và có thể nén được
  • Công thức:
    • rủi ro kỳ vọng ≤ rủi ro thực nghiệm + hạng mục liên quan đến khả năng nén

Số chiều hiệu dụng

  • Số chiều hiệu dụng = số lượng trị riêng lớn trong Hessian của hàm mất mát của mô hình
  • Số chiều hiệu dụng càng thấp thì mô hình càng đơn giản và khả năng tổng quát hóa càng tốt

Các khung tổng quát hóa khác

  • Rademacher complexity, VC dimension và các khái niệm tương tự không giải thích tốt hiện tượng của deep learning
  • PAC-Bayes và các cận giả thuyết đếm được có thể khắc phục vấn đề này

Các hiện tượng chính

Benign overfitting

  • Hiện tượng mô hình học hoàn hảo cả nhiễu nhưng vẫn có khả năng tổng quát hóa tốt
  • Có thể tái hiện benign overfitting ngay cả với các mô hình tuyến tính đơn giản
  • Có thể giải thích bằng PAC-Bayes và các cận giả thuyết đếm được

Overparametrization

  • Dù số lượng tham số nhiều hơn số lượng dữ liệu, mô hình vẫn cho khả năng tổng quát hóa xuất sắc
  • Mô hình lớn có khả năng tổng quát hóa tốt vì sau khi huấn luyện có thể được nén thành cấu trúc đơn giản hơn

Double descent

  • Khi độ phức tạp của mô hình tăng lên, loss giảm rồi tăng, sau đó lại giảm tiếp
  • Có thể tái hiện hiện tượng này cả trong các mô hình tuyến tính
  • Có thể giải thích bằng số chiều hiệu dụng và khả năng nén của mô hình

Góc nhìn thay thế

  • Quan điểm truyền thống cho rằng khả năng tổng quát hóa của deep learning là bí ẩn xuất phát từ việc phụ thuộc vào các khung tổng quát hóa hạn chế
  • Thông qua PAC-Bayes và các cận giả thuyết đếm được, các hiện tượng tổng quát hóa có thể được giải thích
  • Nhận thức rằng khả năng tổng quát hóa của deep learning là bí ẩn có thể chỉ là một định kiến sai lầm

Những yếu tố đặc trưng của deep learning

Học biểu diễn

  • Mạng nơ-ron có khả năng học độ tương đồng của dữ liệu
  • Có thể đo độ tương đồng tốt hơn khoảng cách Euclid trong dữ liệu nhiều chiều
  • Có lợi cho interpolation và extrapolation trong không gian nhiều chiều

Học phổ quát

  • Các mô hình deep learning cho hiệu năng tốt một cách nhất quán trên nhiều miền khác nhau
  • Thể hiện hiệu năng nổi bật trong transfer learning và in-context learning

Mode connectivity

  • Các mô hình được huấn luyện từ những khởi tạo khác nhau có thể được nối với nhau bằng một đường cong đơn giản
  • Được khai thác trong các kỹ thuật huấn luyện như SWA(Stochastic Weight Averaging)

Kết luận và triển vọng

  • Benign overfitting, overparametrization và double descent không phải là các hiện tượng chỉ giới hạn ở mạng nơ-ron
  • Có thể giải thích chúng bằng PAC-Bayes và các cận giả thuyết đếm được
  • Deep learning có sự khác biệt ở những đặc tính như học biểu diễn, học phổ quát và mode connectivity
  • Khả năng tổng quát hóa không bắt nguồn từ độ phức tạp của mô hình mà từ khả năng nén và tính đơn giản của mô hình

1 bình luận

 
GN⁺ 2025-03-18
Ý kiến Hacker News
  • Nếu quan tâm đến machine learning, khóa học "Probability for computer scientists" của Stanford là một nguồn tài liệu rất tốt

    • Khóa học này đi sâu vào lý thuyết xác suất và nền tảng lý thuyết của machine learning
    • Bài giảng của Andrew Ng cũng nổi tiếng, nhưng cần có hiểu biết toán học về đại số tuyến tính
    • Với deep learning, phần giới thiệu trực quan của 3b1b rất hữu ích
  • Độ ổn định của thuật toán mang lại lời giải thích thuyết phục hơn so với các hậu duệ của lý thuyết PAC-Bayes hay VC

    • Có thể xem tài liệu liên quan trong các bài báo trên arXiv
  • Nếu muốn hiểu machine learning, tôi khuyên đọc "The StatQuest Illustrated Guide to Machine Learning" của Josh Starmer

    • Ông là một người dạy xuất sắc, diễn đạt các ý tưởng phức tạp một cách rõ ràng và ngắn gọn
    • Có thể đọc và hiểu dễ dàng nhờ định dạng giống sách thiếu nhi
    • Cuốn sách gần đây về mạng nơ-ron cũng đáng được khuyến nghị
  • DNN không có năng lực khái quát hóa đặc biệt

    • Thậm chí khả năng khái quát hóa có thể kém hơn các kỹ thuật có nguyên tắc toán học như SVM
    • Nếu huấn luyện DNN với bộ dữ liệu "Wine Quality" trong kho dữ liệu machine learning của UCI, sẽ cho kết quả kém và bị overfitting
    • "Phép màu" của LLM đến từ mô hình huấn luyện
    • Có thể dùng mô hình khổng lồ với bộ dữ liệu cực lớn mà không bị overfitting
    • 10 năm trước, nguyên tắc "khả năng tái sử dụng" vẫn chưa rõ ràng
  • Thay vì giới hạn không gian giả thuyết để tránh overfitting, điều quan trọng là chấp nhận một không gian giả thuyết linh hoạt và ưu tiên các lời giải đơn giản phù hợp với dữ liệu

    • Có câu hỏi về việc deep learning thực hiện điều này như thế nào
    • Trước đây người ta dùng cách tiếp cận likelihood có thêm penalty
    • Từng có ấn tượng rằng cách deep learning phạt độ phức tạp thì phức tạp hơn và kém trực quan hơn
  • Khi mới nhập môn deep learning, việc học chứng minh định lý xấp xỉ phổ quát đã giúp ích rất nhiều

    • Khi hiểu vì sao mạng nơ-ron có thể xấp xỉ hàm, sẽ dễ hiểu mọi thứ được xây dựng trên đó hơn
  • Một ví dụ thú vị cho thấy cần mạng "sâu" được thảo luận trong bài báo gần đây về RNN

    • Các mô hình minGRU và minLSTM không mô hình hóa tường minh sự phụ thuộc vào trạng thái, nhưng nếu đủ sâu thì có thể học được điều đó
  • Có ý tưởng thu thập dữ liệu văn bản và tạo thuật toán dự đoán bằng cách lưu khoảng cách giữa các từ

    • Tò mò không biết cách này gần với GPT 2 đến mức nào
  • Tò mò ranh giới nằm ở đâu trong việc cái gì được quy định và quản lý là 'AI'

  • Nơ-ron nhân tạo là hồi quy tuyến tính được thêm hàm kích hoạt để trở thành phi tuyến

    • Khi ghép chúng thành mạng, sẽ xuất hiện những kết quả thú vị