- Lý do đường hồi quy tuyến tính bình phương tối thiểu trông dốc hơn thực tế trên dữ liệu kiểm thử đơn giản là do đặc tính của quá trình sinh dữ liệu
- Mô hình hồi quy có dạng ( Y = \beta_0 + \beta_1 X + \varepsilon ) dưới giả định hạng sai số độc lập với X
- Khi phương sai của sai số tăng, độ phân tán của dữ liệu theo phương thẳng đứng tăng lên, và hướng thành phần chính của PCA dần trở nên gần với phương thẳng đứng hơn
- Ngược lại, khi phương sai của X lớn hơn nhiều so với sai số, PCA và đường hồi quy OLS gần như trùng nhau
- Sự khác biệt này xuất phát từ việc PCA và OLS có mục tiêu khác nhau (tối đa hóa phương sai so với tối thiểu hóa sai số), nên về mặt trực quan chúng cho kết quả khác nhau tùy theo hình dạng phân bố của dữ liệu
Mô hình hồi quy và quá trình sinh dữ liệu
- OLS đơn giản (phương pháp bình phương tối thiểu) có dạng ( Y = \beta_0 + \beta_1 X + \varepsilon ), với giả định rằng X và hạng sai số (\varepsilon) độc lập với nhau
- Khi hạng sai số bằng 0, mọi điểm đều nằm trên đường hồi quy, và hướng thành phần chính của PCA trùng với đường hồi quy
- Khi thêm sai số, phương sai theo phương thẳng đứng tăng lên, và PCA phản ánh phương sai này bằng cách chọn hướng có độ dốc lớn hơn làm thành phần chính
Trường hợp phương sai sai số chiếm ưu thế
- Từ quan hệ ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ), nếu
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) thì phần lớn biến thiên tập trung theo phương thẳng đứng
- Khi đó, hướng thành phần chính của PCA gần như thẳng đứng, tức là trông dốc hơn đường hồi quy
- Ngược lại, nếu ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) thì PCA và OLS gần như trùng nhau
Elip hiệp phương sai và hình dạng phân bố
- Elip hiệp phương sai (covariance ellipse) chỉ thể hiện tốt hình dạng dữ liệu khi ( (X, Y) ) tuân theo phân phối chuẩn chung
- Ngay cả khi phân bố của X là nhị thức, đều, hai đỉnh (bimodal), tam giác, v.v.,
nếu phương sai của X lớn thì PCA và đường hồi quy trùng nhau, còn nếu sai số lớn thì PCA sẽ dịch về hướng thẳng đứng
- Elip biểu diễn tính định hướng của dữ liệu, nhưng không mô tả chính xác mật độ hay hình dạng phân bố thực tế
Bản chất của X và các cân nhắc khi mô hình hóa
- Trong mã, hàm
make_y_from_x sinh ra Y như một hàm tuyến tính của X cộng với nhiễu Gaussian IID, phù hợp với các giả định của OLS
- X không nhất thiết phải là biến ngẫu nhiên; nó cũng có thể là các giá trị cố định tùy theo thiết kế thí nghiệm
- Elip hiệp phương sai xử lý X và Y một cách đối xứng, nhưng quá trình sinh dữ liệu thực tế lại bất đối xứng
Tóm tắt cốt lõi
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA và OLS trùng nhau
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA dịch về hướng thẳng đứng
- X không nhất thiết phải là biến ngẫu nhiên, cũng không cần tuân theo phân phối chuẩn
- PCA tập trung vào hướng của phương sai, còn OLS tập trung vào việc tối thiểu hóa sai số dự đoán, nên kết quả có thể khác nhau
1 bình luận
Ý kiến trên Hacker News
Trong khi đó, cách tiếp cận xem cả X và Y đều có nhiễu theo trực quan thị giác được gọi là Total Least Squares (TLS)
Vì vậy họ dạy rằng nhìn chung nên ưu tiên hồi quy Deming hơn (Deming regression)
Ví dụ, với cảm biến lấy mẫu ở 1kHz, nhiễu nội tại của cảm biến thường lớn hơn nhiều so với clock jitter của MCU
Nếu phương sai của x rất nhỏ thì delta sẽ lớn, có thể dẫn đến mô hình có condition number kém
Ví dụ, trong bộ chuyển đổi tương tự-số, thời gian ổn định nhờ tinh thể dao động, còn giá trị đo thì không như vậy
Có 1 lũy thừa, 3 lũy thừa, 4 lũy thừa, v.v., vậy tại sao lúc nào cũng là bình phương?
Nếu phân phối sai số khác đi thì hàm mất mát khác có thể phù hợp hơn
Ví dụ, Huber loss hoạt động theo kiểu bình phương với sai số nhỏ, tuyến tính với sai số lớn nên bền vững hơn trước ngoại lệ
Công thức chi tiết có thể xem ở trang 352–353 của Convex Optimization của Boyd & Vandenberghe
Ngoài ra, ANOVA dựa trên định lý Pythagoras nên các hạng bình phương là thiết yếu
Định lý Gauss–Markov đảm bảo bộ ước lượng này không chệch và có phương sai tối thiểu
Các số mũ nhỏ hơn 1 còn có tính chất kỳ lạ là thích một sai số lớn hơn nhiều sai số nhỏ
Trong khi đó, bình phương dễ xử lý về mặt toán học và cũng có tính chất số học tốt trong hồi quy tuyến tính đơn
Các hạng bậc cao từ lũy thừa 4 trở lên có nhiều cực trị cục bộ, đạo hàm phức tạp hơn nên kém đơn giản về mặt tính toán
abskhông khả vi gần 0, lũy thừa 4 quá nhạy với nhiễu, còn lũy thừa 3 làm mất tính tuyến tính của phương saiKhông dễ để đưa ra góc nhìn mới
Cùng lắm chỉ thú vị như một quan sát toán học
Cái trước tối thiểu hóa tổng bình phương khoảng cách theo trục Y, cái sau tối thiểu hóa tổng bình phương khoảng cách trực giao đến đường thẳng
Tôi từng phát hiện điều này trong giờ học và khá bối rối. Khi đó tôi đã nghĩ liệu chuẩn hóa có giải quyết được không
Muốn kiểm tra độ dốc có đúng không, hãy xem tại một giá trị x cụ thể thì phần dư (residual) có cân bằng về hai phía hay không
Ví dụ, nếu tạo dữ liệu theo
y = 1.5x + noise, đường hồi quy thường khôi phục khá đúng độ dốc 1.5, dù nhìn bằng mắt có thể thấy hơi kỳCâu hỏi trên StackExchange đang hỏi rằng ngay cả khi X không có lỗi thì vì sao đường hồi quy vẫn không trùng với trục ellipse 3σ
Câu trả lời này cho thấy một ví dụ mà lỗi của X bằng 0