Vì sao phép khớp bình phương tối thiểu trên dữ liệu đơn giản lại trông như có độ chệch

(stats.stackexchange.com)

1 điểm bởi GN⁺ 2026-01-06 | 1 bình luận | Chia sẻ qua WhatsApp

Lý do đường hồi quy tuyến tính bình phương tối thiểu trông dốc hơn thực tế trên dữ liệu kiểm thử đơn giản là do đặc tính của quá trình sinh dữ liệu
Mô hình hồi quy có dạng ( Y = \beta_0 + \beta_1 X + \varepsilon ) dưới giả định hạng sai số độc lập với X
Khi phương sai của sai số tăng, độ phân tán của dữ liệu theo phương thẳng đứng tăng lên, và hướng thành phần chính của PCA dần trở nên gần với phương thẳng đứng hơn
Ngược lại, khi phương sai của X lớn hơn nhiều so với sai số, PCA và đường hồi quy OLS gần như trùng nhau
Sự khác biệt này xuất phát từ việc PCA và OLS có mục tiêu khác nhau (tối đa hóa phương sai so với tối thiểu hóa sai số), nên về mặt trực quan chúng cho kết quả khác nhau tùy theo hình dạng phân bố của dữ liệu

Mô hình hồi quy và quá trình sinh dữ liệu

OLS đơn giản (phương pháp bình phương tối thiểu) có dạng ( Y = \beta_0 + \beta_1 X + \varepsilon ), với giả định rằng X và hạng sai số (\varepsilon) độc lập với nhau
Khi hạng sai số bằng 0, mọi điểm đều nằm trên đường hồi quy, và hướng thành phần chính của PCA trùng với đường hồi quy
Khi thêm sai số, phương sai theo phương thẳng đứng tăng lên, và PCA phản ánh phương sai này bằng cách chọn hướng có độ dốc lớn hơn làm thành phần chính

Trường hợp phương sai sai số chiếm ưu thế

Từ quan hệ ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ), nếu
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) thì phần lớn biến thiên tập trung theo phương thẳng đứng
Khi đó, hướng thành phần chính của PCA gần như thẳng đứng, tức là trông dốc hơn đường hồi quy
Ngược lại, nếu ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) thì PCA và OLS gần như trùng nhau

Elip hiệp phương sai và hình dạng phân bố

Elip hiệp phương sai (covariance ellipse) chỉ thể hiện tốt hình dạng dữ liệu khi ( (X, Y) ) tuân theo phân phối chuẩn chung
Ngay cả khi phân bố của X là nhị thức, đều, hai đỉnh (bimodal), tam giác, v.v.,
nếu phương sai của X lớn thì PCA và đường hồi quy trùng nhau, còn nếu sai số lớn thì PCA sẽ dịch về hướng thẳng đứng
Elip biểu diễn tính định hướng của dữ liệu, nhưng không mô tả chính xác mật độ hay hình dạng phân bố thực tế

Bản chất của X và các cân nhắc khi mô hình hóa

Trong mã, hàm make_y_from_x sinh ra Y như một hàm tuyến tính của X cộng với nhiễu Gaussian IID, phù hợp với các giả định của OLS
X không nhất thiết phải là biến ngẫu nhiên; nó cũng có thể là các giá trị cố định tùy theo thiết kế thí nghiệm
Elip hiệp phương sai xử lý X và Y một cách đối xứng, nhưng quá trình sinh dữ liệu thực tế lại bất đối xứng

Tóm tắt cốt lõi

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA và OLS trùng nhau
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA dịch về hướng thẳng đứng
X không nhất thiết phải là biến ngẫu nhiên, cũng không cần tuân theo phân phối chuẩn
PCA tập trung vào hướng của phương sai, còn OLS tập trung vào việc tối thiểu hóa sai số dự đoán, nên kết quả có thể khác nhau

1 bình luận

GN⁺ 2026-01-06

Ý kiến trên Hacker News

Hồi quy tuyến tính (Linear Regression), tức Ordinary Least Squares (OLS), giả định rằng chỉ Y có nhiễu còn X là chính xác
Trong khi đó, cách tiếp cận xem cả X và Y đều có nhiễu theo trực quan thị giác được gọi là Total Least Squares (TLS)
- Nhìn vào hình minh họa Total Least Squares trên Wikipedia thì có thể hiểu trực quan
- Nếu đổi x và y rồi tính lại độ dốc, bạn sẽ phần nào thấy TLS đang làm gì
Trước đây một giáo sư QuantSci từng hỏi: “Hãy nêu một kịch bản thu thập dữ liệu mà dữ liệu x hoàn toàn không có sai số”
Vì vậy họ dạy rằng nhìn chung nên ưu tiên hồi quy Deming hơn (Deming regression)
- Trong phần lớn dữ liệu cảm biến, nhiễu trên trục Y lớn hơn rất nhiều so với trục X
  Ví dụ, với cảm biến lấy mẫu ở 1kHz, nhiễu nội tại của cảm biến thường lớn hơn nhiều so với clock jitter của MCU
- Trong hồi quy Deming, delta (δ) là tỷ lệ giữa phương sai của y và phương sai của x
  Nếu phương sai của x rất nhỏ thì delta sẽ lớn, có thể dẫn đến mô hình có condition number kém
- Trong lĩnh vực của tôi, jitter đo lường của dữ liệu X dưới 10ns, nên trên thực tế gần như có thể xem là không có lỗi
- OLS đặc biệt ở chỗ nó là BLUE (Best Linear Unbiased Estimator), tức bộ ước lượng tuyến tính không chệch có phương sai nhỏ nhất
- Trong đa số chuỗi thời gian, nhiễu đo thời gian có thể bỏ qua, nhưng với các biến khác như tọa độ GPS thì có thể xuất hiện hiện tượng ghép cặp phức tạp
Hồi quy tuyến tính chỉ mô hình hóa nhiễu của Y, nhưng ellipse/eigenvector của PCA thì xét đến nhiễu của cả X và Y
- Điều thú vị là trong nhiều hệ thống, nhiễu của Y lớn hơn X
  Ví dụ, trong bộ chuyển đổi tương tự-số, thời gian ổn định nhờ tinh thể dao động, còn giá trị đo thì không như vậy
- Khi phân tích dữ liệu để tìm đường xu hướng, có lẽ nên dùng hướng eigenvector của PCA thì tốt hơn?
- Sẽ rất thú vị nếu huấn luyện mạng nơ-ron với giả định rằng cả đầu vào lẫn đầu ra đều có nhiễu
- Nếu biết rằng Y “ồn” hơn X gấp n lần, liệu có thể tận dụng thông tin đó để fitting tốt hơn không?
Đã lâu rồi tôi không đụng đến thống kê, nên tôi không hiểu vì sao nhất định phải dùng bình phương (squares)
Có 1 lũy thừa, 3 lũy thừa, 4 lũy thừa, v.v., vậy tại sao lúc nào cũng là bình phương?
- Tối thiểu hóa tổng bình phương cho ta ước lượng hợp lý cực đại (MLE) khi giả định sai số có phân phối chuẩn iid
  Nếu phân phối sai số khác đi thì hàm mất mát khác có thể phù hợp hơn
  Ví dụ, Huber loss hoạt động theo kiểu bình phương với sai số nhỏ, tuyến tính với sai số lớn nên bền vững hơn trước ngoại lệ
  Công thức chi tiết có thể xem ở trang 352–353 của Convex Optimization của Boyd & Vandenberghe
  Ngoài ra, ANOVA dựa trên định lý Pythagoras nên các hạng bình phương là thiết yếu
- Giá trị trung bình tối thiểu hóa chuẩn L2, nên nếu nhìn OLS từ góc độ biến ngẫu nhiên thì L2 xuất hiện một cách tự nhiên như cách ước lượng kỳ vọng có điều kiện E[Y|X]
  Định lý Gauss–Markov đảm bảo bộ ước lượng này không chệch và có phương sai tối thiểu
- Lũy thừa 1 không cho nghiệm duy nhất. Ví dụ với ba điểm (0,0), (1,0), (1,1), thì mọi a trong khoảng 0~1 đều cho cùng tổng sai số
  Các số mũ nhỏ hơn 1 còn có tính chất kỳ lạ là thích một sai số lớn hơn nhiều sai số nhỏ
  Trong khi đó, bình phương dễ xử lý về mặt toán học và cũng có tính chất số học tốt trong hồi quy tuyến tính đơn
- Mục Least Squares trên Wikipedia có tổng hợp nhiều cách tiếp cận khác nhau
  Các hạng bậc cao từ lũy thừa 4 trở lên có nhiều cực trị cục bộ, đạo hàm phức tạp hơn nên kém đơn giản về mặt tính toán
- Nói ngắn gọn, abs không khả vi gần 0, lũy thừa 4 quá nhạy với nhiễu, còn lũy thừa 3 làm mất tính tuyến tính của phương sai
Phần lớn nội dung trong thread này thực ra đã được thảo luận khá đầy đủ trên StackExchange
Không dễ để đưa ra góc nhìn mới
- Câu trả lời trên StackExchange vốn đã khá hoàn chỉnh rồi
  Cùng lắm chỉ thú vị như một quan sát toán học
- Dù vậy, đưa chủ đề như thế này lên vẫn có ý nghĩa vì nó cho phép trò chuyện tự do hơn so với StackExchange
- Có lẽ đây là kiểu câu trả lời quá chín chắn đối với diễn đàn này
Least Squares và PCA tối thiểu hóa các hàm mất mát khác nhau
Cái trước tối thiểu hóa tổng bình phương khoảng cách theo trục Y, cái sau tối thiểu hóa tổng bình phương khoảng cách trực giao đến đường thẳng
- Vậy thì vì sao đường bình phương tối thiểu lại trông như nghiêng xuống dưới? Hướng của nó có vẻ khá tùy ý
- Nếu xem least squares là quá trình khớp với phân phối Gaussian thì sẽ dễ hiểu hơn
Nếu hồi quy y theo x, rồi hồi quy x theo y, bạn sẽ nhận được hai đường thẳng khác nhau
Tôi từng phát hiện điều này trong giờ học và khá bối rối. Khi đó tôi đã nghĩ liệu chuẩn hóa có giải quyết được không
- Nhưng cách đúng để loại bỏ thiên lệch không phải là chuẩn hóa, mà là dùng kỹ thuật hồi quy độc lập với hệ tọa độ
Bổ sung về mặt thuật ngữ: mô hình bình phương tối thiểu cho ra dự đoán có sai số trung bình bằng 0, tức dự đoán không chệch về mặt thống kê, bất kể x có nhiễu hay không
Khi xem kết quả hồi quy, đường thẳng có thể trông sai bằng mắt thường nhưng thực ra mô hình vẫn đúng
Muốn kiểm tra độ dốc có đúng không, hãy xem tại một giá trị x cụ thể thì phần dư (residual) có cân bằng về hai phía hay không
Ví dụ, nếu tạo dữ liệu theo y = 1.5x + noise, đường hồi quy thường khôi phục khá đúng độ dốc 1.5, dù nhìn bằng mắt có thể thấy hơi kỳ
- So sánh biểu đồ phần dư sẽ là cách kiểm tra rõ ràng nhất
Vấn đề này thường được gọi là Regression Dilution (liên kết Wikipedia)
- Nhưng Regression Dilution là trường hợp đường hồi quy bị lệch do lỗi trong dữ liệu X
  Câu hỏi trên StackExchange đang hỏi rằng ngay cả khi X không có lỗi thì vì sao đường hồi quy vẫn không trùng với trục ellipse 3σ
  Câu trả lời này cho thấy một ví dụ mà lỗi của X bằng 0

Vì sao phép khớp bình phương tối thiểu trên dữ liệu đơn giản lại trông như có độ chệch

Mô hình hồi quy và quá trình sinh dữ liệu

Trường hợp phương sai sai số chiếm ưu thế

Elip hiệp phương sai và hình dạng phân bố

Bản chất của X và các cân nhắc khi mô hình hóa

Tóm tắt cốt lõi

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News