1 điểm bởi GN⁺ 2024-08-01 | 1 bình luận | Chia sẻ qua WhatsApp

Sự thật về hồi quy tuyến tính

  • Giới thiệu

    • Tài liệu này dựa trên ghi chú bài giảng được viết vào mùa thu năm 2015 khi giảng dạy môn 36-401, Hồi quy hiện đại
    • Có thể hữu ích cho những người học hoặc giảng dạy hồi quy tuyến tính
    • Giảm bớt sự phụ thuộc vào nhiễu Gaussian và mô hình tuyến tính được chỉ định chính xác trong lý thuyết hiện có, đồng thời nhấn mạnh các kỹ thuật vững chắc hơn dù đòi hỏi tính toán nhiều hơn
  • Toàn văn PDF

    • Tệp dữ liệu
    • Mã R cho từng chương
    • Dàn ý hiện tại
  • Dự báo tối ưu

    • Giới thiệu về mô hình hóa thống kê
    • Gợi ý về mô hình hồi quy tuyến tính đơn và ước lượng
  • Phương pháp bình phương tối thiểu cho hồi quy tuyến tính đơn

    • Phương pháp hợp lý tối đa cho hồi quy tuyến tính đơn
    • Chẩn đoán và hiệu chỉnh hồi quy đơn
    • Suy luận về tham số
    • Suy luận dự báo cho mô hình tuyến tính đơn
    • Diễn giải tham số sau biến đổi
    • Kiểm định F, R^2 và các lưu ý khác
    • Hồi quy tuyến tính đơn ở dạng ma trận
  • Hồi quy tuyến tính bội

    • Chẩn đoán và suy luận cho hồi quy tuyến tính bội
    • Hồi quy đa thức và hồi quy phân loại
    • Đa cộng tuyến
    • Kiểm định và khoảng tin cậy
    • Tương tác
    • Ngoại lệ và các điểm có ảnh hưởng mạnh
    • Lựa chọn mô hình
    • Ôn tập
    • Phương pháp bình phương tối thiểu có trọng số và tổng quát hóa
    • Lựa chọn biến
    • Cây
    • Bootstrap I
    • Bootstrap II

Tóm tắt của GN⁺

  • Tài liệu này cung cấp một cách tiếp cận hiện đại đối với hồi quy tuyến tính, nhấn mạnh các phương pháp tính toán vững chắc hơn để vượt qua những giới hạn lý thuyết truyền thống
  • Bao quát toàn diện từ nền tảng của mô hình hóa thống kê và phân tích hồi quy đến các chủ đề nâng cao
  • Đặc biệt, tài liệu bao gồm các chủ đề quan trọng trong thực tiễn như đa cộng tuyến, lựa chọn biến và bootstrap
  • Tài liệu này có thể hữu ích cho sinh viên hoặc người làm thực hành đang học thống kê và khoa học dữ liệu
  • Một dự án khác có chức năng tương tự là "Advanced Data Analysis from an Elementary Point of View"

1 bình luận

 
GN⁺ 2024-08-01
Bình luận trên Hacker News
  • Đa số mọi người không thực sự hiểu rõ linear regression

    • Mọi kiểm định thống kê phổ biến đều là mô hình tuyến tính
    • Mô hình tuyến tính là tuyến tính theo tham số, chứ không phải theo biến phản hồi
    • Nếu chọn cơ sở spline phù hợp, nhiều quan hệ phi tuyến giữa biến dự báo và biến phản hồi có thể được mô hình hóa bằng mô hình tuyến tính
    • Theo định lý Taylor, quan hệ tuyến tính có thể là xấp xỉ tốt cho quan hệ phi tuyến
  • Đã học môn thống kê ở CMU 10 năm trước và thấy rất tốt vì được học R

    • Điểm yếu lớn của linear regression là nó hiệu quả với các bộ dữ liệu huấn luyện nhỏ, nhưng khó áp dụng cho dữ liệu thực tế
  • Ridge Regression hữu ích trong việc giải quyết vấn đề đa cộng tuyến

    • Ngày nay nó thường được dạy như một kỹ thuật regularization để chống overfitting, nhưng ban đầu được dùng để cân bằng trọng số giữa các biến dự báo có tương quan rất cao
  • Muốn tìm hiểu cách một nhà nghiên cứu định lượng ở Citadel sử dụng linear regression

    • Tò mò không biết họ coi trọng những kết quả lý thuyết nào
  • Đã học linear regression nhiều lần trong chương trình đại học

    • Tính tối ưu của nó có thể được chứng minh thông qua thống kê và lý thuyết xác suất
  • Ở bậc tiến sĩ thì chủ yếu xử lý các bài toán hồi quy bằng mô hình deep learning

    • Sẽ rất hay nếu có cách áp dụng các chứng minh và định lý chặt chẽ của mô hình tuyến tính cổ điển cho các mô hình hồi quy deep learning
  • "Data Analysis from an Elementary Point of View" của Shalizi là một tài liệu nhập môn tốt

    • Tập trung vào mô hình tuyến tính, mô hình cộng tính và mô phỏng
    • 90% cuốn sách sẽ vô dụng nếu không có máy tính, nhưng đó cũng là sự thật của thời đại hiện nay
  • Kỹ năng quan trọng nhất trong hồi quy là nhận thức được hệ số chặn

    • Khi đưa vào các hạng tương tác, việc hiểu ý nghĩa của hệ số chặn là rất quan trọng
    • Ví dụ, trong một mô hình tuyến tính đơn giản có tuổi và biến chẩn đoán tự kỷ, cần hiểu hệ số chặn mang ý nghĩa gì
  • Với tư cách là người dạy hồi quy bằng XGBoost, bài viết này rất hữu ích và dễ tiếp cận

    • Đặc biệt chương 6, phần chẩn đoán trực quan được viết rất tốt
  • Bài viết không nhắc đến điều này, nhưng linear regression cũng cho thấy hiện tượng Double Descent thường gặp trong deep learning

    • Để làm được điều đó thì cần đưa regularization vào
  • Tò mò không biết có ai biết cách chuyển file PDF này sang dạng tối ưu cho di động hay không