2 điểm bởi GN⁺ 2023-12-05 | 1 bình luận | Chia sẻ qua WhatsApp

Sự cần thiết của biên độ sai số trong phân tích và dự báo tội phạm

  • Nhấn mạnh rằng dự báo tội phạm cần phải bao gồm biên độ sai số
  • Richard Rosenfeld thảo luận về dự báo tỷ lệ tội phạm toàn quốc trong một bài viết gần đây gửi tới các nhà tội phạm học
  • Có sự phàn nàn về việc FBI công bố thống kê tội phạm chậm 1 năm, nhưng giới học thuật còn đưa ra "dự báo" muộn hơn nữa

Phân tích bằng mô hình ARIMA

  • Phân tích bằng mô hình ARIMA trong Python để cho thấy sai số dự báo hợp lý trông như thế nào
  • Dữ liệu và mã được cung cấp trên GitHub
  • Giải thích ngắn gọn về việc nạp dữ liệu và import thư viện, cùng quá trình thiết lập đúng định dạng dữ liệu

Chuẩn bị khớp mô hình

  • Khớp mô hình ARIMA(1,1,2) với các điều kiện tương tự bài báo của Richard
  • Cung cấp phần giải thích và so sánh với mô hình của Richard, cùng kết quả đầu ra của mô hình

Dự báo và biên độ sai số

  • Sử dụng gói statsmodels để thêm dữ liệu mới và thực hiện dự báo một bước phía trước
  • Cung cấp kết quả dự báo cho thấy sai số chuẩn của dự báo tăng dần theo thời gian

So sánh với ước tính của Richard

  • Tính MAPE (Mean Absolute Percentage Error) của từng mô hình bằng cách so sánh với giá trị dự báo của Richard
  • Trình bày khoảng dự báo và nhấn mạnh rằng các giá trị quan sát được vẫn phù hợp với mô hình ước tính

Điểm cuối cùng

  • Lập luận rằng việc Richard tiếp tục mắc sai số lớn trong dự báo tội phạm ở cấp độ vĩ mô không quá quan trọng
  • Cho rằng dự báo tội phạm ở cấp độ quốc gia không giúp ích cho phản ứng chính sách
  • Đưa ra ví dụ về ứng dụng dự báo tội phạm thực tế: cách dự báo nhu cầu tăng biên chế cảnh sát theo sự tăng trưởng của đô thị

Ý kiến của GN⁺

Điểm quan trọng nhất của bài viết này là nhấn mạnh tầm quan trọng của biên độ sai số trong dự báo tội phạm và sự cần thiết phải thừa nhận tính bất định của dự báo. Dù dự báo tội phạm có thể không trực tiếp hữu ích cho việc ra quyết định chính sách, mô hình hóa dự báo vẫn có thể là một công cụ quan trọng để kiểm chứng tính hợp lệ của các lý thuyết tội phạm học. Bài viết mang lại những góc nhìn thú vị cho những người ở giao điểm giữa khoa học dữ liệu và tội phạm học, đồng thời đưa ra thảo luận sâu sắc về giới hạn của các mô hình dự báo và cách vượt qua chúng.

1 bình luận

 
GN⁺ 2023-12-05
Ý kiến Hacker News
  • Mối liên hệ giữa dự đoán và ra quyết định

    • Dự đoán nhìn chung nên dẫn đến ra quyết định.
    • Khi dự đoán bị tách rời khỏi quyết định, giá trị của nó trở nên không rõ ràng.
    • Rosenfield đang cố dùng dự đoán để tăng sức nặng cho các kết luận thống kê về dữ liệu quá khứ, nhưng điều này đáng nghi ngờ.
  • Ý nghĩa của thanh sai số

    • Ý nghĩa của thanh sai số không rõ ràng.
    • Một loại là khoảng tin cậy (mô hình đưa ra xác suất 95% rằng đầu ra sẽ nằm trong phạm vi này).
    • Một loại khác là độ lệch chuẩn (dự đoán chênh lệch bình phương giữa dự đoán của chính nó và kết quả).
  • Tầm quan trọng của thanh sai số

    • Thanh sai số giúp hiểu rõ hơn khi so sánh lợi ích của một phương án xử lý mới.
    • Một số người cho rằng điều này làm vấn đề trở nên rối rắm.
    • Trong một số trường hợp, việc có được thanh sai số có ý nghĩa là rất khó.
  • Xem xét phân bố thống kê

    • Thường xuyên xem histogram (phân bố thống kê) của các chỉ số quan trọng.
    • Trong vấn đề tốc độ gọi web service, xuất hiện hai đỉnh rõ ràng.
    • Hai đỉnh này tương ứng với người dùng đã đăng xuất và đã đăng nhập, giúp hiểu sâu hơn nguyên nhân của vấn đề.
  • Thanh sai số cho ước lượng ngày tháng

    • Ước lượng ngày tháng (tức deadline) cũng nên có thanh sai số.
    • Ngày tháng là một dạng dự đoán, và nếu không có ước lượng về mức độ bất định thì nó không có nhiều ý nghĩa.
  • Tầm quan trọng của việc định lượng bất định

    • Trong khoa học dữ liệu và đặc biệt là machine learning, việc định lượng bất định thường bị xem nhẹ.
    • Người làm thực tế không phải lúc nào cũng có nền tảng thống kê.
  • So sánh giữa dự đoán và đo lường

    • Có thể xem dự đoán như một phép đo về tương lai.
    • Mọi phép đo được thực hiện mà không hiểu về mức độ bất định đều vô nghĩa.
  • Hiểu lầm về thời tiết

    • Ban đầu tôi nghĩ bài này nói về thời tiết.
  • Dự đoán hiện tại hoặc quá khứ, tức nowcasting

    • Đây là nghệ thuật dự đoán hiện tại hoặc quá khứ trong lúc chờ dữ liệu.
    • Không có khoảng sai số thì đó là khoa học/thống kê thiếu chính xác.
  • Dự đoán vẫn hữu ích ngay cả khi không có thanh sai số

    • Đôi khi chỉ một dự đoán điểm đơn giản cũng đủ để định hướng hành động.
    • Tuy nhiên, hiểu đầy đủ phân bố dự đoán có thể giúp đưa ra quyết định tốt hơn.
  • Ưu điểm của Gaussian process regression

    • Gaussian process regression (hoặc kriging) có ưu điểm rất lớn.
  • Sự cần thiết của các khoảng tin cậy/dự đoán/dung sai cho mọi loại ước lượng/dự đoán/dự báo/nội suy/ngoại suy

    • Cần có các khoảng tin cậy/dự đoán/dung sai bao gồm cả những giả định mà nhóm đưa vào để giải quyết vấn đề.