Khoa học dữ liệu tài chính Part.0: 7 điểm khiến khoa học dữ liệu tài chính khác với ML thông thường

(han-co.com)

2 điểm bởi hanco1104 7 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Bắt đầu loạt bài 「Cơ bản về khoa học dữ liệu tài chính」. Đây là bài đầu tiên (Part 0). Từ Part 0, tôi dự định sẽ lần lượt trình bày theo thứ tự như một cuốn sách về lý do khoa học dữ liệu trong thực tế thẩm định tín dụng vận hành khác với ML thông thường. Loạt bài sẽ đề cập đến các chủ đề như reject inference, suy luận nhân quả, calibration, validation, fairness và quy định.
Bản gốc được đăng trước trên blog của tôi → https://han-co.com/ko/blog/part0-finance-ds-7-differences

Tôi không phải là một cựu binh dày dạn nhiều năm trong lĩnh vực này. Tôi từng làm kỹ sư trong ngành sản xuất rồi chuyển sang lĩnh vực tài chính, và hiện chỉ đang làm data scientist ở mảng thẩm định tín dụng. Vì vậy, sẽ tốt hơn nếu bạn xem bài viết này không phải là kiểu "đây là đáp án đúng", mà là bản tổng hợp những điều tôi từng loay hoay sau khi bước vào lĩnh vực này, những lúc tôi tự hỏi: "Ơ, mình làm đúng như sách mà sao cứ sai mãi nhỉ?"

Điều thú vị là đó không chỉ là chuyện riêng của tôi. Ngay cả những người rất giỏi từ khâu xây dựng đến đánh giá mô hình ML thông thường, khi sang mảng thẩm định tín dụng cũng thường mắc những lỗi tương tự ít nhất một lần. Chỉ số validation thì đẹp, nhưng ra thực tế lại không đạt đúng hiệu năng kỳ vọng; accuracy là 99% mà chẳng ai vui; cố vắt thêm 0.01 hiệu năng thì bộ phận rủi ro lại chặn triển khai…

Điều đó không hẳn là vấn đề năng lực, mà vì tài chính (đặc biệt là thẩm định tín dụng) không phải là "áp dụng ML vào dữ liệu tài chính" theo nghĩa thông thường, mà là một lĩnh vực có luật chơi hơi khác. Và gần như mọi thứ loạt bài này sẽ nói đến sau này — reject inference, suy luận nhân quả, calibration, validation, fairness — rốt cuộc đều dựa trên các luật chơi đó.

1. Selection bias là trạng thái mặc định

Trong dữ liệu huấn luyện chúng ta có một lỗ hổng lớn. Đó là ta chỉ nhìn thấy kết quả hoàn trả của những khách hàng đã được phê duyệt. Với những khách hàng bị từ chối, ta sẽ không bao giờ biết họ thực sự có trả được nợ hay vỡ nợ hay không. Đơn giản là ngay từ đầu họ đã không được cấp thẻ.

ML thông thường thường giả định rằng "dữ liệu đại diện cho toàn bộ quần thể". Nhưng trong thẩm định tín dụng, giả định này đã vỡ ngay từ đầu. Dữ liệu huấn luyện là các khách hàng đã được phê duyệt trong quá khứ, trong khi đối tượng mà mô hình phải đánh giá lại là toàn bộ những người nộp đơn chưa được phê duyệt. Đây là hai quần thể khác nhau.

Toàn bộ người nộp đơn  
├─ Phê duyệt (quan sát được kết quả)  
│   ├─ Hoàn trả  → hoàn trả bình thường  
│   └─ Vỡ nợ  → quá hạn/vỡ nợ  
└─ Từ chối (không quan sát được kết quả)  → ??? không biết đã trả hay vỡ nợ

Mô hình chỉ học từ "khách hàng được phê duyệt". Kết quả thực tế của khách hàng bị từ chối không còn lại trong dữ liệu.

Chỉ một điểm này thôi đã gây ra nhiều vấn đề hơn tưởng tượng. Vì không có dữ liệu hậu kiểm của "những khách hàng từng bị từ chối", mô hình không thể học được vùng mà chính nó đã từ chối, và cứ thế thừa hưởng nguyên xi độ lệch từ chính sách thẩm định trong quá khứ. Vì thế trong lĩnh vực này, reject inference và suy luận nhân quả không phải là kỹ thuật đặc biệt, mà là điều cơ bản. (Hai chủ đề này tôi sẽ dành riêng mỗi chủ đề một bài để đào sâu sau.)

2. Thời gian chỉ chảy theo một hướng, và mô hình sẽ lão hóa

Nếu bạn trộn ngẫu nhiên dữ liệu rồi chạy K-fold, thì thực ra bạn đã lén "xem trước tương lai" một chút. Bởi vì trong tập validation sẽ lẫn cả dữ liệu quá khứ lẫn tương lai.

Dữ liệu tín dụng chảy theo thời gian. Một mô hình học từ dữ liệu người đăng ký năm 2024 sẽ đánh giá khách hàng năm 2026. Trong khoảng thời gian đó, kinh tế thay đổi, lãi suất tăng, hành vi khách hàng và sản phẩm cũng đổi khác. Phân phối đang dịch chuyển (drift). K-fold ngẫu nhiên trộn quá khứ và tương lai vào với nhau, vô tình nhét vào validation những thông tin mà ngoài thực tế bạn tuyệt đối không thể có.

Vì vậy, validation cơ bản trong tài chính là OOT (out-of-time), tức đánh giá trên giai đoạn đến sau giai đoạn huấn luyện. Sau khi triển khai, cũng phải liên tục theo dõi phân phối đã dịch chuyển bao nhiêu và khách hàng thay đổi ra sao theo thời gian. Mô hình bắt đầu lão hóa ngay từ lúc được đưa vào production.

3. Không chỉ cần biết "ai rủi ro hơn", mà còn phải biết "chính xác là bao nhiêu %"

Trong các bài toán phân loại thông thường, thường chỉ cần xếp hạng đúng là đủ. Chỉ cần sắp hàng tốt xem ai rủi ro hơn ai, và AUC đo năng lực đó.

Nhưng với tín dụng thì không thể dừng ở đó. Cần xác suất tuyệt đối, tức PD đã được hiệu chỉnh (calibrated PD). Phải có một con số như "xác suất vỡ nợ của khách hàng này là chính xác 3.2%" thì mới có thể định giá (risk-based pricing), trích lập dự phòng (provisioning), và tính expected loss. Chỉ có thứ hạng thôi thì không làm được bất kỳ việc nào trong số đó.

Vì vậy, trong tín dụng, chuyện này xảy ra khá thường xuyên: AUC rất đẹp nhưng PD lại sai. Discrimination và calibration là hai trục khác nhau, nên phải chăm cả hai. (Tôi cũng đã chuẩn bị một bài riêng chỉ nói về calibration. Nhiều trường hợp bỏ sót điểm này hơn bạn tưởng.)

4. Chi phí là bất đối xứng, đến rất muộn, và được tính bằng tiền

Accuracy đếm mọi lỗi như nhau. Nhưng trong tín dụng, trọng lượng của các lỗi hoàn toàn không giống nhau.

Khoản tiền kiếm được khi phê duyệt một khách hàng tốt là lợi nhuận biên (vài nghìn yên), còn chi phí của một ca vỡ nợ là LGD × EAD (hàng trăm nghìn yên). Một bên nặng hơn bên kia hàng chục lần. Vì vậy thứ ta phải tối ưu không phải là accuracy, mà là expected profit và expected loss.

Lợi nhuận kỳ vọng = (1 − PD) × biên lợi nhuận − PD × LGD × EAD

Expected loss (EL) khi vỡ nợ lại được tách thành tích của ba yếu tố.

EL = PD × LGD × EAD

PD: xác suất vỡ nợ
LGD: tỷ lệ tổn thất khi vỡ nợ
EAD: dư nợ tại thời điểm vỡ nợ

Mỗi yếu tố là một bài toán mô hình hóa khác nhau. Trọng tâm của scoring là PD.

Hơn nữa, nhãn đúng đến rất muộn. Một khách hàng được phê duyệt hôm nay là vỡ nợ hay không thường chỉ được xác nhận sau 12–24 tháng. Việc nhãn đến muộn như vậy xung đột khá mạnh với tư duy ML vốn quen với phản hồi nhanh. Ta phải tiếp tục chất chồng các quyết định khi vẫn chưa biết kết quả.

5. Tính ổn định quan trọng hơn hiệu năng biên

Nếu là cuộc thi ML, việc vắt thêm dù chỉ 0.001 AUC cũng là điều đáng giá. Giống như các cuộc thi kiểu Kaggle vậy. Nhưng trong mô hình tín dụng thực chiến, điều đó nhiều khi lại là bất lợi.

Một mô hình trở nên bất ổn chỉ để đổi lấy thêm một giọt hiệu năng sẽ sớm biến thành chi phí trong vận hành. Đó là kiểu mô hình mà đầu vào chỉ rung nhẹ là điểm số dao động mạnh, không tái hiện được, hoặc xuất hiện những đoạn kỳ lạ như "thu nhập càng cao thì điểm càng thấp". Tính ổn định trong vận hành, khả năng tái lập, và tính đơn điệu (monotonicity) thường quan trọng hơn vài chữ số sau dấu thập phân của hiệu năng. Đây cũng là một lý do logistic regression vẫn sống khỏe như chuẩn mực scoring ngay cả trong thời đại GBM.

6. Khả năng giải thích không phải lựa chọn, mà là nghĩa vụ

Ở các lĩnh vực khác, nếu có thể giải thích "vì sao dự đoán này xuất hiện?" thì đó là một điểm cộng đáng quý. Nhưng trong tín dụng, thiếu nó thì nhiều khi là trái luật hoặc không thể triển khai.

Thông báo lý do từ chối (adverse action, 否決理由), giải trình với cơ quan giám sát, và governance nội bộ đều yêu cầu phải giải thích "vì sao lại có điểm số này". Vì thế black box không phải là thứ ngầu, mà tự nó đã là rủi ro. Đó là lý do thực tế hiện trường thường ưu tiên các cấu trúc như WOE hay scorecard vốn tự nhiên sinh ra được lý do, và ngay cả khi dùng boosting thì vẫn cài sẵn cơ chế rút lý do bằng SHAP.

7. Overhead về quy định và governance luôn hiện diện

Cuối cùng, mô hình không thể được triển khai một cách tự do.

Không phải cứ xây xong mô hình là kết thúc. Model risk management (MRM), validation độc lập, tài liệu hóa, và audit trail đều là một phần của quy trình phát triển. Nhà phát triển và người validation được tách riêng, còn mô hình mới thường phải chạy ở shadow mode một thời gian dài để quan sát song song trước khi thật sự tham gia vào quyết định. Trực giác kiểu startup là "có mô hình tốt thì triển khai nhanh lên" không mấy hiệu quả ở đây. Chậm là có lý do. Vì một mô hình có thể ảnh hưởng thẳng đến cả tính toán dự phòng và vốn.

(Nếu làm việc ở Nhật, bạn sẽ cảm nhận điều này rõ hơn nữa. Trong việc phát hành thẻ và cấp hạn mức, Luật Bán hàng Trả góp (割賦販売法) áp đặt nghĩa vụ tính toán số tiền khả năng chi trả ước tính (支払可能見込額), nên mô hình gần như trở thành căn cứ pháp lý. Câu chuyện này tôi sẽ bàn riêng ở phần về quy định.)

Chẳng phải AI sẽ làm hết việc này sao?

Dạo gần đây tôi hay nhận được câu hỏi kiểu này. Generative AI và agent đang phát triển nhanh như vậy, liệu còn cần phải học những kiến thức mô hình hóa này không? Câu trả lời thành thật của tôi là: ngược lại, nó còn cần hơn trước (ít nhất là cho đến lúc này).

7 điều vừa nói không phải là vấn đề của một thuật toán cụ thể, mà là cấu trúc của bài toán trong lĩnh vực này. Phản sự kiện không quan sát được, dữ liệu chảy theo thời gian, chi phí bất đối xứng, xác suất tuyệt đối, tính ổn định, nghĩa vụ giải thích, quy định. Dán thêm LLM vào cũng không làm các vấn đề này biến mất. Trái lại, phải có người biết rằng những vấn đề đó tồn tại thì mới ngăn được việc một mô hình được tạo tự động sai một cách đầy tự tin.

Đặc biệt, điểm 6 và 7 là then chốt. Phải giải thích lý do từ chối, phải validation mô hình một cách độc lập, và kết quả đó trở thành căn cứ cho việc tính dự phòng và vốn. Mô hình black box bị vướng mang tính cấu trúc ở chính các yêu cầu này. Vì thế generative AI chưa thể "nuốt trọn" việc thẩm định tín dụng; thay vào đó, người hiểu vì sao phải có khả năng giải thích và phải validation như thế nào sẽ là người ở lại vị trí phán định kết quả mà AI đưa ra.

Tất nhiên cũng có những thứ sẽ thay đổi. Việc viết code lặp đi lặp lại hay phân tích cơ bản ngày càng trở thành phần việc của AI. Vì vậy, trọng tâm của công việc thực tế đang dịch chuyển từ năng lực tự tay dựng mô hình sang năng lực phán đoán để đặt đúng bài toán, validation đúng và giám định đúng. Chính vế sau này là điều loạt bài muốn bàn đến.

Vậy năng lực trong lĩnh vực này là gì?

Nếu gói 7 điều trên vào một câu, thì sẽ là thế này.

Khoa học dữ liệu tài chính không phải là "cuộc thi độ chính xác dự đoán", mà là công việc ước lượng phản sự kiện không quan sát được (counterfactual) một cách có thể giải thích và ổn định trong môi trường mà thời gian trôi đi và chi phí là bất đối xứng.

Các chỉ số đánh giá và scorecard giống như tấm vé vào cửa. Sự khác biệt thật sự về năng lực được phân định ở selection bias, nhân quả, validation và governance.

Trong loạt bài này, tôi dự định sẽ lần lượt đào sâu từng điều một cách chậm rãi. Reject inference được giải ra sao, vì sao calibration ai cũng dễ làm sai, vì sao suy luận nhân quả là cốt lõi của thẩm định, và cần validation thế nào để sống sót trong production. Hãy cùng đi tiếp từ bài sau.

Bài viết này được đăng lần đầu trên han-co.com và sẽ được đăng nối tiếp bằng cả tiếng Hàn lẫn tiếng Nhật. Bản gốc có sơ đồ vẽ tay và đăng ký nhận bài qua email ở đây → https://han-co.com/ko/blog/part0-finance-ds-7-differences