일반적인 모형의 성능 확인 방법
신용평가모형의 가장 큰 목적은 우량한 차주(돈을 잘 갚을 가능성이 높은 차주)와 불량한 차주(돈을 연체할 가능성이 높은 차주)를 구별해 내는 것에 있습니다. 따라서 일반적인 통계 모형 방법론을 개발 목적에 따라 분류와 예측으로 구분한다면, 신용평가모형은 이 중 '분류' 모형에 해당된다고 할 수 있습니다.
일반적인 분류 모형의 성능 확인을 위해서는 'Confusion Matrix'가 사용됩니다. Confusion Matrix는 실제 값과 모형이 예측한 값을 비교하여, 실제 값이 Positive인지 Negative인지, 예측 값이 Positive인지 Negative인지에 따라 구분되는 4가지 케이스를 2x2 Matrix 형태로 표현한 것을 의미합니다.
실제 값이 Positive이고, 예측 값도 Positive → True Positive(TP)
실제 값은 Positive인데, 예측 값은 Negative → False Negative(FN)
실제 값이 Negative인데, 예측 값은 Positive → False Positive(FP)
실제 값이 Negative이고, 예측 값도 Negative → True Negative(TN)
※ Confusion Matrix에 대한 상세한 설명은 다음의 링크를 참고하시기 바랍니다.
Positive는 1, Negative는 0으로 표현할 수 있으므로 결과 값이 Binary 형태인 분류 모형의 성능 측정에 주로 활용됩니다. 이러한 Confusion Matrix를 기반으로 모형의 성능을 측정할 수 있는 지표에는 다양한 평가 지표들(Evaluation Metrics)이 있으며, 이 중 대중적으로 활용되는 지표들은 다음과 같습니다.
'정밀도(Precision)'는 모형이 Positive로 예측한 것 중에서 실제 값이 Positive인 비율을 의미합니다. 즉, 모형이 Positive를 얼마나 잘 예측하여 정답을 맞혔는가에 중점을 둔 지표입니다.
Precision = TP ÷ (TP + FP)
'재현율(Recall, Sensitivity, Hit rate)'은 실제 값이 Positive인 것 중에서 모형이 Positive로 예측한 것의 비율을 의미합니다. 정밀도와는 정반대 관점의 평가 지표라 할 수 있습니다. 즉, 실제 값의 입장에서 모형의 성능을 바라보는 관점입니다.
Recall = TP ÷ (TP + FN)
'정확도(Accuracy)'는 전체 경우의 수를 기준으로 실제 값이 Positive인 것을 Positive로 예측한 경우와 실제 값이 Negative인 것을 Negative로 예측한 경우, 즉, 모형이 정답을 맞힌 비율을 의미합니다.
Accuracy = (TP + TN) ÷ (TP + FN + FP + TN)
'F1-Score'는 Precision과 Recall의 조화평균을 의미합니다. 앞서 언급한 정확도 지표는 Positive와 Negative 간의 비율 불균형이 존재하는 경우는 제대로 설명하기 어렵습니다. 때문에 이러한 비율 뷸균형(Bias)를 보정한 지표로서 F1-Score가 종종 활용됩니다.
F1-Score = 2 × (Precision × Recall) ÷ (Precision + Recall)
'False Positive Rate(FPR)'는 실제 값이 Negative인 것 중 모형이 Positive로 예측한 것의 비율을 의미합니다. FPR은 뒤에서 소개할 ROC Curve에서 X축의 기준이 됩니다.
FPR = FP ÷ (FP + TN)
'AUROC(Area Under ROC Curve)'는 X축이 False Positive Rate(FPR), Y축이 True Positive Rate(TPR, Recall과 동일)인 ROC(Receiver Operating Characteristic) Curve에서 산출되는 수치를 의미합니다. 수치의 계산은 ROC Curve의 아래쪽 면적 값을 이용합니다.
AUROC는 0과 1 사이의 값이 산출되며 1에 가까울수록 우수한 변별력을 가진 모형임을 나타냅니다.
※ ROC Curve에 대한 상세한 설명은 다음의 링크를 참고하시기 바랍니다.
신용평가모형의 성능 확인 방법
다만, 일반적인 분류 모형과 신용평가모형은 성능 확인을 위해 쓰이는 지표들이 조금 다릅니다. 위에서 소개한 성능 확인 방법들이 일반적인 분류 모형의 경우라면, 실무에서 주로 사용되는 신용평가모형의 성능 확인 평가 지표에는 다음과 같은 것들이 있습니다.
먼저 변별력 성능을 확인하기 위해 주로 활용되는 성능 확인 지표에는 K-S 통계량(Kolmogorov-Smirnov Statistics)과 Divergence, GINI 계수 등이 있습니다.
K-S 통계량은 우량 집단과 불량 집단의 누적분포의 차이를 나타내는 지표로서, 수치상으로 계산할 때는 누적 우량비율과 누적 불량비율 간 차이의 최댓값을 가지고 기준값과 비교하게 됩니다. (일반적으로 50이 넘으면 최소 기준치는 충족하였다고 평가합니다.)
Divergence는 우량 집단과 불량 집단의 분포가 얼마나 떨어져 있는지를 보는 지표로 두 분포 사이의 거리가 멀수록, 각각의 분포가 집중된 모습을 보일수록, 큰 값을 보입니다. (일반적으로 1.0을 초과하는 경우 변별력에 대한 최소 기준치는 충족하였다고 평가합니다.)
GINI 계수는 X축은 누적 우량비율, Y축은 누적 불량비율로 나타낸 그래프와 Random Curve 사이의 면적을 수치로 표현하여 성능을 확인합니다. (0.6을 초과하는 경우 최소 기준치를 충족하였다고 평가합니다.)
모형의 안정성을 확인하기 위해서는 PSI(Population Stability Index)라는 지표를 활용합니다.
PSI는 기준 시점 대비 현재 분포의 차이를 0~1 사이의 수치로 나타내며 값이 1에 가까울수록 모집단 대비 모형의 결과 값 변동이 크다는 것을 의미합니다. (일반적으로 0.1 미만인 경우, 안정성이 유지되는 최소 기준치를 충족하였다고 평가합니다.)
※ K-S 통계량, Divergence, GINI 계수, PSI에 대한 상세한 설명은 다음의 링크를 참고하시기 바랍니다.
금융규제 관점의 신용평가모형 성능 검증
한편, 우리나라에서 실시하고 있는 금융규제 관점의 신용평가모형 성능 검증 방식에는 2가지가 있습니다.
첫째, 금융감독원의 신용평가모형 승인 절차입니다. 은행 등의 금융회사는 국제 기준인 BASEL Ⅲ 규제를 준수하게 되어 있어, 신용평가모형(CSS) 개발이 이루어지면 금융감독원의 승인이 있어야 모형 운영이 가능합니다. 한편, CB사의 신용평가모형(CB 모형)의 경우, 라이선스 허가 신청 시 금융감독원에서 사업 계획을 확인하게 되며 이 과정에서 모형의 구성 내용과 성능을 검증하고 있습니다.
둘째, 한국신용정보원에서 운영하는 '개인신용평가체계 검증위원회'입니다. 이 검증위원회는 개인/개인사업자 CB사가 개발, 운영하고 있는 신용평가모형에 대해 모형에 쓰인 기초 정보의 공정성과 타당성, 모형의 통계적 유의성과 안정성 등을 신용정보법에 근거한 정해진 절차에 따라 검증합니다. 또한 검증결과는 금융위원회와 금융감독원에 보고하고 CB사에도 공유하도록 정하고 있습니다.
※ 그간의 검증결과 보고서는 다음의 링크를 참고하시기 바랍니다.
다음 편에서는 신용평가의 오해와 진실에 대해 말씀드리겠습니다.