설계 → 개발 → 검증 → 운영 및 모니터링
개발 대상 데이터의 개수가 개발하기에 충분히 마련되었는지, 모집단 데이터셋에 계절성이 존재하는지, 개발 대상 데이터셋의 우량과 불량의 구성비, 불량률 등이 모집단 데이터셋과 유사한지 등을 검증합니다.
개인 신용평가모형은 '연체 이력이 있는 그룹'과 '그렇지 않은 정상 그룹'으로 구분하여 모형을 개발하는 경우가 일반적이며, 모형 개발 시 구분된 모형별로 필요한 데이터 항목 리스트를 별도로 구성하기도 합니다.
스케일링(Scaling)은 서로 다른 수치형 변수의 데이터 범위를 동일한 범위로 조정하여 모형의 예측력을 향상시키는 기법으로, 주로 활용되는 스케일링 기법은 해당 변수의 평균을 0, 표준편차를 1로 맞추는 표준화(Standardization)와 변수의 최솟값을 0으로 최댓값을 1로 조정하여 데이터의 범위를 축소하는 정규화(Normalization) 등이 있습니다.
설명가능한 인공지능 기법은 크게 전역 설명 방식(global)과 국소 설명 방식(local)으로 나뉘며, SHAP(SHapley Additive exPlanations), LIME(Local Interpretable Model-Agnostic Explanations)등의 기법이 주로 활용되고 있으나, 아직 표준화된 기법이 존재하지 않으므로 개별 상황에 맞게 적용해야 할 것으로 보입니다.
개발용 데이터를 'Training dataset', 검증용 데이터를 'Validation dataset'으로 부르기도 하며, 데이터 개수가 충분히 많은 경우에는 'Test datset'까지 추가로 떼어 모형을 검증하기도 합니다.