신용평가모형의 미래 ② : AI 방법론의 활용

전통적 통계 방법론 vs. AI 방법론

by Ryan Choi

Jan 28. 2024

신용평가모형 방법론의 흐름

신용평가모형의 가장 큰 목적은 우량한 차주(돈을 잘 갚을 가능성이 높은 차주)와 불량한 차주(돈을 연체할 가능성이 높은 차주)를 분류해 내는 것입니다. 때문에 신용평가모형의 방법론으로는 알고리즘의 두 가지 큰 축인 '예측(회귀)'과 '분류' 중 주로 분류와 관련된 방법론(Classifier)이 쓰여왔습니다.

흔히 많이 사용되는 분류 방법론에는 로지스틱 회귀(Logistic Regression), SVM(Support Vector Machine), 판별 분석(Discriminant Analysis), 의사결정 나무(Decision Tree), k-근접 이웃(k-Nearest Neighbors), 나이브 베이즈(Naive Bayes) 등이 있습니다.

그리고 이 중에서 지금껏 신용평가모형에 가장 많이 사용되었던 방법론은 바로 '로지스틱 회귀'입니다. 이 방법론을 적용한 모형은 활용된 변수와 각 변수의 가중치를 직관적으로 확인할 수 있어, 만들어진 모형을 평점표 형태로 구성할 수 있고, 평가결과를 해석하여 금융소비자에 설명하기에도 용이한 구조를 가지고 있습니다.

이러한 이유로 인해, 로지스틱 회귀 방법론 기반 신용평가모형은 은행과 신용평가회사 등에서 여신 심사 등의 목적으로 오랜 기간 활용되어 왔습니다.

하지만 한편으로는 더 나은 방법론을 적용해 보려는 노력들도 꾸준히 있어 왔는데, 그것은 금융거래 데이터 부족 차주를 위해 대안 데이터를 모형에 반영하려 하거나 기존 모형의 성능을 좀 더 높여보기 위한 목적에서, 기존 로지스틱 회귀 방법론의 한계를 극복해 보기 위해서였습니다.

최근 chatGPT 등이 소개되면서 여러 분야에서 AI 방법론을 적용해보려 하고 있지만, 신용평가 분야의 경우, 이미 오래전부터 AI 방법론을 도입하려는 노력들이 계속되어 왔는데, 그 이유는 신용평가모형의 성능을 높이는 것이 결국 금융회사의 리스크 관리와 수익 창출에 밀접하게 연관되어 있기 때문입니다.

로지스틱 회귀 모형 vs. AI 방법론 모형

신용평가모형은 방법론 측면에서 전통적인 방식의 로지스틱 회귀 방법론 기반 모형과 AI 방법론 기반 모형(좀 더 정확히는 머신러닝 방법론 기반 모형)으로 구분할 수 있는데, 이 둘은 5가지 측면에서 차이점이 있습니다.

첫째, 활용 데이터 측면입니다.

로지스틱 회귀 방법론 기반의 신용평가모형은 유의한 변수를 선별하는 과정에서, 활용할 수 있는 변수의 개수가 15~20개 내외로 제한됩니다. 또한 활용할 데이터의 규격이 정해져 있고 과거 이력도 충분히 보유되어 있어 안정적인 활용이 가능합니다. 데이터에 대한 검증도 충분히 이루어진 상태로 볼 수 있습니다.

예를 들어, 우리나라의 경우에는 개인 신용평가를 할 때, 한국신용정보원의 제공 정보와 신용평가회사의 별도 수집 정보, 금융회사가 보유한 금융거래 정보 등을 활용하게 되는데, 이 모든 정보들은 정해진 규격에 의해 표준화, 정형화되어 있습니다.

반면 머신러닝 방법론 기반 신용평가모형의 경우에는 활용 가능한 변수의 개수에 큰 제한이 없고 다양한 정형, 비정형 데이터를 함께 활용할 수 있다는 이점이 있습니다. 하지만 활용하는 데이터의 원천과 형태가 제각각이고 과거 이력이 충분하지 않은 경우가 많아, 데이터를 활용하기에 앞서 사전에 데이터 정합성 등을 점검해봐야 하는 경우가 많습니다.

둘째, 개발 방법론 측면입니다.

로지스틱 회귀 방법론으로 개발된 신용평가모형은 모형에서 산출되는 변수와 해당 변수의 중요도를 평점표(Scorecard) 형태로 변환하고, 이를 다시 점수화하는 프로세스가 잘 정비되어 있습니다.

하지만 머신러닝 방법론 기반의 신용평가모형은 기존 방식 외에 여러 가지 새로운 기법들이 소개되어 있으며 개별 금융회사나 신용평가회사에서 비즈니스 목적에 따라 다양하게 활용하고 있어 아직 표준화된 방법론의 정립은 이루어지지 않은 상태입니다.

셋째, 설명가능성 측면입니다.

로지스틱 회귀 방법론 기반의 신용평가모형은 신용평가에 활용된 변수를 식별하고 해당 변수의 중요도를 확인하기에 용이한 구조를 가지고 있습니다. 때문에 신용평가 결과에 대한 직관적 해석이 용이하고 이를 금융소비자에 설명하기 쉬운 형태입니다.

반면, 머신러닝 방법론을 적용한 신용평가모형은 모형의 구조상 신용평가에 활용된 변수와 각 변수의 중요도를 확인하기 어렵고 이로 인해 신용평가 결과에 대한 해석이 어렵습니다. 때문에 금융소비자에게 결괏값에 대한 설명을 해주기 위해서는 추가적인 작업(XAI; Explainable AI 기법)이 필요하게 됩니다.

넷째, 모형의 안정성 측면입니다.

앞서 말씀드린 대로, 로지스틱 회귀 방법론으로 개발된 신용평가모형은 활용 데이터와 개발 방법론이 정립되어 있고 모형 운영 노하우도 축적되어 있어 외부 환경의 변화에도 불구하고 모형의 변동이 크지 않습니다. 또한 연 1회 이상 모형에 대한 성능 모니터링을 하여 모형의 안정성을 주기적으로 체크하고 있습니다.

머신러닝 방법론 기반의 신용평가모형의 경우에는 변수 선택 기준(Feature Selection)이나 초매개변수(Hyper-parameter) 튜닝, 과적합(Overfitting) 방지 이슈 등으로 인해 모형의 변동이 잦은 편입니다. 때문에 모형의 수정이나 재개발 가능성이 상존하므로 모형의 안정성은 상대적으로 낮은 편이라 할 수 있습니다.

다섯째, 내부통제 및 전산 적용 측면입니다.

로지스틱 회귀 방법론 모형의 경우, 오랜 기간 축적된 모형 운영 노하우로 인해, 내부통제 절차가 확립되어 있으며, 규칙 기반(Rule-based) 평점표 방식으로 신용평가가 이루어지므로 금융회사 내부에 마련된 IT시스템에 반영하기 수월합니다.

하지만 머신러닝 방법론 기반 모형의 경우, 내부통제 절차가 아직 정립되어 있지 않은 경우가 많고, 금융회사 내부 IT시스템에 적용하기 위한 작업도 다소 까다로운 편입니다.

AI 방법론 적용에 따른 이슈와 앞으로의 미래

지금 이 순간에도 다양한 AI 방법론이 계속 개발되고 있고, 이 중 분류와 관련된 방법론도 함께 늘어나고 있는 추세입니다. 이에 따라 AI 방법론을 적용한 신용평가모형 연구나 이와 관련된 비즈니스도 꾸준히 진행되고 있으며, 그동안은 고려되지 않았던 새로운 이슈들도 대두되고 있는 상황입니다.

AI 방법론을 신용평가모형에 적용하는 경우, 고려할 이슈에는 다음과 같은 것들이 있습니다. 앞으로 AI 방법론을 적용한 신용평가모형을 개발하고 운영하게 되면, 이러한 이슈들을 충분히 고려해야 할 것입니다.

첫째, 모형의 편향성 이슈입니다.

신용평가모형의 성능 향상은 필연적으로 금융소비자 보호와의 가치 충돌이 일어날 수밖에 없습니다.

채무불이행 가능성을 예측하여 우량 차주와 불량 차주를 구분하는 능력을 극대화한다는 것은 결국 우량 차주와 불량 차주 간의 차이를 극대화한다는 것을 말하는데, 금융소비자 보호 측면에서는 이러한 차이를 줄여 불합리한 차별과 불이익을 없애는 것이 주된 목적이므로 상호 간의 가치는 양 극단에 있다고 볼 수 있습니다.

AI 방법론을 적용한 신용평가모형은 기존 방법론에 비해 성능을 크게 높일 수 있다는 이점이 있지만, 이것에 대한 반대급부로 차별을 더욱 공고화할 수 있다는 부작용이 존재합니다.

특히 머신러닝 방법론의 경우, 주어진 과거의 학습 데이터를 이용하여 모형을 구성하고, 이 모형을 기초로 새로운 현실 데이터에 대한 평가가 이루어지는데, 만약 학습 데이터에 차별과 편향의 위험성이 있는 변수가 들어가거나 모형 설계자의 편향된 생각이 반영되면, 이러한 문제는 그대로 모형에 반영될 수밖에 없습니다.

또한 이러한 과정이 지속된다면, 신용평가의 차별과 편향은 더욱 강화되는 결과를 낳게 될 것입니다. 따라서 모형의 편향을 극복하기 위한 규제가 필요하며, 신용평가의 공정성과 신뢰성을 확보할 수 있는 사회적 합의와 구체적 방안이 마련되어야 할 것입니다.

둘째, 금융소비자 대상의 설명력 이슈입니다.

신용평가의 결과는 그 평가의 대상인 금융소비자가 그 결과를 직접 확인하고, 결과에 대한 설명을 요구할 수 있어야 합니다. 때문에 우리나라뿐만 아니라 미국, 유럽 등 해외에서도 법적 테두리 내에서 이러한 권리를 보장하고 있습니다.

신용평가의 대상인 개인에 대해 자신이 평가받은 내용을 열람할 수 있고 평가에 대한 설명을 들을 수 있는 권리를 보장하고 있으며, 신용평가의 주체인 금융회사는 해당 개인에게 결과를 확인시켜 줄 의무를 이행해야 할 뿐만 아니라, 평가결과의 이유도 설명할 수 있어야 합니다.

하지만 평가결과에 대한 산출근거와 결과에 대한 설명의 수준을 어디까지로 정해야 하는지는 이슈가 될 수 있습니다. 설명은 금융소비자가 이해하기 쉬운 언어로 상세하게 설명해야 하는 것이 원칙이지만, 금융소비자마다 사전 지식이나 전문성의 수준이 제각각이므로 이해의 정도가 다를 수 있고, 전문적인 설명까지는 원하지 않을 수 있기 때문입니다.

또한 과도하게 상세한 설명이 이루어지는 경우, 금융소비자가 이를 이용하여 신용평가의 결과를 조작할 위험도 존재합니다. 즉, AI 방법론을 적용한 신용평가모형의 결과로 불이익을 받게 된 어떤 사람이 해당 알고리즘에 대한 상세 내용을 확인한 후, 자신의 신용도를 높이려 조작 행위를 할 수 있기 때문입니다.

이러한 행위는 건전한 신용질서를 파괴하는 심각한 결과를 초래할 수도 있기에 특별히 조심해야 하는 부분입니다. 따라서 금융소비자 대상의 설명은 적정하고 합리적인 수준으로 이루어져야 하며, 이 수준에 대해서는 충분한 고민이 필요할 것입니다.

셋째, 모형의 설명력 이슈입니다.

AI 방법론에 기반한 신용평가모형의 설명력 수준을 결정하는 문제 또한 이슈가 될 수 있습니다. 규제 목적에서 금융회사에게 모형에 대한 과도한 투명성을 요구하게 되면, 혁신을 추구하고 수익성을 확보하기 위한 유인을 떨어뜨리는 부작용을 초래할 수 있습니다.

특히 신용평가에 적용한 AI 방법론의 경우, 영업비밀이나 지적재산권 형태로 보호되고 있는 경우가 많아, 금융소비자나 금융감독 당국의 설명력 향상 요구로 인해 제약이 생기게 되면 금융혁신이 저해되고 금융혁신을 통해 금융소비자에 돌아갈 편익도 줄어들 수 있습니다.

따라서 모형의 설명력 향상과 성능 향상은 서로 상충 관계(Trade-off)가 성립될 수 있습니다. 모형의 적정한 설명력 수준을 유지하면서도 모형의 성능을 높일 수 있는 최적의 균형점 마련을 고민해야 하는 이유입니다.

한편 현재 AI 방법론 기반의 신용평가모형 설명력을 높일 수 있는 다양한 설명가능한 AI 기법들이 소개되어 있으나, 아직 표준화된 방법은 없는 상황입니다. 따라서 향후 연구 발전 속도를 지켜보면서 검증된 설명력 향상 기법을 규제의 틀 내로 포함시킬 수 있는 방안도 연구할 필요가 있을 것입니다.

※ 이 글의 상당 부분은 제 박사학위 논문인 "An Empirical Study on Credit Evaluation Model for Sole Proprietor based on the Reference Model"의 내용을 인용하였습니다.

다음 편에서는 신용평가모형의 개발과 운영 절차에 대해 말씀드리겠습니다.

keyword

Brunch Book

이전 09화신용평가모형의 미래 ① : 새로운 데이터의 활용신용평가모형의 개발 및 운영 절차다음 11화