brunch

데이터로 은행을 움직이는 병아리 분석가

데이터 분석가 A to Z

by 커리어걸즈

나는 데이터로 은행을 움직이는 병아리 분석가

캐나다 은행에서 데이터 분석가로서 활동하고 있다. 데이터 분석가는 회사의 규모가 크면 클수록 그 역할의 중요성이 더 커진다. 이는 어떤 기업이든 어느 정도 규모가 커지면 더 많은 데이터가 쌓이기 마련이고, 그것을 바탕으로 더 현명한 비즈니스적 결정을 내리려 하기 때문이다. 가령 은행으로 예를 들어 보자면, 고객 개인 정보나 계좌 정보 등 막대한 양의 데이터를 가지고 있다. 그래서 은행 데이터 분석가의 역할이 막대한데, 데이터 분석가가 하는 일은 과거의 데이터를 분석한 결과를 시각화해서 그 은행에 유리한 방향으로 현명하고 의미 있는 결정(meaningful decision making)을 내릴 수 있도록 돕는 일이다. 내가 이 팀에 조인한지는 인턴 기간을 제외하고 약 1년 반 정도 지났는데, 저희 팀에는 워낙 경력직인 분들이 많아서 아직 삐약 삐약 병아리, 여전히 매일 배우고 있는 중이다.


은행 데이터 분석가는 무슨 일을 할까?

현재 내가 속하고 있는 팀의 이름은 Control Optimization & Advanced Analytics이다. 한국말로 직역해보면 “처리 최적화 및 첨단 분석팀”이다. 내 팀은 은행의 고객보다는 전국 지점에 있는 직원들의 실적에 관한 데이터를 많이 다루는데, 우리 업무중에 하나를 예로 이야기 해보려고 한다. 은행 지점 직원들이 주택 담보 대출이나 신용 대출을 진행하는 과정에서 대출 자금 세탁 방지 정책이나 은행 자체 규정을 잘 지키고 있는지 항상 모니터링한다다. 이 데이터를 여러 방면에서 분석해서 개인, 지점, 지역 그리고 주(province) 단위로 분기별 실적을 계산하고 시각화하는 프로그램을 짜고, 또 분기마다 각 지점 지점장에게 알림 이메일을 자동으로 전송할 수 있는 프로그램도 짠다. 이런 식으로 저희 팀에서 보내는 자동 이메일 프로그램만 8000개가 넘는다!

이 팀 내에서 내가 현재 맡고 있는 프로젝트는 크게 두 가지다. 공항에 있는 특별 지점의 데이터를 기반으로 실적을 산출하고 레포트를 만들어 내는 일과 캐나다 전역에 있는 지점의 지점장들이 사용하는 인터널 웹사이트를 관리하고 문제 해결하는 일을 하고 있다.


데이터 분석의 네 단계

데이터 분석에 대해서 잘 모르는 분들을 위해서 간략하게 설명하려고 한다. 데이터 분석에는 크게 네 단계가 있다. 데이터 수집, 데이터 전처리, 데이터 분석 그리고 데이터 시각화다. 여기서는 이 데이터 분석의 네 단계를 은행으로 예를 들어 보겠다.


문제 정의 및 데이터 수집 (Data Collection)

데이터 분석의 첫 번째 단계다. 어떤 목표를 이루고 싶은지, 현재 겪고 있는 문제가 무엇인지 정의를 하고, 이 목표를 이루기 위해서 분석해야 하는 대상인 데이터를 모으는 단계다. 이 단계가 전체적인 과정을 결정 짓기 때문에 신중하게 문제를 정의하고 고 퀄리티의 데이터를 수집하는 것이 중요한데, 단순한 예를 들어 보겠다. 은행도 하나의 기업이기 때문에 궁극적인 목표는 수익 창출이다. 그래서 수익이 감소하지 않도록 항상 노력을 해야 하는데, 지난 해 총 수익이 줄었다고 가정 해보자. 이 것은 은행에게 큰 문제다. 그러면 가장 먼저 해야 하는 일은 그 원인을 제대로 파악하는 것이다. 이 때 원인을 여러 곳에서 찾게 되는데, 그 중의 하나가 은행의 각 지점, 그리고 직원 개개인의 실적이다. 각 직원, 그리고 각 지점의 실적을 향상하는 것이 은행의 수익 증가와 직결 되기 때문이다. 그래서 은행 데이터 분석팀은 매 분기마다 지점/직원 실적을 계산하고 그 내용을 각 지점장에게 알린다. 실적의 요소는 여러 가지가 있는데, 고객 컴플레인, 대출실사 (Lending Due Diligence), 개인정보보호, 신설 계좌 개설 여부 등이 있다. 그러면 데이터 분석팀에서는 우선 각 요소에 대한 데이터를 모은다. 은행은 이미 자동으로 여러 데이터를 수집하는 시스템이 잘 갖추어져 있는데, 우리 데이터 분석팀에서는 그 많은 데이터 중에서 필요한 데이터를 수집해 와야 한다. 고객서비스 데이터를 가지고 있는 팀에게 관련 데이터를 받아 오고, 대출실사 담당 팀에서 대출실사 데이터를 받아 온다. 이 때 받은 데이터에 잘못 된 정보나 형식이 약속 된 포맷이 아닌 것이 없는지 잘 확인을 해야 한다. 실제로 얼마 전, 다른 팀에게 데이터를 받았어야 할 일이 있었는데, 꼭 있어야 할 정보가 누락 되어 있던 적이 있었다. 그래서 데이터 수집 과정에서 누락된 정보는 없는지 확인해야 한다. 데이터가 없으면 분석도 못한다.


데이터 전처리 (Data Cleansing)

데이터를 모은 다음에는 이 데이터를 깨끗한 형태로 다듬어야 한다. 그래서 데이터 클리닝 또는 데이터 클렌징이라고 불린다. 어떤 데이터라도 오탈자나 극한치, 또는 잘못된 값이 포함 되어 있을 수 있기 때문에 본격적인 데이터 분석에 들어 가기 전 데이터 청소는 필수다. 이 때, 가장 많이 하는 공정은 중복 삭제, 대문자 소문자 통일, 그리고 비어 있는 값을 0 또는 NA(Not Applicable)로 통일하기 등이 있다. 데이터의 형태에 따라서 파이썬 또는 SQL이라는 툴을 자주 사용하며, 데이터가 엑셀 파일일 경우에는 엑셀 디폴트 기능과 함수를 사용한다. 위의 데이터 수집의 예를 이어서 들어 보겠다. 한 지점에 John Doe라는 직원이 있다고 가정하고, 데이터 수집 과정에서 2024년 한 해 동안 이 직원이 받은 컴플레인 데이터를 모두 모았다고 치자. 1월에 받은 컴플레인 데이터에서는 직원의 이름이 “JOHN DOE”로 표기 되어 있고, 3월의 데이터에는 “John Doe”라고 표기 되어 있다. 이렇게 대문자 사용을 통일하지 않으면, 컴퓨터는 이 두 데이터를 이름이 다른 두 직원의 정보로 잘못 인식하게 된다. 이 때문에 대문자 사용을 통일하는 것은 가장 중요한 데이터 전처리 과정중의 하나이다.


데이터 분석 (Data Analysis)

자, 이제 드디어 데이터를 분석할 차례다. 여러 가지 어플리케이션이나 소프트웨어를 사용해서 지금까지 수집하고 전처리를 거친 데이터에서 의미 있는 인사이트를 얻기 위해서 분석을 하는 것이다. 여러분이 중학교나 고등학교에서 배웠을 평균, 중앙값, 최소값 그리고 최대값들도 데이터 분석에서 쓰이는 요소 중 하나다. 이 과정에서 미래의 수치를 예상하기 위해서 머신 러닝이나 인공 지능 기술이 쓰이기도 한다.


데이터 시각화 (Data Visualization)

데이터 분석의 마지막 단계, 데이터 시각화 과정이다. 데이터 분석 과정에서 얻은 결과를 데이터나 테크 분야에 있지 않은 사람들도 한눈에 이해할 수 있도록 표나 그래프를 이용하여 리포트를 작성한다. 나는 이 단계를 특히 좋아하는데, 그 이유는 그래프를 만들 때 직관적인 색상을 선정하고, 어떤 구조로 리포트를 만드는 것이 한 눈에 이해 하기가 쉬운지 등, 미적 디자인 요소에 대해서 생각할 수 있는 시간이라 재미 있기 때문이다. 이 때 작성한 리포트는 팀 상사들, 그리고 앞서 설명한 자동 이메일 시스템으로 각 지점에게 전송이 된다.


데이터 분석가의 필수 도구는 무엇이 있을까?

데이터 분석을 하는 데 있어서 필요한 도구들이 몇 가지가 있는데, 내 일에서 주로 사용하는 언어와 도구들을 소개해 보겠다. 소개에 앞서서, 이 글에는 애플리케이션, 소프트웨어, 그리고 프로그래밍 언어 라는 용어가 등장한다. 보통 어플리케이션과 소프트웨어는 교차 사용이 자주 되는 용어들인데, 굳이 구별을 하자면 소프트웨어는 컴퓨터나 스마트폰과 같은 기기에서 사용할 수 있는 응용 프로그램이고, 어플리케이션은 기기 사용자가 특정한 일을 하기 위해서 사용하는 소프트웨어의 종류라고 할 수 있겠다. 그러니까 소프트웨어가 더 포괄적인 의미이다.

프로그래밍 언어는 말 그대로 소프트웨어를 프로그래밍을 하는데 사용 되는 언어이다. 그래서 데이터 분석을 하는데 필요한 도구들이 소프트웨어 및 애플리케이션이고, 그 소프트웨어를 만드는데 사용하는 도구가 프로그래밍 언어이다.

엑셀(Excel): 업종에 상관 없이 가장 대중적으로 쓰이는 비즈니스 어플리케이션이다. 아마도 이 글을 읽고 계신 여러분도 한번쯤은 사용하신 적이 있을 것이다. 엑셀은 테크놀로지 섹터에 종사하지 않는 직장인들도 사용하는 어플리케이션이기 때문에 데이터 수집 과정에서 엑셀 파일 형태로 데이터를 받는 경우가 많다. 또한, 엑셀의 기능만으로도 기본적인 데이터 전처리 및 분석이 가능하기 때문에 데이터 분석가에게 엑셀 능력은 필수요소라고 할 수 있다.

파이썬(Python): 파이썬은 쉽고 직관적인 문법 때문에 널리 쓰이는 개발 언어 중 하나다. 내 일의 경우에는 데이터 베이스에서 데이터를 추출하거나 새로운 데이터를 데이터 베이스에 삽입 및 저장하는 과정을 자동화하고 싶을 때 이 언어를 사용한다.

SQL: Structured Query Language의 약자다. 단어 그대로 구조적 데이터를 추출할 때 사용한다다. 데이터 분석가라면 엑셀 만큼이나 잘 익히고 있어야 할 필수 언어다.

태블로(Tableau): 데이터 분석의 네 번째 단계인 시각화에서 사용하는 툴이다. 다양한 형태의 데이터를 바탕으로 표, 그래프 등을 이용하여 어떤 사람이 봐도 한번에 알아 보기 쉽게끔 시각화를 해준다. 말하자면 엑셀의 상위 버전이랄까?

keyword