brunch

You can make anything
by writing

C.S.Lewis

by 데이터 스테이션 May 11. 2023

1-3. 실무적 데이터 분석 절차

제조업에서 시작한 식스시그마를 기반으로

3) 비즈니스에서 데이터 분석 절차 


 프로그래밍 언어도 익히고 통계 분석 절차를 잘 알고 있음에도, 실무에 이를 적용하기는 쉽지 않다. 새로운 데이터를 받아서 데이터 분석을 하려 할 때, 어떻게 해야 할지 당황스럽고 막막하기만 하다. 이번에는 실제 데이터를 받아서 실무에 의미 있는 인사이트를 발견하기 위해 데이터 분석을 어떤 절차를 거쳐 진행 해야 하는지 알아보도록 하자.


 - ICAIS 문제해결 방법론 

 ICAIS 문제 해결 방법론은 기존에 2000년도 초 데이터마이닝 기반의 6시그마 문제해결 방법론을 바탕으로 비즈니스에서 발생하는 문제를 규명하고 데이터로부터 인사이트를 도출해내는데 까지 문제해결 절차를 나타낸다. 이는 비즈니스 측면에서 접근한 절차이며, 아래 표를 보면 각 단계별로 어떤 작업을 수행해야 하는지 알 수 있다. 

데이터 분석 기반 비즈니스 문제해결 방법론

 먼저 I(Identify Problem)단계에서는 비즈니스 문제 상황을 정의하고, 해당 프로젝트가 왜 진행 되어야 하는지 규명해야 한다. 그리고 과제가 달성되었을 때, 얼마나 성과가 발생했는지를 객관적으로 규명할 수 있는 목표, 핵심성과지표(KPI, Key Performance Indicator 핵심성과지표, 회사나 조직해서 특정 목적을 달성하기 위해 설정하는 구체적인 수치, 목표값)를 설정해야 한다. 이후 분석을 어떻게 진행해야 할지 전체적인 프로세스를 계획 해야 한다. 이 단계에서 가장 중요한 것은 이 프로젝트를 왜 진행해야 하며, 진행하고 나서 어떤 기대효과가 있을 것인지 규명하는 것이다.


 두 번째로 C(Collect Data)단계에서는 분석에 사용할 데이터를 탐색 및 수집한다. 데이터를 탐색함에 있어서 현재 실무에서 사용하고 있는 회사 내부데이터를 이용할 수도 있고, 외부데이터(공공데이터, Open API 등)를 이용할 수 있다. 여기서는 분석에 사용할 데이터를 수집한 뒤, ‘변수 정의서’를 작성한다. 실제 분석프로젝트를 진행할 때, 대부분 데이터가 비식별처리(특정 정보가 공개되지 않도록 다른 이들이 알아볼 수 없는 형태로 데이터를 변환하는 것)되어 있거나 약어 또는 특정 라벨로 처리되어 있는 경우가 많아 분석에 혼동을 줄 수 있다. 이를 방지하기 위해, 데이터의 타입, 설명 등을 작성한 문서를 만들어야 한다. 이를 변수정의서라고 부른다. 중요한 것은 변수정의서에서 데이터의 타입이 명확히 구분되어야 한다. 이유는 데이터 타입에 따라 통계 분석의 방법이 달라지기 때문이다. 데이터의 타입은 날짜, 숫자, 문자 등 다양한 형태가 올 수 있고, 그에 맞는 분석기법을 적절히 사용해야 인사이트를 얻을 수 있다. 


 세 번째로 A(Analyze Data)단계 이다. 앞서 정의된 데이터 변수들을 이용하여 데이터 분석을 실시한다. 여기서 통계적 데이터 분석절차를 따라 분석을 진행하면서 데이터에서 발견할 수 있는 인사이트를 하나씩 찾아가면 된다. 먼저는 각 변수에 대해 이상치나 결측값(이상치 Outlier : 기존의 데이터와 특성이 다른 값 / 결측치Missing Value : 시스템오류에 의해 값이 입력되지 않는 부분)이 있는지 확인하는 작업을 진행한다. 데이터 상에 잘못된 값이 들어가 있거나, 값에 공백이 있으면, 기계학습을 이용할 때, 문제가 발생할 수 있다. 이 작업을 데이터 신뢰성 확인 작업이라고 표현하기도 한다. 해당 작업이 끝나면, 변수 간 관계성을 파악하기 위해 데이터를 시각화 한다. 여러 다양한 변수간의 관계를 그래프를 이용해 보기 쉽게 표현하여 인사이트를 찾는다. 그리고 프로젝트에서 규명하고자 하는 Y값에 대해 어떤 변수가 연관성이 있는지 시각화를 통해 쉽게 파악할 수 있다. 시각화를 통해 파악된 변수들 간의 관계를 ‘통계적 가설검정’을 실시해, 실제 객관적인 P-value ( Probability Value : 확률값, 통계적 가설검정을 진행 할 때, 특정 가설이 참이 될 확률 값)라는 값으로 유의미한지 판단하게 된다. 여기서 판단의 결과로 Y에 대한 의미 있는 값들을 찾게 되면, 의미 있는 값들을 이용해 새로운 데이터가 들어올 때, Y를 예측하거나 분류하는 Model을 만들 수 있다. Model은 기존의 데이터를 바탕으로 X-Y 변수 간 관계성을 파악하여 새로운 규칙을 만들어내는 하나의 수식이다.


 마지막으로 분석이 모두 완료되면 IS(Improve & Systemize)단계에서 분석에서 발견한 인사이트를 정리하여, 실무에 어떻게 적용시킬지 개선안을 작성하는 단계이다. 해당 단계에서는 처음에 세웠던 목적에 맞게 개선안을 작성하여 실무 시스템에 반영한다. 이러한 절차를 밟아 데이터를 바탕으로 실제 비즈니스에서 적용 가능한 프로젝트를 진행할 수 있으며, 실제 데이터 분석 프로젝트를 진행하게 될 때, 위와 같은 절차를 따라 분석해 볼 것을 추천한다. 위의 분석 절차는 종합실습에서 직접 데이터를 분석하며 진행해 볼 것이다. 



관련 재생 목록 : https://youtube.com/playlist?list=PLhdHuKlSngGz4SjNyGsm6M4P_-kR4HNIQ 




매거진의 이전글 1-2. 데이터 분석의 트랜드 변화 
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari