brunch

You can make anything
by writing

C.S.Lewis

by Mobiinside Dec 20. 2021

데이터 클렌징 과정 엿보기

고객 정보 활용 마케팅을 위한 필수 작업



마케터는 이제 더 이상 ‘특정 지면에 광고를 노출시키자’ 라고 하지 않습니다.


‘○○행동을 한 사람에게만 노출하자’, ‘○○에 관심 있는 사람에게 보여주자.’ 라고 하지요.


이렇듯 ‘어디에 노출시킬 것인지’보다는 어떤 행동을 한 사람에게, 어떤 관심사를 갖고 있는 사람에게 그 대상에 대한 정보를 통해 액션을 시도합니다.


특정 대상/고객에 따라 메세지를 전달하려면, 기본적으로 그 대상에 대한 데이터가 있어야 합니다. ‘우리는(또는 우리 기업은) 데이터가 하나도 없어요’라는 기업은 없을 것입니다.


많은 경우 두 가지 중 하나에 해당합니다. 데이터는 있지만 실무진에서 접근하여 사용할 수 없거나, 활용이 힘들거나 거의 불가능한 형태로 존재하는 경우가 많습니다. 




고객의 행동 데이터를 포함한 고객 정보를 활용한 마케팅을 하려면,
쉽게 말해 ‘○○에 관심 있는 고객에게 ○○메세지를 전달하자’를 수행하려면,
현재 갖고 있는 데이터를 활용할 수 있는 상태로 만들어야 합니다.

한 글로벌 패션 기업 A사의 경우, 본사 및 각 지사에서 사용 중인 CRM 솔루션을 사용하고 있습니다. CRM 솔루션을 통해 회원들의 이름, 주소, 이메일, 멤버십 등급 등을 수집/관리하고 있었는데요. 실제 체감 활용도는 매우 낮았습니다. 여러 브랜드를 보유하고 있는 기업임에도 브랜드별 취급 정보가 통일되어 있지 않고, 브랜드마다 구성원의 데이터에 대한 이해와 활용 정도가 달라서 조직 차원에서의 대응이나 관리가 매우 절실한 상황이었습니다.


그래서, 비즈스프링과 CRM 솔루션에 쌓여만 있는 데이터들을 활용할 수 있는 형태로 만들기 위해 클렌징 작업을 하기로 했습니다. 


A사의 데이터 컨설팅 사례를 통해 ‘활용할 수 있는 상태로 만들어야 한다’는 것의 의미를 단계를 나누어 살펴보겠습니다.  




Steps in Data Cleaning

   

1. Data Entry Standard Policy | 데이터 입력 표준 정책

데이터 클렌징의 기반인 데이터 입력 표준 정책을 정의합니다. 이후 모든 단계의 기초가 되는 작업으로 데이터의 일관성, 데이터의 정확성, 데이터 중복 식별 등을 고려하여 결정합니다.


예를 들면 고객이 회원 가입을 할 때 어떤 항목의 데이터를 어느 수준까지 요구할 것인지, 기업 차원에서 멤버십 체계를 구축할 때 필요한 항목이 무엇인지부터 시작하여 의미와 범위, 수준까지 논의하는 과정입니다.




2. Removal of Unwanted Observations | 불필요한 항목 제거

예를 들면 데이터 세트 내 중복 항목에 대해 결합하여 신규 항목을 설정하거나, 사용하지 않는 일부 컬럼을 삭제하는 작업을 합니다. 데이터 컬럼과 소스의 유형을 정리하는 작업도 포함합니다.




3. Fix Data Structure | 데이터 구조 확인







데이터 항목별 구조와 속성을 정합니다. 성별처럼 ‘남자’, ‘여자’, ‘기타’와 같이 3개 값으로 나뉘는 카테고리형 성격을 갖는 항목을 정의하는 작업을 포함하며, 성별이 여성인 경우 ‘성별’ 항목에 ‘여성’으로 할 것인지, ‘여’, ‘Female’, ‘2’ 등 문자열로 할 것인지 숫자로 할 것인지, 이름의 성과 이름을 개별 컬럼으로 분리 표기 한다든지 등을 결정하여 데이터의 구조와 속성이 일관성을 갖도록 정리 및 확인합니다.




4. Filter-out Outliers | 이상값 필터링







정의한 값과 실제 데이터 값이 불일치 하는 경우, 정의한 것에 맞추어 필터링 합니다.


예를 들면 연령이 231세로 기입된 회원이 있다든지 등을 확인하는 것을 포함하여 생년월일의 표기가 아래와 같이 [ 99.10.31 ], [ 1999-12-30 ] [ 08.05.25 ], [ 901209 ] 다양한 양식으로 섞여 있다면 앞선 단계에서 정의한 정책에 맞추어 이상값에 대해 조치합니다.




5. Handling Missing Data | 결측값 처리







누락 데이터 또는 잘못 입력된 값을 처리하는 과정입니다. 누락 데이터는 결측값이라 부르기도 하는데 이에 대한 대치/조치 작업을 수행합니다.


예를 들면 국적 정보가 없으면 기본 ‘대한민국’으로 대체한다든지, 성별 정보가 없으면 ‘기타’로 대체한다든지, 연령대 정보가 비어있는 것은 ‘생년월일’ 정보를 참조하여 대체하는 등의 작업입니다.




6. Validate and QA | 검증 및 QA

데이터 유효성 검사를 실시하는 단계로, 앞서 정의한 데이터 표준 정책에 맞게 데이터를 검증합니다. 정책 및 단계별 작업에 대한 확인 과정으로, 데이터 유형은 정확한지, 유효한 범위 내 값인지, 중복된 값은 없는지, 필수 값이 비어있는 경우는 없는지 등을 검토하는 것으로 데이터의 정확성, 데이터의 일관성을 확인합니다.






보유하고 있는 데이터의 종류와 수가 많다고 해도 그 데이터가 활용할 수 있는 형태와 수준으로 존재하지 않는다면 데이터를 잘 정리하는 것부터 해야 합니다.


옷장 정리를 할 때 내가 가진 옷이 어떤 게 있는지 확인하고 종류면 종류대로, 색깔이면 색깔대로, 내가 정한 규칙에 따라 그룹을 지어 한 데 모을 적절한 옷장이나 서랍을 확인하는 것처럼 말입니다.


데이터에 대한 지식을 갖고 있어도 마케팅/온라인 커머스 시장에 대한 이해가 없다면 마케팅 현업에서 활용할 수 있도록 데이터와 환경을 구축하는 것이 쉽지 않습니다. 마찬가지로 데이터에 대한 배경 지식 없이 마케팅 운영 경험만으로는 데이터 활용에 대한 기반을 마련하기 어렵습니다. 


비즈스프링은 온라인 고객 행동과 마케팅 데이터 전문 기업으로, 약 20여 년의 업력으로 마케팅 데이터에 대한 풍부한 경험을 갖고 있습니다.  




비즈스프링과 파트너십을 통해 제공되는 제휴 콘텐츠입니다.  




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari