데이터, 인사이트 그리고 머신러닝

나이키 사례를 통해 살펴보는 데이터 기반 의사 결정과 머신 러닝 활용

Nov 5. 2020

왜 이 글을 썼는가? (Why?)

데이터 기반 의사 결정 방식이 중요해지는 이 시기에, 우리는 다가오는 인공 지능 시대에 어떻게 이를 받아들이고 활용해야 하는지 알아야 한다. 구체적인 나이키 사례를 통해 이를 살펴보고 데이터 기반 의사결정의 진정한 의미를 알아보자.

누가 보면 좋을까? (Who?)

실무에서 데이터를 활용해 어떻게 의사 결정을 하고 인사이트를 얻는지 궁금한 분

어떤 내용인가? 3줄 요약 (What?)

DIKW 피라미드 모델을 나이키 사례를 통해 보고 기존 방식과 머신 러닝을 활용한 예측 분석의 차이를 살펴본다

인공지능 시대에는 우리가 직접 분석하거나 의사결정을 하는 것이 아니라 머신러닝을 통해 나온 결과를 이해하는 인식의 전환이 필요하다

진정한 데이터 드리븐 경영은 데이터를 활용해 매출, 비용 절감, 그리고 효율성 증대 등 변화를 만들어 내는 것이 진정한 의미의 데이터 기반 의사 결정이다.

실제 업무를 하다 보면 매일 많은 정보와 자료 등을 보면서 트렌드를 읽어내고 비즈니스 기회를 찾아내기 위해 노력을 한다. 아마 대부분의 회사에서 월요일이면 주간 보고, 매출 동향, 주요 이슈 등을 정리해서 미팅에 들어가 관련 팀들과 공유하고 문제점은 없는지 또는 새로운 비즈니스 기회 요소가 무엇이 있는지 논의할 것이다. 이러기 위해서는 끊임없이 데이터를 분석하고 이해하고 관련 보고서를 참고하면서 트렌드를 읽고 올바른 의사 결정을 하기 위해 노력해야 한다.

데이터 기반 의사 결정 방식

이미지 출처: https://www.qubole.com/blog/data-driven-culture/

최근에 데이터 드리븐(Data-driven) 경영으로 기존의 감에 의존하던 방식을 탈피해 데이터에 기반해 의사결정을 내리는 경영 방식이 새로운 흐름이다. 고객들의 많은 행동 양식들이 데이터로 축적 가능하고 또한 발전된 통계 및 분석 기법으로 활용할 수 있어 이러한 접근 방식이 더욱 신뢰를 얻고 있다. 단순히 매출 및 소비자 분석뿐 아니라 상품 디자인, 개발 및 판매, 그리고 마케팅 등에 데이터를 활용하여 더 나은 결과를 만들어 내려고 노력한다.

예를 들면 상품 개발 팀에서는 고객 구매 데이터 또는 판매 자료 등 빅데이터를 활용해 숨어 있는 고객의 니즈를 파악해 이를 토대로 상품을 개발할 수 있고, 또한 제조업에서는 데이터 분석으로 공정 효율을 높여 생산성을 향상할 수 있으며, 마케팅에서는 고객 데이터 분석 기반을 기반으로 맞춤형 콘텐츠 제공 및 광고 집행을 통해 전환율을 높일 수 있다. 그중에서도 데이터 분석을 통한 업무 효율 개선은 가장 효과적인 방법으로 많은 회사에서 이를 활용하고 있다.

우리는 데이터 분석팀에서 제공해 주는 판매 정보, 고객 세그멘테이션 정보, 외부 경쟁사 현황 등을 통해 정보를 얻고 이를 바탕으로 새로운 지식을 쌓아간다. 이러한 과정을 통해 축척된 지식으로 여러 팀들 간의 미팅을 통해 방향을 제시하고 또한 새로운 사업 기회를 찾아낸다. 이러한 과정을 이해하는 것은 매우 중요한 일로서 'DIKW 피라미드' 모델을 통해 데이터부터 지혜(인사이트) 얻게 되는 프로세스를 살펴볼 수 있다.

DIKW 피라미드 모델

DIKW 피라미드는 Data, Information, Knowledge, Wisdom의 첫 머리글 약자로, 데이터부터 지혜까지의 구조적, 기능적 관계를 나타내는 모델이다. (자세한 설명은 여기 참조)

데이터(Data): 가공되지 않은 객관적인 사실들

정보(Information): 특정 목적을 위해 데이터를 가공해 만들어 낸 결과

지식(Knowledge): 다양한 정보를 체계화시켜 만든 가치

지혜(Wisdom): 패턴화 된 지식을 바탕으로 바른 판단을 하는 능력

위 개념을 바탕으로 실제 현업에서 발생하는 케이스를 가지고 한번 이야기를 해 보자. 나이키에서 1월에 러닝, 트레이닝 매출을 어떻게 올릴지 고민 중이라고 가정하고 DIKW 피라미드 모델로 설명하면 다음과 같다.

데이터 Data: 가용할 수 있는 데이터를 모으고, 팩트를 확인하자.

지난 3년간 닷컴 월별 매출 데이터 및 관련 데이터, 소비자들의 피트니스, 운동, 스포츠 등 검색 결과 데이터, 고객 세그멘테이션 별 세부 데이터 등

정보 Information: 데이터를 분석하고, 관련 있는 정보를 구체화시킨다.

구글 트렌드 고객 검색 결과, 지난 3년간의 닷컴의 카테고리 별 판매 실적 분석, 고객 세그멘테이션 별 분석 자료, 연령별 성별 분석, 퍼포먼스 마케팅 분석 자료, 카테고리 별 Top-selling item 코호트(cohort) 분석, 경쟁사 현황 및 마켓 리서치 및 분석 보고서 등

지식 Knowledge: 관련 데이터를 통해 취득한 정보를 바탕으로 이번 목표에 어떤 가치가 있을지 판단한다.

구글 트렌드 분석을 통해 지난 10년간 매년 1월에 Gym, fitness, Yoga 검색량이 피크를 치는 패턴이 반복되는 것을 파악하고 Youtube에서 운동 관련 콘텐츠 검색량 또한 동일한 패턴을 보이는 것을 알게 되었다. 소비자가 운동한 대한 니즈가 1월에 매우 높은 것으로 판단되었다.

지난 3년간 매출 데이터 리뷰 시 러닝 및 트레이닝 제품의 신상품 판매가 1월에 높게 나타났다. 1월에 러닝, 트레이닝 제품에 대한 소비자들의 관심이 많을 것으로 판단되니 광고 예산을 확대해서 러닝/트레이닝 제품 노출 및 광고 비중을 고려하자

1월에는 할인 제품보다 정상 제품의 성장률이 높게 나타나는 것을 알게 되었다. 따라서 신상품 위주의 상품 구성을 강조해야 할 것으로 판단된다.

젠더 별 상품 선호도 차이: 여성 고객은 스포츠 브라와 레깅스에 대한 니즈가 높고 스타일링에 대한 니즈가 높았고, 남성 고객은 새로운 러닝화의 니즈가 높고 신발 비중이 높았다. 나이키 닷컴에서 상품 노출 시 젠더 별 상품 구성에 차이를 두고 여성은 의류 신상품 위주로 구성하자

고객 세그먼트 중 스포츠 관심 고객의 매출 비중이 높게 나오는 것을 알게 되었다. 따라서 스포츠 관심 타깃 고객을 중점적으로 마케팅 커뮤니케이션을 해야 한다.

지혜 Wisdom(insight): 데이터로부터 시작된 정보 및 지식을 바탕으로 옳은 방향성을 제시한다.

고객들은 할인 프로모션이 중심인 11월 블랙 프라이데이 커머스 모멘텀과는 달리, 1월은 새해를 맞이해 자신을 위한 소비, 건강, 그리고 미래를 위한 투자를 중요시한다. 따라서 나이키 러닝 및 피트니스 앱인 NRC /NTC를 통해 지속적인 운동을 할 수 있도록 동기 부여 및 이를 지원하고, 나이키와 unbreakable relationship(지속적인 관계)을 만들 수 있도록 하자.

자, 이제는 실행에 옮겨 보자.

머천다이징 팀은 지난 3년간 매년 겨울 어떤 러닝, 트레이닝 제품이 판매가 잘 되었는지와 재고 및 구매 내역을 확인할 것이고, 데이터 사이언스팀은 잠재 고객을 타기팅 하기 위해 RFM(Recency, Frequency, Monetary) 즉 최근에 얼마나 자주 방문했으며, 구매 금액에 따라 고객 등급을 나눌 것이고, 마케팅 콘텐츠 팀은 새해 목표 운동을 독려할 콘텐츠를 만들고 퍼포먼스 마케팅팀은 어떤 검색 및 소셜 채널에 얼마의 버짓으로 운용할 것인지 계획을 짤 것이며, 마지막으로 온라인 세일즈 팀은 지난 데이터를 참고해 목표 금액을 설정하고 사이트 구성 및 프로모션 계획을 구성할 것이다. 아마 대부분의 회사에서 이와 비슷한 프로세스로 일 처리를 할 것이다.

여기서 올해 목표는 구매 전환율과 판매 금액을 동시에 올려야 한다고 하자.

사실 이를 위해서는 정교한 타기팅이 필수이다. 그래서 러닝, 트레이닝 제품을 살 잠재 고객을 알아내기 위해 20~30대 주요 고객층 중에, 지난 1년 동안 러닝, 트레이닝 제품을 2번 이상 구매했고, 또한 지난 6개월 이내에 3번 이상 사이트를 방문한 고객을 추렸다. 또한 NRC, NTC 앱을 이용한 데이터를 포함시켜 실제 운동을 하는 고객을 목표로 하였고, 소셜 채널 및 이메일에 데이터까지 반영해 잠재 고객까지 포함한 정교한 타깃을 설정했다. 물론 이들을 위한 customized 된 콘텐츠를 만든 것은 당연한 일이다.

이러한 노력으로 잠재고객에게 메시지를 보낸 결과와 지난번과 비교해 높은 오픈율과 구매 전환율 목표를 달성했다. 축하해야 하나? 데이터 타기팅의 성공인가? 안타깝게도 그렇지 않다. 문제는 너무 정교한 타깃을 설정한 나머지 실제 타깃 숫자가 너무 적어서 두배의 구매전환율 상승에도 불구하고 목표 세일즈 금액은 달성하 지를 못했다.

그래서 이번에는 판매 목표를 달성하기 위해 기존 타기팅을 무시하고 지난 1년간 구매자 전체를 대상으로 메시지를 보냈고, 비록 구매 전환율은 현저히 낮았지만 목표 판매 금액은 달성할 수 있었다. 그러나 이러한 접근은 해당 메시지와 관련 없는 다수의 고객들에게 피로감을 주었고, 이로 인해 높은 회원 이탈률을 초래했다.

어디서 많이들 들어본 익숙한 광경 인가? 아마도 대부분 이러한 반복되는 과정들을 통해 타깃에 대한 이해를 높이고, 적절한 균형점을 찾을지도 모른다. 하지만 인공 지능 시대에도 이런 방식이 통할까? 더 나은 방법이 있지 않을까? 인공지능 시대에는 어떻게 데이터를 활용해 구매 전환율 및 매출을 동시에 올릴 수 있을지 한편 알아보자.

머신러닝 활용해 예측 분석하기

머신러닝이란 인공 지능을 구현하는 방법 중 가장 중요한 내용으로 데이터와 원하는 결과 값을 주면 스스로 학습하여 조건을 찾는 방식이다. 작동 방식(학습 방법)에 따라 크게 세 가지로 나눌 수 있다.

지도 학습(Supervised learning): 학습 데이터(training data)로 학습, 예측 모델에 사용

비지도 학습(Unsupervised learning): 정답 없이 학습, 군집화 등에 상요

강화 학습(Reinforcement learningn): 시뮬레이션 반복 학습, 성능 강화 등에 사용

이미지 출처: https://www.codementor.io/@sandraparker/5-machine-learning-tools-for-programmers-10hro5gbaz

여기서 머신 러닝에 대해 자세히 설명하기보단, 앞서 이야기 한 사례를 머신 러닝 중 '지도 학습(Supervised learning)으로 어떻게 해결할 수 있을지 살펴보자. 기본적으로 위의 DIKW 피라미드 예시는 우리의 가정 assumption)을 기반으로 데이터 분석을 해 경험을 토대로 내리는 결정이다. 그리고 분석하는 사람 따라 혹은 높은 직급의 판단에 따라 그 결과가 쉽게 바뀐다. 또한 아무리 정교하게 고객 타기팅을 하더라도 놓치는 부분이 발생하는데, 예를 들면 20~30대의 러닝, 트레이닝 고객을 주요 타깃을 설정하는 순간 나머지 30%의 다른 연령에서의 구매 고객들과 러닝, 트레이닝을 구매하지 않은 잠재 고객을 포기하게 돼 버린다.

머신 러닝을 활용하면 이러한 문제들을 한꺼번에 해결할 수 있다. 어떻게?

우선 머신 러닝을 위한 데이터를 준비해야 한다. 처음에는 학습 데이터(Train set)로서 지난 러닝, 트레이닝을 구매했던 모든 고객에 대한 데이터이다. 고객 정보, 구매 정보, NRC & NTC 정보, 닷컴 로그 데이터 등 데이터가 많을수록 좋다.

그다음 인공지능(AI) 프레임 워크를 활용해 모델을 만들고, 이러한 학습 데이터를 통해 러닝, 트레이닝 구매자의 특성을 모델을 훈련(학습)하고 평가한다. 이러한 과정을 토대로 머신러닝 모델은 '러닝, 트레이닝 구매 고객의 특성'을 파악할 수 있게 된다.

학습된 결과를 바탕으로, 이번에는 나머지 전체 고객 데이터(Test set)에 대한 구매 가능성을 넣어 계산한다. 이를 통해서 우리는 러닝, 트레이닝 구매자의 특성을 바탕으로 전체 고객에 대한 러닝, 트레이닝 구매 가능성을 알 수 있게 된다. 즉 개별 고객에 대한 '러닝, 트레이닝 구매 예측 확률'을 가지게 된 것이다. 이를 통해 우리는 러닝, 트레이닝 구매 확률 80 퍼센트 이상의 고객들에게만 메시지 및 오퍼를 보내서, 앞서 이야기 한 구매 전환율과 목표 판매 금액을 동시에 달성할 수 있다.

멋지지 않은가? 물론 실제로 적용하려다 보면 인공지능 프레임 워크에 대한 이해와 오퍼 피팅(overfitting)* 이슈 등 세세한 부분이 걸림돌이 되겠지만, 우리는 개별 고객 하나하나에 꼭 맞는 서비스와 커뮤니케이션을 할 수 있게 된다. 이 놀라운 일들이 지금 벌어지고 있고, 그래서 우리는 이에 대한 공부 및 준비를 해야 하는 것이다.

오버 피팅(Overfitting)이란 머신 러닝 알고리즘의 오차를 증가시키는 원인으로서, 지엽적인 데이터 특성까지 트레이닝(high variance)되어 새로운 데이터에 대해 오차가 증가해 이를 예측하지 못하는 현상이다. 즉 학습이 너무 잘 되어 있어서 학습 데이터에는 높은 정확도를 나타내지만, 테스트나 실제 적용 시에는 성능이 떨어지는 현상을 말한다.

인공지능 시대에는 우리가 이해하는 데이터 및 이를 활용하는 방식에 있어 큰 차이를 보여주는데, 지금까지는 우리가 컴퓨터를 활용해 데이터를 분석하고, 정보와 지식을 얻고 이를 통해 의사 결정을 내려왔다. 그러나 인공 지능 시대에는 우리가 원하는 결과 샘플 데이터만 있으면 머신 러닝(기계 학습)을 통해 예측 값을 받고 이를 적용하면 그만이다. 즉 우리가 직접 분석하거나 의사 결정을 내려야 할 필요가 없어지는 것이다. 따라서 우리는 인공 지능을 통해 나온 결과 값을 보면서 이게 왜 이런지 이해하려고 노력하는 과정이 앞으로 벌어질 것이다.

이해가 안 간다고? 알파고와 이세돌 바둑을 한번 떠올려 보면 알 것이다. 이제 우리는 알파고가 알려주는 대로 바둑을 두면 최고수도 이길 수 있지만 왜 알파고가 그 수를 알려 주는지 모르지 않는가? 바둑을 두어 가면서 나중에 이해하게 되는 것이다. 이제는 프로 바둑 기사들이 알파고로 바둑을 배우는 것이 더 이상 낯설지 않다.

인공지능 시대를 준비하는 우리의 고민

국내 많은 기업들이 인공 지능 및 데이터에 대한 투자를 몇 해 전부터 해 오고 있으나 상황은 그리 녹록지 않다. 인공 지능 원천 기술은 글로벌 테크 기업들이 리딩을 하고 있고, 또한 많은 예산과 투자를 필요로 한다. 또한 현업에서는 데이터 관련 전문 인력들, 예를 들면 데이터 사이언티스트, 데이터 엔지니어, 그리고 데이터 분석가 등의 필요성이 높아지고 있으나 전문 인력은 부족한 실정이다. 데이터 전문 인력의 양성도 시급히 해결해야 할 문제이지만 더욱 중요한 것은, 매일 바쁘게 돌아가는 현업에서 어떻게 데이터를 이해하고 내부 업무에 변화를 주어 이를 실행에 옮길 수 있을지에 대한 인식의 변화이다.

이미지 출처: https://www.surveycto.com/blog/how-artificial-intelligence-is-changing-development/

인공 지능으로 인해 우리 일자리가 위협받는 다고 걱정할 것이 아니라 빠른 시간 내에 인공지능을 어떻게 활용할지를 이해하는 편이 우리에게 필요하다. 즉 우리는 인공지능과 경쟁하는 것이 아니라 인공지능을 사용해 다른 비즈니스 기회를 만들어 내는 사람들과 경쟁하는 것이다.

아직도 데이터를 활용한다는 것은 인간이 데이터를 열심히 분석하여 인사이트를 얻고 이를 의사 결정에 사용하는 개념에 머물러 있다가는 다가오는 인공 지능 시대의 흐름을 놓치게 될 수 있다. 진정한 데이터 드리븐 경영은 데이터를 활용해 매출, 비용 절감 혹은 효율성 증대 등 변화를 만들어 내는 것이 진정한 의미의 데이터 활용이다. 그리고 데이터 분석을 통한 판단을 인간이 아닌 인공지능이 할 수 있도록 받아들이는 인식의 전환이 필요하다. (참고: 인공지능 시대의 비즈니스 전략 정도희 저)

keyword

작가의 이전글인공지능(AI)에 대한 이해와 비즈니스 기회디지털 전환과 다이어트작가의 다음글