brunch

You can make anything
by writing

C.S.Lewis

by 조제 Oct 13. 2023

데이터 기반 디자인


늘 다양한 지식을 전달받고 생각해볼 수 있는 PXD 스토리 중 데이터 분석 방식에 대한 이야기가 흥미있어 다른 기사들과 함께 정리해보았습니다.


[PXD Story 글 ]
Data Driven User Modeling - 데이터 기반 사용자 모델링 프로세스


PXD에서는 정량적 근거로 활용할 수 있어 데이터 기반 프로세스가 종종 필요하다고 하십니다..
아래 내용은 데이터를 기반으로 어떻게 프로젝트를 진행했는지 입니다.


01. User Log Data Sampling (사용자 데이터의 확보)

스프레드 형태의 사용자 데이터를 1차적으로 확보

사용자 로그 데이터 샘플


1. Who (누가?)

1차적으로 사용자 ID를 중심으로 데이터를 추출.
데이터의 유형이나 총합, 평균치는 서비스의 전반적인 흐름이나 경향을 이해하는데 도움이 되지만 사용자 관점으로 서비스를 이해하고 디자인하는데는 도움이 되지 않음.

예를 들어, 특정 서비스 연결 부분에서의 사용자의 이탈이 많았다면 이 부분에 대한 개선이 필요하다고 판단할 수 있지만, 이것만 가지고는 이 부분에서 사람들이 왜 이탈하는지는 알기 어려움
즉 문제의 원인을 파악하고 해결하기 위해서는 사용자별 데이터를 추적하는 것이 중요

2. When (언제?)

시간 축을 기준으로 데이터 보기 - 서비스 이용은 순차적 흐름으로 연결되는 경향이 있기 때문 시간대 별, 일별, 주별, 월별 등 의미 있는 시간 단위가 무엇인지 생각해야함,
또한 서비스 특성에 따라 단발성 이벤트 및 빈도, 또는 지속적 사용이나 점유의 구간 등 유형별 특성을 파악

--- 

실제로 데이터 분석을 진행한 분들 이야기를 들어보면 이커머스에서는 이벤트에 따른 데이터 분석이 상당히 도움이 된다. 3시에 이벤트를 진행했다면 3시를 기점으로 사용자 행동이 어떻게 변했는지, 히트맵으로 분석하기도 하고 시간대별 사용자 방문 횟수, 잔존 시간등을 유의깊게 살펴봐야한다.


3. Where (어디서?)

사용자의 서비스 접속 위치 파악 - 서비스 이용의 환경이나 맥락을 유추 가능.
혹은 서비스 흐름 상의 특정 지점일 수도 있음


4. What (무엇을?)

서비스 목적과 특성을 드러내는 데이터를 추출해서 분석해야함.
콜택시 서비스라면 콜 발생, 콜 취소, 변경, 대기, 결제, 이용 후기, 불만 접수 등 서비스와 직접 관련이 있는 데이터로


5. How (어떻게?)

서비스 이용 행동 패턴에 해당하는 데이터입니다. 보통은 단일 유형의 데이터로 존재하기보다는 위의 'Who, When, Where'에 따라 'What'을 조합하여 결과적으로 'How?'가 드러납니다. 즉, 사용자의 행동목표에 따라 위의 '4W(Who/When/Where/What)'를 조합하여 사용자의 행동 패턴(가설)을 도출해 냅니다.


6. Why (왜?)

행동 패턴을 발견하였다면 위의 각각의 4W 1H의 데이터를 통하여 왜 그런 패턴을 보이는지 이해할 수 있음. 그리고 'Why'를 이해할 수 있다면 행동의 목표(goal)를 이해한 것입니다.

이외에도 기록은 되고 있으나 실제 활용은 잘 안 되고 있는 유용한 데이터가 있을 수 있으니 잘 챙겨 보아야 합니다.

이렇게 파악된 데이터들을 놓고 팀에서 활발한 토의를 하는 과정을 통하여 어떤 데이터를 보는 것이 프로젝트 목표에 부합하는지 판단해야 합니다. 데이터는 객관적 사실이지만 어떤 사실을 채택하여 엮을 것인지는 사람의 판단과 해석이 필요합니다. 데이터는 거들 뿐이죠!


Data Visualization (사용자별 데이터 시각화)

개별 데이터에 연연하지 않고 전체적인 경향을 파악할 수 있는 데이터 시각화.

어떤 행동(데이터)이 어떻게 반복되는지, 각각의 차이가 무엇인지를 이해하는 것이 데이터 시각화의 목표
위의 4W가 패턴 발견을 위한 재료, 여기서 중요한 것은 '사용자별 행동 데이터'를 시각화하는 것입니다. '특정 유형별 데이터'가 아님. 

경험으로 알게 된 유용한 시각화 방법은 시간(When) 또는 공간(Where)에 보고자 하는 주요 이용 데이터(What)를 매핑해 보는 것

무엇을 보고자 하는가에 따라 시각화의 기준은 달라질 수 있지만 시간과 공간이라는 기준은 모두가 영향을 받는 일차적인 조건이어서 기준으로 삼기에 좋음. 샘플링된 사용자 데이터를 시간의 축 또는 공간의 축 위에 매핑을 하기 위해서는 코딩을 통하여 간단한 툴을 만들기도 함 (위 스프레드 시트 데이터를 활용해서)

시간축에 사용자의 행동데이터를 매핑한 예


사용자별로 데이터를 시각화하였다면 다음과 같이 종이에 프린트하여 직접 늘어놓고 보는 것이 도움이 됨. 
이렇게 하면 팀원들이 다 함께 보면서 토론하고 서로 연관성이 깊은 것들을 떼어 가까운 곳에 붙이고 의미를 찾아 나가는 과정을 자연스럽게 진행 가능. 사용자들의 행동 차이를 발견하고 무엇이 이러한 행동의 차이를 만들어 내는지에 대하여 다양한 가설을 세우는 것이 중요합니다. 

사용자별 데이터 시각화를 통한 행동의 차이 발견하기



Data Driven Behavior Pattern (데이터 기반 행동 패턴 도출)

주요한 행동의 차이를 발견할 수 있었다면 이번에는 이러한 행동의 차이들이 서로 어떤 관련이 있는지 조합을 해보면서 차이를 만드는 요인에 대하여 심층적으로 파고 들어가 보아야 함. 행동 패턴의 이유와 목표를 탐색하는 과정.

택시 호출 서비스의 콜 로그 데이터 매핑 비교 예시 (패턴 1,2,3)


위 예시는 택시 호출 서비스의 콜 로그 데이터를 시계열 매핑과 지도 매핑을 예시적으로 나타낸 것
이렇게 주요 시각화 데이터를 교차 비교해보면 해당 행동 패턴이 만들어지는 이유(Why)를 이해할 수 있음.

위 예시에 나타난 패턴(1)(3)각각 오전 출근 시간과 밤늦은 시간에 콜이 몰려서 나타나고 이를 지도 위에서 확인해 보면 특정 두 지점 사이를 반복적으로 이동하는 것으로 보아 출근과 밤늦은 야근 택시를 이용하는 패턴으로 볼 수 있습니다. 패턴(2)의 경우 낮 시간대에 산발적이고 빈번한 콜이 이루어지고 지도 위에서도 다양한 경로가 표시되는 것을 보면 아마도 영업 목적으로 업무 시간 동안의 잦은 시내 이동이 필요한 사용자일 거라고 유추할 수 있습니다.

또 다른 예를 보겠습니다. 다음은 VOD 서비스에서 전형적으로 나타나는 이용 로그 패턴입니다. 마찬가지로 사용자별로 시각화하여 시청 시간대, 재생 시간, 빈도, 소비 콘텐츠 유형 등의 관계를 연결하여 볼 수 있도록 시각화하였습니다.

VOD 서비스의 시간대별 이용 빈도, 길이, 내역에 대한 시각화 및 교차 비교


위 예시에서 좌측은 하루 시간대에 따라 VOD 서비스를 이용한 시간을 표시하였습니다. 단순히 이용했다/안 했다의 사실보다는 얼마나 지속적으로 이용했는지, 전체적인 빈도는 어떤지 볼 수 있도록 구성

그리고 한 번 실행할 때 몇 분을 이용하는지 파이 그래프에 컬러와 면적 대비를 주어 한눈에 알 수 있게 하였습니다. 그리고 서비스 이용의 의도와 목적을 이해하기 위하여 우측 이미지와 같이 하나의 이용 세션에서 어떤 항목을 실행했는지 알 수 있도록 구성하였습니다. 

이렇게 정리되기까지는 어떤 데이터를 봐야 할지, 어떻게 비교해야 할지에 대한 시행착오 필요.
위의 예시는 시청 시간 10분 이내의 짧은 시청 패턴을 가진 사용자들을 보여주고 있는데, 하루 종일 산발적으로 무료 클립 영상을 짧게 시청하는 사용자의 경우 '짬짬이 시간을 때우기 위한 시청 패턴'이라고 볼 수 있습니다. 또는 10분 이상의 다소 긴 영상 시청 전에 매우 짧은 플레이어 실행 기록은 '어떤 콘텐츠를 볼지 사전 탐색하는 패턴'으로 유추해 볼 수 있습니다.

만약 단순하게 데이터 유형별로 보았다면, 예를 들어 하루 평균의 무료 클립 영상의 총 재생 횟수, 시간이나 하루 중 재생 빈도가 가장 높은 시간대를 통계 내는 방식으로 보았다면 위와 같은 사용자의 사용 패턴과 의도를 이해할 수 없을 것입니다. 물론 그 자체로는 서비스 운영에 필요한 유용한 데이터겠지만요. 이제 데이터에 기반하여 사용자의 행동 패턴(가설)을 추출하였습니다. 기존의 정성적인 조사는 적은 표본의 사용자를 관찰하고 인터뷰하면서 연구자의 '감'에 의존하여 행동 패턴을 발견했다면, 이제는 로그 데이터로부터 객관적인 행동의 차이들을 충분한 표본을 통하여 얻어냈고, 이를 다른 데이터와 교차 비교하면서 행동 패턴을 도출해 낸 것입니다. 잊지 말아야 할 것은 '무엇이 유의미한 패턴인가?'라는 해석과 판단은 여전히 사람의 몫

User Research (행동 패턴에 부합하는 사용자 직접 조사)

위의 과정을 통하여 객관적 데이터에 근거하여 의미 있는 행동 패턴 가설을 얻었습니다. 이제는 행동 패턴에 부합하는 실제 사용자를 리크루팅하고 인터뷰와 관찰 등의 필요한 조사 방법을 활용하여 행동 패턴 가설을 검증할 차례입니다. 그리고 데이터만으로는 알 수 없었던, 보다 풍부한 서비스 이용 맥락과 내면의 니즈, 감정, 태도 등 정성적인 데이터를 얻어야 합니다. 이 과정 이후부터는 기존에 익숙하게 해 왔던 정성적 조사와 비슷합니다만, 차이점은 정성 조사 이전에 이미 데이터를 통하여 유의미한 행동 패턴을 파악했고, 이것이 정성 조사를 위한 '꽤 쓸만한 사용자 가설'을 이루고 있다는 것입니다. 이와 같이 데이터에 근거하여 도출된 행동 패턴은 실제 조사를 위한 대상자를 선별하는 가이드가 될 수 있고, 실 조사 이전에 탄탄한 가설을 만들어 주기 때문에 연구자가 안정감과 함께 디테일에 집중할 수 있는 여유를 가질 수 있게 도와줍니다.

결과적으로 데이터 기반의 행동 패턴 도출을 통하여 정성 조사를 더욱 풍부하고 충실하게 진행할 수 있게 되고, 보다 다양한 혁신의 기회를 포착할 수 있을 것입니다.

User + Context Modeling

사용자의 행동 패턴과 숨은 니즈, 맥락에 대한 이해를 했다면 이를 통하여 목표 사용자를 선명하게 만들 수 있음. 기존과 달리 데이터에 근거하여 행동 패턴 가설을 도출하고 실제 사용자 조사를 통하여 이를 검증하였기 때문에 행동 패턴 매핑과 같은 과정은 상당 부분 생략될 수 있음.

기존에는 이 과정에서 어떤 사용 패턴을 주요 패턴으로 도출할지 상당한 노력과 집중을 요했다면, 이제는 데이터 분석 과정부터 가설로 도출된 행동 패턴과 실제 조사를 통한 검증과 이를 통해 이해한 사용자의 목표, 맥락적 디테일을 가지고 사용자 모델링을 진행할 수 있습니다. 그리고 설득력 있는 정량적 데이터와 공감할 수 있는 정성적 데이터를 균형 있게 가질 수 있게 되었습니다.




Validation (행동 패턴에 부합하는 실제 사용자 비율 검증)

이제 데이터에 기반하여 특정 패턴을 추출하였고 이를 통해 사용자 모델을 만들었다면 해당 패턴을 가진 사용자 집단의 크기를 역으로 추정해 볼 수 있습니다. 예를 들어 100만 명의 사용자를 가진 서비스가 있다고 가정하였을 때 무작위 추출 방법에 의해 신뢰 수준 95%, 표본오차 +-3%를 만족하는 표본의 수는 1,066명입니다(샘플 사이즈 계산기). 이 정도 표본 수를 대상으로 위와 같이 행동 패턴을 추출하였을 때 특정 행동 패턴을 만족하는 표본의 숫자(비율)를 구하는 것은 어렵지 않음. 그리고 이 표본 수를 가지고 전체 서비스 사용자 모집단에서의 실제 크기를 추정할 수 있음





출처 http://pxd.co.kr/pages/story/story_detail_06.html

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari