brunch

You can make anything
by writing

C.S.Lewis

by 터랭 Jul 30. 2022

데이터 분석이란 뭘까? [1편]

데이터 분석가는 아니지만 분석하고 싶은 사람을 위한 초심자 가이드

안녕하세요! UX 백그라운드를 가지고 현재 스타트업에서 주니어 서비스 기획자로 일을 하고 있는 터랭이라고 합니다. 휘발되는 배움과 경험들이 아까워서 남겨두고자 브런치를 개설하게 되었어요! 앞으로 기획자로써 배우거나 고민하는 점에 대해 남겨보려고 합니다. 가장 처음으로는 "데이터 분석"에 대한 이야기를 해볼까 해요. :)


 



데이터 리터러시, 데이터 문해력이라고 하죠. 요즘 시대에 다양한 직군을 불문하고 중요하게 꼽히는 역량입니다. 저도 이 역량을 키우기 위해 고군분투하고 있어요. 


직군과 도메인 특성상 데이터를 분석할 일이 많은데요, 할 때마다 늘 숫자와의 싸움에 머리를 싸매고 괴로워하지만 제법 그럴싸한 인사이트가 나오면 괜히 뿌듯해지곤 합니다. (물론 그 분석으로 인해 해야할 일이 더 쌓이긴 하지만요.)


숫자와의 씨름...가설과 맞지 않는 결과...


데이터는 그 자체로는 아무런 의미가 없습니다. 왜냐하면 데이터는 그저 ‘결과’일 뿐, ‘결과’에 영향을 끼치는 요인은 생각보다 너무나 많고, 그 결과를 어떻게 해석해야할지는 분석하는 사람의 몫입니다. 수학 공식처럼 데이터 분석에도 명쾌한 정답지가 있으면 좋으련만, 우리는 해석할 때 너무나 많은 고려요인과 변수에 머리가 아파집니다. 어떻게 분석을 진행해 나가야 할지도 처음엔 막막하기만 하죠.


데이터 사이언티스트는 아니지만, 기획자로써 데이터를 어떻게 생각하고, 분석하고 있는지 정리해보았습니다. 


※ 저처럼 데이터 전문가가 아니지만 데이터를 활용해야 하는 분들이 좀더 쉽게 데이터를 해석하셨으면 해서 완전완전 데이터 분석 초보자에게 전달하듯이 적어보았어요. :)


  



자, 우리에게 데이터라는 결과값이 주어졌습니다. 이건 그저 반죽덩어리입니다. 그 자체로는 어떤 요리가 될지 알 수가 없죠. 우리는 이 녀석을 쓸만한 것으로 만들기 위해 "분석"이 필요합니다. 제가 생각하는 데이터 분석을 위한 단계를 정리해보자면, 아래와 같습니다. 


[1] 메뉴를 정해볼까? (목적) - 분석하는 목적 설정
[2] 사용할 재료에 대해 알아보자! - (이해) 분석 대상에 대한 이해, 데이터에 영향을 끼치는 다양한 변수, 데이터가 수집된 기준
[3] 으쌰, 요리를 하자! (가설) - 데이터에 대한 가설 설정
[4] 성공적으로 요리한 게 맞나? (검증) - 정확한 데이터 해석을 위해서 일정 조건(세그먼트)가 동일한 다른 세그먼트와의 비교


저는 어떤 방식으로 데이터를 분석하는지, 각 단계마다 진행하는 이유와 예시를 들어 말씀해 드릴게요. :)



1. 메뉴를 정해볼까?

분석하는 목적 설정



모든 분석의 시작은 분석을 하는 명확한 목적을 먼저 정하는 것입니다. 같은 데이터라도 분석하는 목적에 따라 살펴볼 데이터도 달라지고, 해석도 천차만별이 될 수 있기 때문인데요! 데이터 분석을 하는 목적은 대표적으로 새로운 비지니스 발굴, 현황 분석, 성과 분석, UI 개선 목적 등이 있을 것 같네요. 


그럼 어떻게 데이터가 달라지고, 해석이 달라질 수 있느냐! 간단한 예시를 들어볼게요.  

해석이 달라진다! 


어떤 CTA의 클릭률이 10click이라고 해서 꼭 낮은걸까요? 현황 분석시, 페이지 내 전체 CTA에 비해서는 매우 적은 클릭이라 비중이 낮은 CTA로 해석될 수 있고, 개선 분석이라면 개선 전과 비교해 +8click이 증가한 것일 때, 이 10click이 유의미한 성과가 될 수 있겠죠. 

(물론 전과 후의 경우, 모수에 따라 유입 대비 클릭수로 비교하는 것이 맞습니다.)           

 



목적에 따라 볼 데이터가 달라진다! 
분석 목적은 우리의 길라잡이가 되어줍니다.


UI 개선이 목적이라면, 사용자의 인터랙션에서 발생하는 문제점을 찾아볼 수도 있겠죠. 캐러셀 활용도라던가, 필터값을 얼마나 잘 활용하고 있는지, 유입 전/후를 살펴보고 사용자가 다음 페이지에 기대하는 바에 맞게 CTA 레이블을 잘 제공하고 있는지 등을 유추해볼 수도 있을 것입니다. 


반면, 성과 분석이라면 오히려 더 쉽겠죠! A/B 달라진 부분에만 집중해서 데이터를 살펴보면 됩니다. 위치, 디자인, 인터랙션 방식 등 변경된 부분의 데이터를 집중적으로 분석하게 되겠죠.            




2. 사용할 재료에 대해 알아보자!


우리가 분석할 때 보는 데이터는 어떻게 만들어졌을까요?


2-1. 분석 대상에 대한 이해  

모든 분석의 시작은 분석 대상에 대한 이해가 선행되어야 한다고 생각합니다. 서비스의 IA나, 도메인 특성에 대한 이해, 히스토리와 같은 것들이죠.


서비스의 IA는 왜 알아야 할까요?


A라는 페이지를 분석한다고 했을 때, 유입 경로, 사용자 시나리오상 A페이지가 어떤 flow에 있는지,혹은 접근하기 위해 특정 조건이 필요한지 등에 대해 충분한 이해가 필요합니다. 이미 유입되기 전 특정 단계에서 진입 조건을 달성하기 어려워, A페이지의 유입이 매우 적을 수도 있겠죠. A페이지를 분석할 때에도 단순히 A페이지만을 보는 것이 아니라, 해당 페이지까지 도달하기 전에 이탈이 증가하는 구간은 없었는지 ‘과정’을 살펴봐야 합니다. 그리고 과정을 살펴보기 위해서는 서비스의 전체 구조에 대한 이해가 필요한 것이죠.


도메인 특성에 대한 이해는 무엇인가요? 


저는 분석을 할 때, 크게 2가지로 나눠서 고려합니다. 콘텐츠 vs 과업수행으로 말이죠! 내 서비스의 목적이 무엇인지에 따라 지표를 해석할 때 크게 달라지게 됩니다. 


단순히 체류시간이 많다고 해서 좋은 것일까요? 아니면 전환이 많다고 해서 좋은 걸까요? 단순한 공식이 있다면 좋겠지만 데이터는 특성에 따라 매우 다르게 해석될 수 있습니다.


*저는 크게 2가지로 분류했지만 서비스 전체 특징이나 페이지/기능의 목적에 따라 아래 해석은 다르게 적용될 수 있습니다.

콘텐츠

콘텐츠가 주요한 서비스나 페이지의 경우, 콘텐츠를 소비하기에 충분한 체류시간이 나타나고 있는지, 어떤 요소에서 인터랙션이 많이 발생하는 지 등을 살펴보아야 합니다. 


예를 들어, 3분짜리 유튜브 콘텐츠가 제공되는 페이지에서 10초만에 다음 페이지로 전환이 발생하는 패턴이 이어진다면 단순히 전환이 많이 발생한다고 해서 긍정적이라고 해석되긴 어렵습니다. 제공되는 콘텐츠를 변경하거나, 위치나 방식을 조정해보거나 하는 디자인적 개선이 있을 수도 있고, 좀더 근본적으로는 사용자가 빠르게 다음 목적지로 향하는 이유가 무엇일지, 진정 원하는 목표가 무엇인지 고민해볼 수도 있겠죠.      


                          

과업수행

단계별로 사용자가 행해야 하는 task가 있는 경우, 체류시간이 짧은 것이 좋습니다. 결과에 도달하기 위해 거치는 단계에서 체류시간이 길 경우, 무언가 사용자의 입력이나 선택을 지체하게 만드는 요인이 있다는 것이겠죠. 


예를 들어, 이커머스의 경우, 일반적으로 “유입 > 탐색 > 장바구니 > 결제”의 과정으로 사용자 경험이 이루어지는데요. 탐색에서 장바구니의 체류시간, 장바구니에서 결제의 체류시간이 길 경우, 부정적으로 해석될 수 있습니다. 각 단계마다 전환을 늦추는 요인이 무엇일지 분석이 필요하죠.



2-2. 데이터에 영향을 끼치는 다양한 변수  


데이터는 그저 결과물을 보여주기 때문에 우리는 어떤 변수가 데이터에 영향을 끼쳤는지 파악하는 것이 중요합니다.   

데이터는 다양한 변수를 고려하여 해석해야 합니다.


어떤 세그먼트를 선택했는지

로우 데이터(raw data)나 다양한 분석 툴에서 우리가 선택할 수 있는 세그먼트가 있죠. 그럼 어떤 세그먼트를 선택해서 분석하는 지가 중요한 이유는 뭘까요? 대표적인 세그먼트인 분석기간과 유입경로로 예를 들어볼게요.                  



분석 기간


예를 들어, 커리어를 위한 인사이트를 전달해주는 A 서비스수영복을 판매하는 B 서비스의 일자별 사용자수는 어떤 패턴을 가지게 될까요? 일반적으로 A 서비스는 평일 출근시간대나 저녁에 고객 수가 많을 것이고, B 서비스는 여름 시즌에 사용자 수가 급증하겠죠. 


그런데 만약 분석가가 최근 5일을 분석한다고 하고 우연히 공휴일 3일+주말 2일을 분석하게 된다면요? 우리 서비스의 평균 사용자 수가 생각보다 많이 낮고, 인터랙션이 별로 없구나라고 판단할 수 있겠죠. 혹은, 겨울에 분석을 하고 우리 서비스의 평균 추이는 이렇구나, 판단하고 많은 트래픽에 대비하지 않고 있다가 여름에 유입이 급증하게 된다면? 몰리는 트래픽에 서버가 다운될 수도 있고, 구매는 많은데 주문에 대응할 재고가 모자랄 수도 있겠죠. 

(물론 기본적으로 서비스를 이해하고 있다면 이런 오류는 범하지 않겠지만, 극단적인 예시를 들어봤어요.)                      


유입경로


유입경로에 따라서도 고객 행동이 다르게 나타날 수 있습니다. 각 경로에서 사용자가 가지는 접근 목적이 다를 수 있기 때문인데요, 예를 들어 C라는 이커머스 서비스가 있다고 해볼까요? a. 이벤트 페이지에 접근한 유입경로인 소셜 창구, b.로그인해야만 접근 가능한 C서비스의 커뮤니티라면, 사용자가 해당 이벤트 페이지에 원하는 내용이 조금씩 다를 수 있겠죠? 


a.소셜로 접근한 경우, 기존 고객보다는 바이럴에 의한 신규 고객(미가입)일 가능성이 더 높습니다. 그렇다면 신규 고객에게 적용되는 혜택이나 어떤 서비스인지 어필하는 것이 더 필요할 수 있습니다. 

b.내부 커뮤니티에서 접근한 경우, 기존 고객으로 해당 이벤트에 참여할 수 있는 조건인지를 빠르게 파악하고 다음 단계로 진행하는 행동을 보일 수도 있을 것 같네요.            



설정한 분석 기간에 데이터에 영향을 끼칠만한 이벤트는 없었는지


특정 일자 이후로 며칠간 데이터가 증가했다고 해서 무조건 긍정적일까요? 


마케팅 이벤트에 의해서 체리피커 고객의 유입이 늘었을 수도 있고, 예상치 못한 곳에서 바이럴이 발생해 고객이 단기적으로 늘었을 수도 있습니다. 혹은 개편으로 인해서 URL이 변경되면, 분석하고자 등록했던 페이지의 URL에는 데이터가 수집되지 않아 고객유입이 줄어든 것으로 오인될 수도 있죠. UI가 변경되서 아예 특정 기간에는 데이터가 수집이 안되었는데 그것을 인지하지 못할 수도 있습니다. 이렇게 나열만 했는데도 데이터에 영향을 끼칠만한 이벤트 케이스가 굉장히 많은 것 같죠?


분석하는 사람은 분석 대상 데이터에 영향을 끼칠만한 이벤트가 없었는지, 히스토리에 대해 내부 관계자와 계속해서 소통해야 합니다. 




2-3. 데이터가 수집된 기준  


혹시 초보 분석가분들! 로우데이터,GA등의 분석툴에서 제공하는 데이터 값의 기준을 잘 알고 계신가요? 날 것의 데이터라고는 하지만 제작자의 의도에 의해 한번 가공된 값일 가능성이 높습니다.   

분석 범위에 대한 기준을 먼저 이야기해볼게요. 


클릭수 1,000개인 CTA “D”가 있다면, 어떤 생각이 드시나요? 


만약 분석 범위를 고려하지 않는다면 단순히 우리 서비스에서 가장 좋은 CTA는  “D”라고 생각할 수도 있겠죠. 그런데 전체 디바이스와 중복 클릭을 고려하지 않은 값이라면요? 


극단적으로 특정 디바이스에서 클릭시 반응이 없는 CTA라 10명의 사용자가 100번씩 클릭했다면 과연 인기 CTA가 맞을까요?   



계산 기준은 어떻게 달라질 수 있을까요? 


예를 들어, “평균 체류시간”을 이야기해볼게요! 평균 체류시간은 서비스의 전체 페이지를 기준으로 계산된 체류시간인지, 유니크한 방문자의 체류시간인지, 30분 이상 넘게 체류한 경우는 포함되지 않는 것인지 등 생각보다 많은 기준들로 계산될 수 있는 데이터입니다. 


그런데 우리한테 표현되는 건? 평균 체류시간, 이 단순한 레이블 뿐이죠. 


막연히 전체 페이지에서 고객이 머무른 체류시간을 고객 수대로 나눠서 계산했겠구나,라고 생각할 수 있지만, '페이지'라는 기준, '고객'이라는 기준, '체류시간'이라는 기준 모두가 예측과 같지 않을 수 있다는 점을 말씀드리고 싶었어요!  



위 2가지 예시는 분석을 하기 전, 내가 분석하고자 하는 데이터가 어떻게 수집된건지, 어떤 기준으로 정리된 값인지 한번쯤은 정확하게 파악하는 것이 중요한 이유입니다. 


*체류시간 외 다른 값들도 마찬가지입니다. 전환이나 이탈도 중요한 지표이지만 수집기준이나 계산 방식에 따라 사용자의 데이터가 다르게 나타날 수 있습니다. 




오늘은 데이터 분석 단계 중 1,2단계를 정리해봤습니다. 어쩌다보니 1편,2편으로 나뉘게 되었네요…! 최대한 짧게 쓰고 싶었는데 평소 수다쟁이의 본능은 어디가지 않나봅니다. 평소 생각하던 내용들을 풀어서 적다보니 양이 길어졌네요. 이번 편에서는 본격적인 데이터 분석을 위한 초석 다지기였다고 이해해주시면 좋을 것 같아요.


그럼 다음에는 가장 중요한 데이터 분석의 3,4단계에 대한 저의 생각을 이어서 써보도록 하겠습니다.


틀리거나 다른 내용이 있을 수도 있습니다. 내용에 대한 생각이나 비판을 남겨주시면, 앞으로 더 발전해보도록 하겠습니다! :)


그럼 우린 다음에 만나요! 안녕!


작가의 이전글 바쁘니까 나중에...[절망편]
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari