통계 이론 | 통계 분석 | 데이터 분석
이전 글들을 통하여 기초적인 개념에 대한 공부를 끝마쳤으니, 이제 통계 개념을 업무에 적용하는 스킬에 대한 내용을 다뤄보도록 하겠습니다.
이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.
이 글에서는 데이터를 다루는 목적에 따른 2가지 통계 분석에 대해서 소개하고, 업무에 이 통계 분석을 활용하는 스킬을 다룹니다.
이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.
기술통계에서 기술의 의미는 아래와 같습니다.
기술(記述) : 대상이나 과정의 내용과 특징을 있는 그대로 열거하거나 기록하여 서술함. 또는 그런 기록.
즉, 기술통계는 데이터의 내용과 특징을 기록하여 서술하는 것을 의미합니다.
기술통계의 분류는 크게 2가지입니다.
첫 번째는 데이터의 집중화 경향입니다.
데이터 집중화 경향이란 데이터가 어떤 값에 집중되어 있는가와 데이터를 대표하는 값이 무엇인지를 나타내는 것입니다.
데이터 집중화 경향을 나타내는 값은 평균값, 중앙값, 최빈값 등이 있습니다.
이 값들은 이전 글에서 한 번 설명했던 내용이기도 합니다.
평균값은 모든 수를 더한 후 개수로 나눈 값입니다.
중앙값은 모든 수를 크기 순으로 늘어놓았을 때 가운데에 위치하게 되는 값입니다. (만약 가운데에 있는 데이터가 두 개라면 두 수의 평균이 중앙값입니다.)
최빈값은 모든 수들 중 가장 많이 있는 존재하는 값입니다.
* 이 설명을 보고 잘 이해가 가지 않는다면, 마케터에게 필요한 '기초 수학 개념'에서 예시를 확인하면 쉽게 이해될 것입니다.
두 번째는 데이터의 산포도(또는 분산도)입니다.
데이터의 산포도란 데이터가 얼마나 퍼져있는지를 나타내는 것입니다.
데이터 산포도를 나타내는 값은 최댓값, 최솟값, 분산, 표준편차 등이 있습니다.
최댓값과 최솟값은 이름 그대로 데이터 내에서 가장 큰 값과 가장 작은 값을 의미합니다.
분산은 데이터의 흩어진 정도를 나타내는 값을 의미합니다.
또한, 표준편차는 분산의 제곱근으로 분산과 표준편차는 같은 개념으로 보아도 데이터를 분석하는 데 있어서는 무방합니다.
기술통계를 업무에 활용하는 방법은 간단합니다.
복잡한 계산식이나 전문적인 통계 프로그램이 없어도 Excel만 있으면 데이터 집중화 경향과 산포도를 자동으로 계산할 수 있습니다.
아래와 같은 순서로 Excel의 데이터 분석 기능을 활용하면 됩니다.
데이터(리본 메뉴) > 분석(리본)의 데이터 분석 > 기술 통계법 > 입력 범위 지정 > 요약 통계량 체크 > 확인
* 만약 데이터(리본 메뉴)에서 데이터 분석 버튼이 없는 분들은 파일 > 옵션 > 리본 사용자 지정 > 개발 도구 > Excel 추가 기능 > 분석 도구 체크박스 설정을 하시면 데이터 분석 옵션이 생깁니다.
아래 데이터는 A, B 미디어의 일간 앱 설치수를 Excel 데이터 분석의 기술 통계량 기능을 활용하여 출력한 데이터입니다.
출력된 데이터를 확인하면 A 미디어와 B 미디어의 평균 앱 설치수는 같으나 A 미디어의 분산이 B 미디어보다 큽니다.
분산이 크다는 것은 데이터의 흩어진 정도가 크다는 것이므로, A 미디어의 일간 앱 설치수 등락이 B 미디어보다 크다는 의미가 됩니다.
만약 A 미디어와 B 미디어의 평균 CTR, CPC, CPI가 동일하다고 가정한다면, 앱 설치수의 등락이 심한 A 미디어보다는 앱 설치수가 안정적인 B 미디어를 중점으로 운영하는 계획을 세울 수 있을 것입니다.
추리통계에서 추리의 의미는 아래와 같습니다.
추리(推理) : 알고 있는 것을 바탕으로 알지 못하는 것을 미루어서 생각함.
단어의 뜻과 같이, 추리통계는 가지고 있는 데이터를 바탕으로 예측하는 것을 의미합니다.
여기서 가지고 있는 데이터란 표본이며, 예측하게 되는 것은 모집단입니다.
* 모집단은 전체집단을 의미하고 표본집단은 그들 중 샘플링된 일부 집단을 이야기합니다.
추리통계에서 예측의 방법은 2가지가 있습니다.
첫 번째는 추정(estimation)입니다.
추정(estimation)이란 표본을 통해 모집단의 특성을 추측하는 것입니다.
두 번째는 가설검정(testing hypothesis)입니다.
가설검정(testing hypothesis)은 가설이 통계적으로 유의한 지 테스트하는 것입니다.
* 가설에는 귀무가설과 대립가설이 있는데, 이 부분은 나중에 각각의 통계 모델을 소개하고 결과를 분석하는 단계에서 유의확률과 함께 설명하겠습니다.
업무에 추리통계를 활용하면 아래와 같은 의문들을 예측하거나 해결할 수 있습니다.
1. 주요 고객 연령대(독립변수)가 변화하면 매출(종속변수)이 오를 것인지 예측할 수 있다.
2. 어떤 미디어(독립변수)에 예산을 더 분배할 때 유저가 가장 많이 유입(종속변수)될 것인지 예측할 수 있다.
3. 새로운 미디어(독립변수)를 추가한 후 매출(종속변수)이 오른 경우, 해당 미디어의 효과인지 아닌지 확인할 수 있다.
4. 새롭게 진행된 브랜딩 캠페인(독립변수)이 브랜드 인지도(종속변수) 변화에 영향을 주었는지 확인할 수 있다.
5. 심지어 데이터가 너무 적어 신뢰도가 고민될 때, 신뢰할 수 있을지 없을지 통계적으로 확인할 수 있다.
이밖에도 추리통계를 활용하면 마케팅을 하며 의문이 들거나, 데이터가 방대하여 해석이 어려운 경우 등 여러 가지 경우에서 신뢰 로운 의사결정을 할 수 있습니다.
* 결과가 되는 것을 종속변수, 원인이 되는 것을 독립변수라고 합니다. 자세한 내용은 마케터에게 필요한 '기초 통계 개념'에서 설명을 확인하면 쉽게 이해될 것입니다.
추리통계는 우리가 한 번쯤 들어봤을 T-test, F-test, 회귀 분석 등과 같은 통계 모델을 기반으로 합니다.
다음 글부터는 이 추리통계의 다양한 통계 모델의 개념과 업무에 활용하는 스킬을 차차 다루도록 하겠습니다.
지금까지 업무에 활용하는 통계 개념 중 기술통계와 추리통계에 대해 설명했습니다.
앞으로 다른 글들을 통해서 추리통계의 다양한 모델들의 개념과 이를 업무에 활용하는 방법에 대해 설명드리겠습니다.