라이킷 28 댓글 4 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

업무에 활용하는 통계 개념 : 상관분석

통계 이론 | 통계 분석 | 데이터 분석

by 해라 Aug 21. 2020

이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.


이전 글에서는 데이터를 다루는 목적에 따른 2가지 통계 분석 방법에 대해서 소개했습니다.

이 글에서는 데이터 분석 방법 중 상관분석에 대해서 소개하고, 업무에 이 통계 분석을 활용하는 스킬을 다룹니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

마케터에게 필요한 '기초 통계 개념' 바로가기 >

업무에 활용하는 통계 개념 : 기술통계&추리통계 바로가기 >




1. 상관분석(Correlation Analysis)

상관분석이란 두 변수가 선형적인 관계를 가지는지 분석하는 기법으로 상관계수를 가지고 측정합니다.

상관분석은 두 변수가 서로 상관관계가 있음을 나타낼 뿐 인과관계를 나타내지는 않으며, 상관계수에는 단위가 없기 때문에 단위가 다른 변수들 간의 분석도 가능합니다.


상관분석에서 상관계수는 -1~1 사이의 값을 가지며, 상관계수가 음의 값(-값)을 가질 경우 음의 상관관계를 가진 것으로 한 변수의 값이 작으면 다른 변수의 값이 커집니다.

반대로 상관계수가 양의 값(+값)을 가질 경우 양의 상관관계를 가진 것으로 한 변수의 값이 커지면 다른 변수의 값도 커집니다.


참고로 상관계수에 따른 상관관계 정도에 대한 해석은 아래와 같으며, 상관계수가 절댓값 1에 가까울수록 서로 상관관계가 높음을 의미합니다.

브런치 글 이미지 1


사실 상관분석은 기술통계학에 해당되지만, 추리통계에 앞서 선행되면 변수들 간의 관계에 대한 정보를 얻을 수 있을 뿐만 아니라, 추리통계를 위한 가설을 설정하는 데에도 도움이 되는 분석 방법입니다.


2. Excel을 활용한 상관분석

상관분석은 복잡한 계산식이나 통계 프로그램이 없어도 Excel을 통해 쉽게 계산할 수 있습니다.


아래와 같은 순서로 Excel의 데이터 분석 기능을 활용하여 상관분석을 할 수 있습니다.

데이터(리본 메뉴) > 분석(리본)의 데이터 분석 > 상관 분석 > 입력 범위 지정 > 첫째 행 이름표 사용 체크 > 확인

브런치 글 이미지 2

* 만약 데이터(리본 메뉴)에서 데이터 분석 버튼이 없는 분들은 파일 > 옵션 > 리본 사용자 지정 > 개발 도구 > Excel 추가 기능 > 분석 도구 체크박스 설정을 하시면 데이터 분석 옵션이 생깁니다.


3. 상관분석의 결과 해석

상관분석의 결과를 해석하는 방법은 아래의 예시를 통해 설명하겠습니다.


아래 데이터는 매출과 다른 변수들 간의 상관관계를 확인하기 위해 모바일 앱 설치 광고 지표를 Excel의 상관 분석 기능을 활용하여 출력한 데이터입니다.

브런치 글 이미지 3

출력된 데이터를 확인하면 행과 열에 각각 매출, 도달, 클릭, 앱 설치, 광고 비용이라는 동일한 변수가 적혀있습니다.

앞서 이야기한 것처럼 상관 계수는 절댓값 1에 가까울수록 서로 상관 관계가 높음을 의미합니다.

제가 임의로 1이 있는 부분에 빨간색 대각선을 그어 놓았는데, 이 부분은 매출과 매출의 상관 관계, 노출과 노출의 상관 관계 등 동일한 변수들 간의 상관관계를 나타내고 있기 때문에 상관 계수가 1로 표시가 되는 것입니다.

즉, 상관 계수가 1이라는 것은 두 변수가 동일한 변수임을 의미합니다.

* 참고로 Excel을 이용해 상관 분석을 하게 되면 위의 데이터처럼 대각선 상단이 비어있는 결과가 출력되지만, SPSS 등 다른 통계 프로그램을 이용하게 되면 하단 결과 값들과 대칭되는 값들이 출력됩니다. Excel은 이 값들이 결국 중복 값이기 때문에 편의상 빈 결과로 출력하는 것입니다.


또한, 제가 임의로 표시한 아래의 초록색 음영 부분을 보면 첫 번째 열의 매출과 다른 변수와의 상관관계를 한눈에 알 수 있습니다. (상단의 출력된 데이터와 동일한 데이터입니다.)

브런치 글 이미지 4


하지만 만약 확인하고자 하는 매출이 첫 번째 열이 아니라 세 번째 열에 있다면, 매출과 다른 변수와의 상관계수가 하나의 열에 모여있지 않아 아래와 같이 쉽게 확인하기 어렵습니다.

브런치 글 이미지 5

그렇기 때문에 처음부터 row data를 나열할 때 확인하고자 하는 핵심 변수를 제일 앞 열에 두고 상관분석을 진행하는 것이 해당 변수와 다른 변수와의 상관관계를 한눈에 확인하기 좋습니다.


아래는 상관계수를 기반으로 매출의 상관관계 정도를 컬러로 표시한 표입니다.

* 진한 주황으로 갈수록 상관관계가 높으며, 파랑은 상관관계가 거의 없음을 나타냅니다.

브런치 글 이미지 6

- 매출과 아주 높은 상관관계가 있는 변수 : 클릭(0.94)

- 매출과 높은 상관관계가 있는 변수 : 도달(0.86)

- 매출과 상관관계가 거의 없는 변수 : 앱 설치(0.17), 광고 비용(0.19)

상관계수를 기반으로 매출과 가장 상관관계가 높은 변수는 클릭과 도달이며, 앱 설치와 광고 비용은 매출과 상관관계가 거의 없다고 해석할 수 있습니다.


또한, 이 분석 결과를 토대로 매출을 증가시키고자 한다면 매출과 가장 상관관계가 높은 클릭, 도달에 대한 상관관계가 높은 변수를 한 번 더 확인해 볼 수 있을 것입니다.

브런치 글 이미지 7

- 도달과 아주 높은 상관관계가 있는 변수 : 클릭(0.98)

- 도달과 다소 높은 상관관계가 있는 변수 : 노출(0.64), 광고 비용(0.57)

- 도달과 낮은 상관관계가 있는 변수 : 앱 설치(0.30)

- 클릭과 다소 높은 상관관계가 있는 변수 : 광고 비용(0.52), 앱 설치(0.40)


도달과 클릭은 아주 높은 상관관계가 있으나, 논리적으로 생각할 때에 광고가 도달된 후에 클릭이 발생되기 때문에 도달이 많이 되면 클릭도 잘 된다는 것을 알 수 있습니다.

즉, 광고가 많이 도달될수록 클릭도 많아지는 것이므로 광고 소재나 타겟이 잘 맞는다고 추측해 볼 수 있습니다.


반면, 일반적으로 광고가 많이 노출되면 도달도 많이 되기 때문에 노출과 도달은 아주 높은 상관관계 또는 높은 상관관계를 보이는 경우가 많으나 지금의 경우에는 도달과 노출의 상관계수가 0.64로 다소 높은 상관관계만 보이는 것을 알 수 있습니다.

그리고 클릭과 광고 비용도 상관계수가 0.52로 다소 높은 상관관계만 보이고 있습니다.

이런 경우는 광고가 동일한 사람에게만 노출되어 노출은 많으나 도달이 떨어지고 있을 가능성이 있다고 추측해 볼 수 있습니다.


앞서 앱 설치와 매출은 상관관계가 거의 없었는데, 앱 설치와 도달 역시 낮은 상관관계가 있는 것으로 미루어보아 매출을 높이기 위해서 앱 설치 광고가 아닌 도달 광고를 하는 것이 더 유리할 수 있겠다고 추측해 볼 수 있습니다.


이 결과들을 종합하여 '도달이 많아지면 매출이 오를 것이다.'라는 가설을 세울 수 있을 것입니다.

그리고 이렇게 세운 가설을 토대로 테스트를 진행하고, 그 결과를 통해 가설을 검증할 수 있을 것입니다.




지금까지 업무에 활용하는 통계 개념 중 상관분석에 대해 설명했습니다.

다른 글을 통해서 또 다른 추리통계의 다양한 모델들의 개념과 이를 업무에 활용하는 방법에 대해 설명드리겠습니다.

매거진의 이전글 업무에 활용하는 통계 개념 : 기술통계&추리통계

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari