통계 이론 | 통계 분석 | 데이터 분석
이 매거진은 업무에 활용하는 통계 개념이라는 제목으로 수회 차 연재될 예정이며, 개념에 대한 설명과 이 개념을 업무에 활용할 방법에 대해서 설명합니다.
이전 글에서는 데이터를 다루는 목적에 따른 2가지 통계 분석 방법에 대해서 소개했습니다.
이 글에서는 데이터 분석 방법 중 상관분석에 대해서 소개하고, 업무에 이 통계 분석을 활용하는 스킬을 다룹니다.
이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.
업무에 활용하는 통계 개념 : 기술통계&추리통계 바로가기 >
상관분석이란 두 변수가 선형적인 관계를 가지는지 분석하는 기법으로 상관계수를 가지고 측정합니다.
상관분석은 두 변수가 서로 상관관계가 있음을 나타낼 뿐 인과관계를 나타내지는 않으며, 상관계수에는 단위가 없기 때문에 단위가 다른 변수들 간의 분석도 가능합니다.
상관분석에서 상관계수는 -1~1 사이의 값을 가지며, 상관계수가 음의 값(-값)을 가질 경우 음의 상관관계를 가진 것으로 한 변수의 값이 작으면 다른 변수의 값이 커집니다.
반대로 상관계수가 양의 값(+값)을 가질 경우 양의 상관관계를 가진 것으로 한 변수의 값이 커지면 다른 변수의 값도 커집니다.
참고로 상관계수에 따른 상관관계 정도에 대한 해석은 아래와 같으며, 상관계수가 절댓값 1에 가까울수록 서로 상관관계가 높음을 의미합니다.
사실 상관분석은 기술통계학에 해당되지만, 추리통계에 앞서 선행되면 변수들 간의 관계에 대한 정보를 얻을 수 있을 뿐만 아니라, 추리통계를 위한 가설을 설정하는 데에도 도움이 되는 분석 방법입니다.
상관분석은 복잡한 계산식이나 통계 프로그램이 없어도 Excel을 통해 쉽게 계산할 수 있습니다.
아래와 같은 순서로 Excel의 데이터 분석 기능을 활용하여 상관분석을 할 수 있습니다.
데이터(리본 메뉴) > 분석(리본)의 데이터 분석 > 상관 분석 > 입력 범위 지정 > 첫째 행 이름표 사용 체크 > 확인
* 만약 데이터(리본 메뉴)에서 데이터 분석 버튼이 없는 분들은 파일 > 옵션 > 리본 사용자 지정 > 개발 도구 > Excel 추가 기능 > 분석 도구 체크박스 설정을 하시면 데이터 분석 옵션이 생깁니다.
상관분석의 결과를 해석하는 방법은 아래의 예시를 통해 설명하겠습니다.
아래 데이터는 매출과 다른 변수들 간의 상관관계를 확인하기 위해 모바일 앱 설치 광고 지표를 Excel의 상관 분석 기능을 활용하여 출력한 데이터입니다.
출력된 데이터를 확인하면 행과 열에 각각 매출, 도달, 클릭, 앱 설치, 광고 비용이라는 동일한 변수가 적혀있습니다.
앞서 이야기한 것처럼 상관 계수는 절댓값 1에 가까울수록 서로 상관 관계가 높음을 의미합니다.
제가 임의로 1이 있는 부분에 빨간색 대각선을 그어 놓았는데, 이 부분은 매출과 매출의 상관 관계, 노출과 노출의 상관 관계 등 동일한 변수들 간의 상관관계를 나타내고 있기 때문에 상관 계수가 1로 표시가 되는 것입니다.
즉, 상관 계수가 1이라는 것은 두 변수가 동일한 변수임을 의미합니다.
* 참고로 Excel을 이용해 상관 분석을 하게 되면 위의 데이터처럼 대각선 상단이 비어있는 결과가 출력되지만, SPSS 등 다른 통계 프로그램을 이용하게 되면 하단 결과 값들과 대칭되는 값들이 출력됩니다. Excel은 이 값들이 결국 중복 값이기 때문에 편의상 빈 결과로 출력하는 것입니다.
또한, 제가 임의로 표시한 아래의 초록색 음영 부분을 보면 첫 번째 열의 매출과 다른 변수와의 상관관계를 한눈에 알 수 있습니다. (상단의 출력된 데이터와 동일한 데이터입니다.)
하지만 만약 확인하고자 하는 매출이 첫 번째 열이 아니라 세 번째 열에 있다면, 매출과 다른 변수와의 상관계수가 하나의 열에 모여있지 않아 아래와 같이 쉽게 확인하기 어렵습니다.
그렇기 때문에 처음부터 row data를 나열할 때 확인하고자 하는 핵심 변수를 제일 앞 열에 두고 상관분석을 진행하는 것이 해당 변수와 다른 변수와의 상관관계를 한눈에 확인하기 좋습니다.
아래는 상관계수를 기반으로 매출의 상관관계 정도를 컬러로 표시한 표입니다.
* 진한 주황으로 갈수록 상관관계가 높으며, 파랑은 상관관계가 거의 없음을 나타냅니다.
- 매출과 아주 높은 상관관계가 있는 변수 : 클릭(0.94)
- 매출과 높은 상관관계가 있는 변수 : 도달(0.86)
- 매출과 상관관계가 거의 없는 변수 : 앱 설치(0.17), 광고 비용(0.19)
상관계수를 기반으로 매출과 가장 상관관계가 높은 변수는 클릭과 도달이며, 앱 설치와 광고 비용은 매출과 상관관계가 거의 없다고 해석할 수 있습니다.
또한, 이 분석 결과를 토대로 매출을 증가시키고자 한다면 매출과 가장 상관관계가 높은 클릭, 도달에 대한 상관관계가 높은 변수를 한 번 더 확인해 볼 수 있을 것입니다.
- 도달과 아주 높은 상관관계가 있는 변수 : 클릭(0.98)
- 도달과 다소 높은 상관관계가 있는 변수 : 노출(0.64), 광고 비용(0.57)
- 도달과 낮은 상관관계가 있는 변수 : 앱 설치(0.30)
- 클릭과 다소 높은 상관관계가 있는 변수 : 광고 비용(0.52), 앱 설치(0.40)
도달과 클릭은 아주 높은 상관관계가 있으나, 논리적으로 생각할 때에 광고가 도달된 후에 클릭이 발생되기 때문에 도달이 많이 되면 클릭도 잘 된다는 것을 알 수 있습니다.
즉, 광고가 많이 도달될수록 클릭도 많아지는 것이므로 광고 소재나 타겟이 잘 맞는다고 추측해 볼 수 있습니다.
반면, 일반적으로 광고가 많이 노출되면 도달도 많이 되기 때문에 노출과 도달은 아주 높은 상관관계 또는 높은 상관관계를 보이는 경우가 많으나 지금의 경우에는 도달과 노출의 상관계수가 0.64로 다소 높은 상관관계만 보이는 것을 알 수 있습니다.
그리고 클릭과 광고 비용도 상관계수가 0.52로 다소 높은 상관관계만 보이고 있습니다.
이런 경우는 광고가 동일한 사람에게만 노출되어 노출은 많으나 도달이 떨어지고 있을 가능성이 있다고 추측해 볼 수 있습니다.
앞서 앱 설치와 매출은 상관관계가 거의 없었는데, 앱 설치와 도달 역시 낮은 상관관계가 있는 것으로 미루어보아 매출을 높이기 위해서 앱 설치 광고가 아닌 도달 광고를 하는 것이 더 유리할 수 있겠다고 추측해 볼 수 있습니다.
이 결과들을 종합하여 '도달이 많아지면 매출이 오를 것이다.'라는 가설을 세울 수 있을 것입니다.
그리고 이렇게 세운 가설을 토대로 테스트를 진행하고, 그 결과를 통해 가설을 검증할 수 있을 것입니다.
지금까지 업무에 활용하는 통계 개념 중 상관분석에 대해 설명했습니다.
다른 글을 통해서 또 다른 추리통계의 다양한 모델들의 개념과 이를 업무에 활용하는 방법에 대해 설명드리겠습니다.