with. HEARTCOUNT
안녕하세요. 하트카운트 팀입니다.
이번 콘텐츠는 '엑셀 데이터 활용하기'의 두 번째 세션입니다.
지난 세션이 궁금하다면 아래 링크를 통해 확인해 보세요. :)
https://brunch.co.kr/@bef6d2c23e1c413/44
엑셀에서 함수는 물론 상단 메뉴바에 있는 기능을 통해서 다양한 분석을 시행할 수 있습니다.
이번 글에서는 그중에서도 간단한 기능이지만 웬만한 업무에서의 분석은 가능한 두 가지 방법을 다루어 보려고 합니다.
데이터셋은 지난번과 동일합니다.
데이터셋을 다운로드하여서 보셔도 좋습니다. 데이터셋은 아래와 같이 구성되어 있습니다.
데이터셋은 슈퍼마켓의 데이터셋입니다. 분석을 살펴보기에 앞서 가설을 설정하겠습니다.
제가 설정한 가설은 "할인율이 높아질수록 이익이 높아진다"입니다.
어떤 방식으로 엑셀 데이터 분석 기능을 활용할 수 있는지는 아래의 gif를 통해 확인이 가능합니다. 보시면 데이터 분석 기능에 다양한 분석 기능이 있지만 그중에서 상관관계(Correlation) 분석을 활용하겠습니다.
(1) 상단 메뉴의 [데이터]로 이동합니다.
(2) 오른쪽 끝에 있는 '데이터 분석' 기능을 클릭합니다. (해당 메뉴가 보이지 않는다면 위 '분석 도구'에서 추가 가능합니다.)
(3) 다양한 분석 종류 중 '상관 분석(Correlation)'을 선택합니다.
(4) '입력 범위(Input Range)'에 분석 대상이 되는 두 열을 선택합니다. 이미지에서는 열 제목도 선택해 '첫째 행 이름표 지정(Label in first Row)'을 체크했습니다.
이런 방식으로 분석을 진행했을 때 결과는 아래와 같습니다.
B3 셀에 보이는 숫자가 할인율과 이익의 상관계수입니다.
*-1에서 1의 범위에서 표시되는 상관계수는 0에 가까울수록 두 변수가 상관관계에 있지 않음을 나타내고 각 -1, 1에 가까울수록 두 변수가 강한 상관관계에 있음을 나타냅니다. 이때 값이 음수일 경우 음의 상관관계, 양수일 경우 양의 상관관계입니다.
할인율과 이익의 상관계수는 약 -0.2로 나타났습니다.
두 변수 간에 큰 상관관계가 있다고 볼 수는 없으나, 음의 상관관계에 있기 때문에 가설과는 달리 할인율이 증가할수록 이익이 감소하는 추세를 보였다고 결론을 내릴 수 있겠습니다.
이번에는 시각적으로 데이터를 탐험하며 분석을 해 보겠습니다.
앞선 통계적 분석의 경우, 기본적인 통계에 대한 선수지식이 필요할 수 있습니다. 그러나 시각적 탐험 분석은 누구나 해석할 수 있기 때문에 분석 과정은 물론이고 이후의 공유에서도 유용합니다.
같은 가설에 대해 분석을 진행해 보겠습니다.
(1) 상단 메뉴의 [삽입]으로 이동합니다.
(2) 분석의 대상이 되는 열을 선택합니다.
(3) '권장 차트' 메뉴를 클릭합니다.
권장 차트를 선택한 이유는 선택된 데이터의 유형에 맞는 시각화 방법을 엑셀에서 추천해 준 것으로 쉽게 시각화가 가능하기 때문입니다. 특정한 차트를 통해 시각화하고 싶다면 '권장 메뉴' 오른쪽의 아이콘에서 선택하시면 됩니다.
해당 차트를 새 탭에 넣은 결과는 아래와 같습니다.
축 제목 없이 차트가 출력되었습니다. 혼동의 위험이 있어 이미지의 순서대로 차트에 축 제목을 넣었습니다.
최종 차트입니다.
차트를 보니 두 변수 간에 음의 상관계수가 나온 것이 이해가 됩니다.
할인율이 특정 지점(30%)을 지나면서 이익은 대부분 마이너스였음을 확인할 수 있습니다.
시각화를 통해서 이런 추가적인 세부 사항을 파악하게 되는 경우도 많이 있습니다.
각 점이 어떤 아이템을 표시하는지 알게 된다면 더 유용한 인사이트를 얻을 수 있을 것 같은데 그러기 위해서는 추가적인 시각화가 필요해 보입니다. (혹시라도 더 좋은 방법이 있다면 댓글로 알려주세요 :D)
지금부터는 손쉬운 분석이 가능한 다른 툴인 HEARTCOUNT에 대해서 짧게 다뤄 보겠습니다.
동일한 가설을 활용해 볼게요 :)
지난 글에서 데이터를 업로드하고 준비하는 과정을 살펴보았으니, 그 부분은 빠르게 넘어가고 엑셀에서와 동일한 차트를 구성했습니다.
HEARTCOUNT로 만든 동일한 차트입니다. 차트 우측 상단에는 상관계수가 계산되어 표시됩니다.
이때 각 포인트를 클릭하면 어떤 제품인지와 함께 이익과 할인율이 상세히 제시됩니다.
또한 x축과 y축에 원하는 변수를 넣어서 즉시 시각화가 가능합니다.
저희 팀에서는 이것에 대해 '생각의 속도로 데이터 탐험이 가능하다'라고 합니다. :)
아래 이미지는 추가적인 분석을 진행해 본 것입니다.
포인트의 색상을 '제품대분류'로 지정해 제품별 추이를 확인했습니다.
이 시각화를 통해서 각 제품군이 어떤 할인율로 많이 판매되었으며 이익은 어땠는지에 대한 추이도 파악할 수 있습니다. 각 제품군별 상관계수는 아래의 두 방법으로 선택할 수 있습니다.
- 오른쪽 범주를 클릭
- 차트 위 화면분할 '제품대분류'
한 가지만 더 살펴볼까요?
마지막 이미지를 보시면 전체 상품군일 때와 사무용품만 선택된 때의 상관계수가 동일한 것을 볼 수 있습니다. 하지만 시각화 겨로 가는 서로 상이합니다. 이러한 이유로 통계적 수치만으로 데이터를 완전히 이해하는 데는 어려움이 있습니다.
엑셀과 HEARTCOUNT를 활용한 데이터 분석 방법을 살펴보았습니다.
다양한 툴을 사용해 보고 여러분에게 더 적합한 툴을 찾는 것도 데이터 역량을 증진시키는 데 도움이 될 것입니다. :)
이번 글이 데이터 니즈를 가진 현업 분들에게 도움이 되었기를 바라며 마무리하겠습니다.
----------------------------------------------------------------------------------------------------------------------