brunch

엑셀 데이터 활용하기(2) 데이터 분석・시각화

with. HEARTCOUNT

by HEARTCOUNT팀

안녕하세요. 하트카운트 팀입니다.

이번 콘텐츠는 '엑셀 데이터 활용하기'의 두 번째 세션입니다.


지난 세션이 궁금하다면 아래 링크를 통해 확인해 보세요. :)

https://brunch.co.kr/@bef6d2c23e1c413/44


제목을 입력하세요 (10).png


엑셀에서 함수는 물론 상단 메뉴바에 있는 기능을 통해서 다양한 분석을 시행할 수 있습니다.

이번 글에서는 그중에서도 간단한 기능이지만 웬만한 업무에서의 분석은 가능한 두 가지 방법을 다루어 보려고 합니다.


데이터셋은 지난번과 동일합니다.


데이터셋을 다운로드하여서 보셔도 좋습니다. 데이터셋은 아래와 같이 구성되어 있습니다.

스크린샷_2023-02-09_오후_5.23.38.png


데이터셋은 슈퍼마켓의 데이터셋입니다. 분석을 살펴보기에 앞서 가설을 설정하겠습니다.

제가 설정한 가설은 "할인율이 높아질수록 이익이 높아진다"입니다.



1. 엑셀 데이터 분석 기능 - '상관관계 분석'


어떤 방식으로 엑셀 데이터 분석 기능을 활용할 수 있는지는 아래의 gif를 통해 확인이 가능합니다. 보시면 데이터 분석 기능에 다양한 분석 기능이 있지만 그중에서 상관관계(Correlation) 분석을 활용하겠습니다.


화면_기록_2023-02-10_오전_10.53.57.gif *중간에 잘려 끝까지 확인이 어려울 경우, 클릭하여 원본을 보실 수 있습니다.

(1) 상단 메뉴의 [데이터]로 이동합니다.

(2) 오른쪽 끝에 있는 '데이터 분석' 기능을 클릭합니다. (해당 메뉴가 보이지 않는다면 위 '분석 도구'에서 추가 가능합니다.)

(3) 다양한 분석 종류 중 '상관 분석(Correlation)'을 선택합니다.

(4) '입력 범위(Input Range)'에 분석 대상이 되는 두 열을 선택합니다. 이미지에서는 열 제목도 선택해 '첫째 행 이름표 지정(Label in first Row)'을 체크했습니다.


이런 방식으로 분석을 진행했을 때 결과는 아래와 같습니다.


스크린샷_2023-02-10_오후_2.15.40.png


B3 셀에 보이는 숫자가 할인율과 이익의 상관계수입니다.


*-1에서 1의 범위에서 표시되는 상관계수는 0에 가까울수록 두 변수가 상관관계에 있지 않음을 나타내고 각 -1, 1에 가까울수록 두 변수가 강한 상관관계에 있음을 나타냅니다. 이때 값이 음수일 경우 음의 상관관계, 양수일 경우 양의 상관관계입니다.


할인율과 이익의 상관계수는 약 -0.2로 나타났습니다.

두 변수 간에 큰 상관관계가 있다고 볼 수는 없으나, 음의 상관관계에 있기 때문에 가설과는 달리 할인율이 증가할수록 이익이 감소하는 추세를 보였다고 결론을 내릴 수 있겠습니다.




2. 엑셀 차트 - 시각화 (EDA; 시각적 탐험 분석)


이번에는 시각적으로 데이터를 탐험하며 분석을 해 보겠습니다.


앞선 통계적 분석의 경우, 기본적인 통계에 대한 선수지식이 필요할 수 있습니다. 그러나 시각적 탐험 분석은 누구나 해석할 수 있기 때문에 분석 과정은 물론이고 이후의 공유에서도 유용합니다.


같은 가설에 대해 분석을 진행해 보겠습니다.

화면_기록_2023-02-10_오후_4.23.36.gif

(1) 상단 메뉴의 [삽입]으로 이동합니다.

(2) 분석의 대상이 되는 열을 선택합니다.

(3) '권장 차트' 메뉴를 클릭합니다.


권장 차트를 선택한 이유는 선택된 데이터의 유형에 맞는 시각화 방법을 엑셀에서 추천해 준 것으로 쉽게 시각화가 가능하기 때문입니다. 특정한 차트를 통해 시각화하고 싶다면 '권장 메뉴' 오른쪽의 아이콘에서 선택하시면 됩니다.


해당 차트를 새 탭에 넣은 결과는 아래와 같습니다.

2.png

축 제목 없이 차트가 출력되었습니다. 혼동의 위험이 있어 이미지의 순서대로 차트에 축 제목을 넣었습니다.


최종 차트입니다.

스크린샷_2023-02-10_오후_4.39.12.png


차트를 보니 두 변수 간에 음의 상관계수가 나온 것이 이해가 됩니다.

할인율이 특정 지점(30%)을 지나면서 이익은 대부분 마이너스였음을 확인할 수 있습니다.

시각화를 통해서 이런 추가적인 세부 사항을 파악하게 되는 경우도 많이 있습니다.


각 점이 어떤 아이템을 표시하는지 알게 된다면 더 유용한 인사이트를 얻을 수 있을 것 같은데 그러기 위해서는 추가적인 시각화가 필요해 보입니다. (혹시라도 더 좋은 방법이 있다면 댓글로 알려주세요 :D)




3. 하트카운트(HEARTCOUNT)를 활용한 분석


지금부터는 손쉬운 분석이 가능한 다른 툴인 HEARTCOUNT에 대해서 짧게 다뤄 보겠습니다.

동일한 가설을 활용해 볼게요 :)


지난 글에서 데이터를 업로드하고 준비하는 과정을 살펴보았으니, 그 부분은 빠르게 넘어가고 엑셀에서와 동일한 차트를 구성했습니다.


페이지 로딩 시간의 문제로 gif가 아닌 영상으로 올렸습니다.


HEARTCOUNT로 만든 동일한 차트입니다. 차트 우측 상단에는 상관계수가 계산되어 표시됩니다.

스크린샷_2023-02-10_오후_5.24.18.png

이때 각 포인트를 클릭하면 어떤 제품인지와 함께 이익과 할인율이 상세히 제시됩니다.

스크린샷_2023-02-10_오후_5.26.29.png

또한 x축과 y축에 원하는 변수를 넣어서 즉시 시각화가 가능합니다.

저희 팀에서는 이것에 대해 '생각의 속도로 데이터 탐험이 가능하다'라고 합니다. :)


아래 이미지는 추가적인 분석을 진행해 본 것입니다.

포인트의 색상을 '제품대분류'로 지정해 제품별 추이를 확인했습니다.

스크린샷_2023-02-10_오후_5.29.42.png
스크린샷_2023-02-10_오후_5.30.11.png


이 시각화를 통해서 각 제품군이 어떤 할인율로 많이 판매되었으며 이익은 어땠는지에 대한 추이도 파악할 수 있습니다. 각 제품군별 상관계수는 아래의 두 방법으로 선택할 수 있습니다.

- 오른쪽 범주를 클릭

- 차트 위 화면분할 '제품대분류'

스크린샷_2023-02-10_오후_5.35.22.png
스크린샷_2023-02-10_오후_5.35.40.png


한 가지만 더 살펴볼까요?

마지막 이미지를 보시면 전체 상품군일 때와 사무용품만 선택된 때의 상관계수가 동일한 것을 볼 수 있습니다. 하지만 시각화 겨로 가는 서로 상이합니다. 이러한 이유로 통계적 수치만으로 데이터를 완전히 이해하는 데는 어려움이 있습니다.




엑셀과 HEARTCOUNT를 활용한 데이터 분석 방법을 살펴보았습니다.

다양한 툴을 사용해 보고 여러분에게 더 적합한 툴을 찾는 것도 데이터 역량을 증진시키는 데 도움이 될 것입니다. :)


이번 글이 데이터 니즈를 가진 현업 분들에게 도움이 되었기를 바라며 마무리하겠습니다.



----------------------------------------------------------------------------------------------------------------------

데이터 시각화・분석 툴 'HEARTCOUNT', 지금 사용해 보기

keyword
작가의 이전글엑셀 데이터 활용하기(1) 데이터 정리・ 파악