brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 02. 2023

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(2)

엑셀로 이해하는 기술 통계

안녕하세요, 브래드입니다.


오늘은 지난 시간에 이어서 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」도서 내용을 함께 공부해 보겠습니다. 


엑셀 내 파워 쿼리를 이용하여 간단한 전처리를 학습한 지난 시간과는 다르게, 이 시간에는 엑셀을 통해 기술 통계를 살펴보는 시간을 가져볼게요.



통계 기초 지식

통계어떤 현상을 종합적으로 알아보기 쉽게 체계에 따라 숫자로써 나타낸 것을 말합니다.


일반적으로 통계학 내에서는 표본 조사로 얻은 데이터에서 허용하는 오차를 보통 5%로 지정하며, 이를 유의 수준 5% 또는 신뢰수준 95%라고 말합니다.




양질의 데이터를 얻었다면 우리는 이제 가설을 세우고 해당 가설을 검증하는 단계를 거쳐야 합니다.


가설 검증의 방법은 크게 귀무가설대립가설이 존재합니다.


귀무가설두 모수값이 서로 차이가 없다고 말하는 가설로, 기각될 것을 상정하고 가설을 세웁니다. 대립가설귀무가설과 반대되는 가설로, 실제로 주장하고자 하는 가설을 말합니다.


즉, 귀무가설을 기각하여 대립가설을 채택하는 흐름으로 이어지는데 이 과정에서 귀무가설을 기각할 수 있는 기준은 P값으로 P값이 0.05(5%) 미만일 경우 귀무가설을 기각하고 대립가설을 채택합니다.


P값이 5% 미만일 경우 대립가설을 채택하는 이유는 어떠한 사건이 우연히 발생할 확률이 5%보다 낮을 가능성이 거의 없다고 판단하며 즉 통계적으로 의미가 있다고 해석하는 것입니다.




우리가 설정한 가설이 옳은지 혹은 옳지 않은지 판단하는 과정에서 잘못된 결론을 도출할 가능성이 존재합니다. 이때 발생할 수 있는 오류로는 1종 오류와 2종 오류가 존재합니다.


1종오류는 귀무가설이 참인데 기각하는 경우를 말하며, 2종오류는 귀무가설이 거짓인데 채택하는 경우를 말합니다.





기술 통계

기술 통계는 표본에서 표본 표준편차나 표본 평균 등의 대표값을 구하고 시각화와 현상 파악을 통해 표본의 특성을 규명하는 것을 말합니다.


또한, 기술 통계를 넘어 표본 정보를 이용하여 모집단의 특성을 파악하는 과정을 통계적 추론이라 일컫습니다.



다음으로 통계적 사고방식을 위해 탑재할 개념들을 살펴보겠습니다.


 1) 산술평균

  산술평균은 총합을 변수 n개로 나눈 것을 말합니다. 위 예시에서 볼 수 있듯이 숫자 8개의 총합에서 총개수인 8로 나누어 산술 평균 4.5를 구함을 알 수 있습니다. 



 2) 중앙값

중앙값은 단어에서 유추할 수 있듯이 가장 중앙에 있는 값을 말합니다. 위 숫자 배열에서는 5가 중앙값임을 알 수 있습니다.



 3) 최빈값

최빈값은 가장 많이 등장하는 수를 말하며, 위 예시에서는 5가 세 번이나 등장하므로 5가 최빈값임을 알 수 있습니다.



 4) 편차, 표준 편차, 분산

편차는 데이터 값이 평균에서 얼마나 떨어져 있는지 나타내는 지표입니다. 위의 예시의 데이터 내에서 평균은 20이며 편차는 각각 다음과 같음을 알 수 있습니다.


분산편차의 제곱의 합을 값의 개수로 나눈 것을 말합니다. 제곱을 하는 이유는 편차는 음과 양의 값을 가질 수 있으므로 편차의 합을 양수화하기 위해 제곱을 사용합니다.


표준 편차분산에 루트를 씌운 값을 말합니다.



 4) 왜도, 첨도

 왜도는 분포의 비대칭성을 나타내는 척도를 말합니다. 데이터가 대칭일수록 왜도의 값은 0에 가까워지며, 대칭이 아닌 한쪽으로 치우칠수록 왜도는 양수 혹은 음수의 값을 나타냅니다.


 첨도는 확률 분포의 꼬리가 두꺼운 정도를 나타내는 척도입니다. 데이터가 완벽한 정규분포를 이룬다면 데이터의 첨도는 0을 나타내며, 데이터의 꼬리 모습에 따라 첨도는 양수 혹은 음수의 값을 나타냅니다.





엑셀로 기술 통계 측정하기

 1) 기술 통계표 작성하기

활용할 데이터 셋은 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석 도서 내에 존재하니, 좀 더 심층적으로 공부하고 싶으시다면 도서를 구매하여 데이터 셋을 활용하거나 공공데이터를 활용하시기를 추천드립니다.


기술통계표를 작성하기 위해 해당 파일 내에서 데이터 탭 - 데이터 분석 - 기술 통계법을 클릭하여 기술 통계표 작성 화면으로 이동합니다.


*엑셀 데이터 분석 도구
 - 만약 엑셀의 데이터 분석 도구 항목이 보이지 않는다면 아직 활성화되지 않았을 가능성이 큽니다. 따라서 엑셀 실행 후 파일 탭 - 옵션 항목에서 추가기능 항목을 들어가, 분석 도구 팩을 선택하여 이동 버튼을 클릭합니다.

 - 대화상자가 열리면 분석 도구 팩에 체크한 후 확인 버튼을 클릭합니다. 다음과 같은 과정을 거치면 엑셀 메인 화면에 데이터 탭 내에 데이터 분석 항목이 추가되었음을 확인할 수 있을 것입니다.




해당 화면에서 입력 범위를 입력해 준 후 첫째 행 이름 사용에 체크, 그리고 출력 범위를 입력해 줍니다.


또한, 요약 통계량평균에 대한 신뢰 수준 항목에도 각각 체크하여 구해줄 수 있도록 합니다.




앞서 진행했던 과정을 거치면 다음과 같이 기술 통계 분석 결과를 확인할 수 있습니다.


기본적인 평균과 같은 값부터 앞단에서 학습했던 표준편차, 분산, 왜도 등의 값도 상세하게 분석할 수 있습니다.




 2) 히스토그램 작성하기

마찬가지로, 히스토그램도 데이터 탭 - 데이터 분석 - 히스토그램을 선택하여 다음과 같은 창을 띄워줍니다.


입력 범위를 입력한 후 이름표에 체크, 누적 백분율차트 출력에 각각 체크, 출력 범위를 입력한 후 확인을 눌러 히스토그램을 출력해 줍니다.




다음과 같이 계급, 빈도수, 누적 퍼센트를 파악할 수 있는 표와 함께 히스토그램 차트가 출력됨을 확인할 수 있습니다.




 3) 기술 통계 결과 분석

기술 통계표 작성 기능을 활용하여 철스크랩, 열연, 냉연을 각각 분석한 결과표입니다.


책에서 가정한 대로, 우리는 가장 좋은 원자재를 찾아야 하는데 이때 가장 좋은 원자재의 기준은 가격 변동성이 낮은 것으로 기준을 설정했습니다.


먼저, 첨도 값을 확인해 보면 첨도 값이 클수록 데이터 값들이 평균으로 몰려있다는 의미입니다. 따라서 셋 중 유일하게 양수의 첨도 값을 가지고 있는 열연이 가격 변동성이 낮다고 판단할 수 있습니다.


또한, 각 데이터 값이 평균에서 얼마나 떨어져 있는지 나타내는 표준편차와 평균을 통해 가격 변동성을 판단할 수 있습니다. 다만 각각의 원자재의 평균의 크기는 천차만별이므로 평균만 비교해서는 안되며 평균과 표준편차를 함께 비교해야 합니다.


즉, 표준편차를 평균으로 나누어 더 정확한 해석을 진행할 수 있습니다.




표준편차 / 평균을 진행한 결과, 열연이 가장 작은 값을 기록함을 알 수 있습니다.


즉, 해당 결과에서 알 수 있듯이 열연의 가격 변동성이 가장 낮음을 파악할 수 있습니다.





오늘은 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석 도서 내 데이터를 활용하여 엑셀을 활용한 기술 통계법에 관해 함께 공부해 보았습니다.


다음 시간에는 엑셀을 활용하여 데이터를 통해 유의미한 차이를 비교하는 방법을 함께 알아보아요.


브래드였습니다. 감사합니다.

매거진의 이전글 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(1)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari