brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 19. 2023

실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(5)

데이터 비교 및 유의미한 차이 알아내기(3)

안녕하세요, 브래드입니다.


오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」다섯 번째 시간으로 특성이 다른 데이터를 비교하는 정규화와 표준화에 관해 함께 알아보아요.




정규화 및 표준화

정규화 및 표준화 (출처: 네이버)

데이터를 제대로 비교하기 위해서는 데이터의 상황, 즉 범위를 비슷하게 만들어야 합니다. 이를 위해 필요한 방법이 정규화 및 표준화입니다.


정규화데이터를 특정 구간으로 바꾸는 방법으로, 데이터 값의 범위를 0~1 사이로 변환할 수 있습니다. 정규화 공식은 (요솟값-최솟값) / (최댓값 - 최솟값)을 진행하여 구할 수 있습니다.


정규화 공식을 통해 데이터 특성 내의 가장 큰 값은 1로, 가장 작은 값은 0으로 변환하여 데이터들의 특정 위치를 비교할 수 있습니다.


표준화데이터가 평균을 기준으로 얼마나 떨어져 있는가를 나타냅니다. 표준화 공식은 (요솟값-평균) / 표준편차입니다. 




엑셀 내에서 정규화를 진행하기 위해선 먼저 최솟값과 최댓값을 구해줘야 합니다.


범위 내에서 최솟값을 구할 수 있는 MIN 함수, 최댓값을 구할 수 있는 MAX 함수를 사용하여 예시 데이터 셋인 학업성취도 데이터 내에서 최솟값과 최댓값을 각각 구해줍니다.




최솟값과 최댓값을 구한 후, 정규화 공식을 사용하여 정규화 값을 각각 구해줍니다.


이때 데이터 값은 상대참조로, 최솟값 및 최댓값이 수식에 들어갈 때는 절대참조로 고정하여 올바른 수식이 완성될 수 있도록 합니다.




학업성취도 데이터 및 정규화를 진행한 데이터를 각각 꺾은선형 차트로 나타낸 모습입니다.


오른쪽 그래프에서 볼 수 있듯이 정규화를 진행한 값은 0과 1 사이의 값들로 이루어졌음을 알 수 있습니다.




정규화에 이어서 다음은 표준화입니다.


표준화 공식을 사용하기 위하여 먼저 학업성취도 데이터 내에서 평균표준편차를 구해야 합니다.


평균은 AVERAGE 함수를 활용하여 구해줄 수 있으며, 표준편차는 STDEV.P 함수를 활용하여 구해줍니다.




평균과 표준편차를 구한 후, 표준화 공식을 활용하여 학업성취도 데이터 내 각각의 표준화 값을 구해줍니다.


공식을 사용할 때, 학업성취도 값은 상대참조로 해주며 평균과 표준편차는 절대참조를 설정하여 공식을 활용해 줍니다.




다음과 같이 두 차트를 구해줄 수 있습니다.


정규화와 다르게 표준화 차트를 살펴보면, 평균 0을 기준으로 음과 양의 값들로 나뉨을 알 수 있습니다.





오늘은 「실무에 바로 쓰는 일잘러의 엑셀 데이터 분석」다섯 번째 시간으로 특성이 다른 데이터를 비교하는 정규화와 표준화에 관해 함께 알아보았습니다.


엑셀 내에서 정규화와 표준화를 진행하기 위하여 각각의 공식 내에 필요한 값들을 함수를 활용하여 구해주었으며, 구한 값들을 시각화하는 작업까지 진행해 보았습니다.


다음 시간에는 데이터 비교 및 유의미한 차이 알아내기 소단원 파트의 다음 파트로, 변수의 관계를 찾는 상관 분석과 회귀 분석에 대해 함께 공부해 보겠습니다.


브래드였습니다. 감사합니다.

매거진의 이전글 실무에 바로 쓰는 일잘러의 엑셀 데이터 분석(4)
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari