편차와 표준편차의 차이점
아빠, 나 줄넘기 반대표에서 떨어졌어
아들이 시무룩합니다. "어, 아들 뭔 일 있어?"
"아니, 우리 학교에서 줄넘기 대회하거든. 근데 오늘 반대표를 뽑았는데 결승전에 떨어졌어"
"근데 왜?"
"이상한 게 나랑 평균 개수가 똑같은 애가 있는데, 서아라고 그 친구가 대표가 됐어.
선생님께서 이유는 편차가 뭐라고 뭐라고 하셨는데, 아무튼 잘 모르겠어."
요즘 아이들 줄넘기를 많이 하잖아요. 그래서 반 대표를 선출해서 학년 줄넘기 대회를 하는 상황입니다. 반 대표를 선발하기 위해서 5번의 기회를 주고 평균 횟수가 가장 높은 친구를 반 대표로 선발하는 방식입니다.
첫 번째로 '서아'라는 친구가 줄넘기를 했더니 4,5,6,7,8회를 했어요.(설명을 쉽게 하기 위해 작은 숫자로 바꿨지만, 실제로 아이들은 100회 이상 합니다.^^) 그리고 '도윤' 이는 2,4,6,8,10회를 했고요. 그러면 둘의 평균은 몇 회일까요? 네 , 둘 다 평균 6회를 했어요. 둘이 똑같죠. 그렇다면 둘의 줄넘기 실력은 과연 똑같다고 할 수 있나요?
평균이 같으면, 데이터도 같다?
여러분들은 둘 중에 누가 반대표가 되어야 한다고 생각하세요?
"학년 대회에서 실수하거나 떨지 않고 안정적으로 줄넘기를 잘하는 친구인 '서아'가 반 대표로 출전하는 것이 좋겠어"라고 생각하셨을 것 같습니다.
방금 전 줄넘기 사례의 경우에는 서아와 도윤이에 대한 각 5개의 데이터만 있었어요.
그런데 데이터의 양이 굉장히 많다면, 우리는 데이터를 다 기억해야 할까요? 사람이 기억할 수 있는 정보의 양은 한정되어 있기 때문에 사람들은 많은 양의 데이터들을 대표하고 싶어 해요. 그리고 우리는 "평균"이라는 것을 좋아합니다. 아까 평균 6회처럼, 수많은 데이터도 결국 '평균' 하나의 값으로 대표되겠죠?
일단 평균은 다양성을 존중하지 않아요. 하지만 다양성이라고 하는 것은 반대로 '평균'이라는 '기준'이 있을 때, 그것이 얼마나 다양한지를 인식할 수가 있겠죠? '데이터 값이 다양하다'라는 인식이 되었다면, 우리는 데이터들이 얼마나 평균 주변에 모여 있는지, 또 평균으로부터 얼마나 떨어져 있는지를 알고 싶어 합니다. 그럼 '데이터가 흩어져 있는 정도'를 어떻게 알 수 있을까요?
간단해요. 그림을 그려보는 거예요.
우리가 관찰한 값, 즉 데이터를 평면 위에 그려봅니다. 어려울 것은 없어요. 관찰한 데이터가 한 종류라면 하나의 선 위에 점을 찍고요, 관찰한 값이 키와 몸무게, 나이와 연봉, 시기와 판매량처럼 두 종류 라면 가로와 세로에 해당하는 부분에 점을 찍어요.
이렇게 하면 데이터가 흩어진 정도를 확인할 수 있어요. 이렇게 데이터가 흩어진 정도를 우리는 '산포도'라고 합니다. 그런데 우리는 산포도에 관심이 있는 것이 아니라, 기본적으로 비교를 하고 싶어 합니다. 전체를 하나로 보고, 또 각 데이터와 비교를 하고 싶어하죠. 그리고 이렇게 비교한 값을 하나로 나타내고 싶어해요. 여기서 전체를 '하나로 대표하는 값' 이 '평균'이고, 각 데이터가 '평균에서 얼마나 떨어져 있는지 보는 것' 이 바로 '편차'입니다. 오늘은 평균과 편차에 대해 쉽게 알아보겠습니다.
산포도란? 데이터가 흩어져 있는 정도를 하나의 수로 나타낸 값
방금 전에 줄넘기 사례에서 '서아'의 데이터는 4,5,6,7,8 회였고, 평균은 6회였어요. 그러면 서아가 첫 번째 줄넘기를 한 횟수 4회는 평균 6회보다 2회만큼 차이가 있죠. 4-6= -2 라는 계산을 할 수 있겠죠. 이렇게 우리는 자연스럽게 데이터에서 평균을 빼는 계산을 합니다. 아주 일상적인 계산이죠? 이 계산을 통해 우리는 하나의 관찰값이 평균으로부터 얼마나 떨어져 있는지를 판단할 수 있게 됩니다.
편차 = 데이터 - 평균
이것을 멋진 용어로 해석해보면 "편차 = 데이터 - 평균"라고 합니다. 여기서 데이터가 평균보다 작으면, 편차는 0보다 작은 값(음수 또는 마이너스)으로 나타나고, 그 반대로 데이터가 평균보다 크면, 편차는 0보다 큰 값(양수 또는 플러스)으로 나타납니다.
이 편차를 보면, 데이터가 평균으로부터 얼마나 떨어져 있는지 혹은 얼마나 모여 있는지를 판단할 수 있겠네요.
편차란? 각 데이터와 평균의 차이
그래서 두 집단의 편차를 비교해 보기로 합니다. 그래서 우리가 좋아하는 평균 방식으로 계산해볼게요.
첫 번째 그룹(앞의 줄넘기 예에서는 "서아"의 줄넘기 횟수)의 데이터와 평균의 차이, 즉 편차를 다 더해서 데이터 개수로 나눠주려고요. 그리고 두 번째 그룹에서도 마찬가지로 이 편차들을 다 더해서 데이터 개수 5로 나눠주고 둘 중에 어떤 것이 더 큰지 비교해 보는 것 좋죠?
그런데 여기서 문제가 발생합니다.
서아의 줄넘기 횟수에 대한 편차 (-2)+(-1)+0+1+2 = 0 이 되어 버렸어요.
그리고 도윤이의 줄넘기 횟수에 대한 편차의 합은 (-4)+(-2)+0+2+4 = 0 마찬가지로 0이네요
0을 줄넘기 시도 횟수 5회로 나눠줘 봤자, 서아나 도윤이나 편차의 합은 모두 0이라서 비교할 수가 없네요.
편차를 비교하고 싶은데, 편차의 합이 둘 다 0이에요.
어쩌죠??
이 처럼 각 데이터에서 평균을 뺀 값, 즉 편차를 모두 다 더하면 0이 됩니다. 따라서 이렇게는 두 집단의 편차를 비교할 수가 없죠. 그래서 우리는 음수(-, 마이너스)를 양수(+, 플러스)로 만들어 주어야 해요. 그럼 어떻게 해야 할까요? 네 바로 제곱을 하는 방법이 있습니다.
또 다른 방법으로 절댓값을 취하는 방법이 있기는 합니다. 이것을 표준편차가 아닌 '절대 편차'라고 합니다. 하지만 절댓값의 경우 선 그래프로 표현했을 때 선이 꺾이는 지점이 발생합니다. 이것을 좀 멋진 용어로 '비연속적이다.' '미분을 할 수 없다.'라고 말합니다. 그런데 데이터와 통계에서 이 표준편차를 가지고, 미분과 같은 수학적 계산을 해야 하는 경우가 있어 절댓값 대신 제곱으로 쓴다고 이해하면 좋겠습니다.
이렇게 데이터-평균 = 편차 값에 대해 제곱을 해서 음수를 없애주고, 데이터 관찰 횟수(5회)로 나눠준 값을 '분산'이라고 합니다. 말 그대로 분산은 '데이터가 얼마나 분산(퍼져있는지) 되어 있는지'를 나타내는 값입니다.
분산이란? 편차(데이터 - 평균)의 제곱을 모두 더하고, 전체 데이터 개수로 나눈 값
즉 편차의 제곱의 평균이다.
분산의 두 가지 문제
그런데 분산으로 두 집단을 비교하니 또 다른 문제가 생겼어요.
첫 번째 문제는 평균과 떨어진 정도를 계산하는 것인데, 이 차이가 지나치게 과장되어 보이는 문제가 있어요. 서아의 줄넘기 횟수의 분산은 (-2)² + (-1)² + 0² + 1² + 2² = 10이고, 도윤이의 줄넘기 횟수의 분산은 (-4)² + (-2)² + 0² + 2² + 4² = 40으로 그 차이가 조금밖에 나지 않는 것 같은데 지나치게 커 보이네요.
두 번째 문제는 단위가 달라진다는 문제예요. 줄넘기 횟수가 아니라 데이터가 길이 단위인 센티미터(㎝) 라면, 편차는 센티미터(㎝) - 센티미터(㎝) = 센티미터(㎝)이지만
분산은 제곱센티미터(㎠)가 됩니다. 높이(㎝)가 넓이(㎠)가 되었네요!
줄넘기 횟수끼리의 분산을 비교한다면 괜찮겠지만, 줄넘기 횟수(회)와 줄넘기 높이(㎝)를 동시에 비교한다면, 단위가 다르다고 그래서 비교가 어렵겠죠?
<나중에 배워요>
※ 앞으로 다룰 머신러닝의 회귀모델에서 변수의 분산은 측정방법 등 요인에 좌우되기 때문에, 모델의 설명력을 나타내는 결정계수 R² 의 크기는 서로 다른 모델에서 비교하지 않고, 동일한 데이터에 기초한 두 개 모델 비교에만 쓰입니다.
아까 두 가지 문제가 있었는데 우선 첫 번째 문제 "① 너무 차이가 크다"부터 해결해볼게요.
그 큰 차이가 어디서 왔을까요? 네, 바로 제곱(편차 ²)에서 왔잖아요. 우리가 마이너스를 없애주려고 편차에 제곱을 했거든요. 그럼 다시 원래 크기로 돌려주면 되겠죠? 제곱을 원래로 돌려주는 것은? 정답! 루트(√, 제곱근)입니다. 따라서 위에서 계산한 값에 루트를 씌워주면 끝!
그럼 두 번째 문제 "② 단위가 달라진다"를 해결해볼까요?
아까 예를 들었던 편차 센티미터(㎝)의 분산 단위는 제곱센티미터(㎠)가 되었습니다.
그러면 여기에 루트(√)를 씌어주면 어떻게 되죠? 네, 다시 센티미터(㎝)가 됩니다.
즉 우리가 관찰한 데이터, 편차, 표준편차는 전부 같은 센티미터(㎝) 단위가 되었습니다. 그럼 해결되었죠?
이러한 표준편차의 특징을 정리하면, 표준편차가 작을수록 데이터들과 평균의 거리가 가깝고, 표준편차가 클수록 데이터들과 평균과의 거리가 멀어집니다. 여기서 '거리'의 의미는 길고 짧은 정도라서 항상 0보다 큽니다. 표준편차가 작을수록 데이터들이 평균에 모여 있고, 데이터가 고르게 분포되어 있다고 말합니다.
표준편차란? 분산의 제곱근(루트를 씌워준 값)
어때요? 결국 우리는 두 집단의 데이터가 평균에서 모이고 흩어진 정도를 비교할 수 있게 되었습니다! 중간에 생겼던 문제들도 전부 해결했습니다.
①평균 → ②편차 → ③(편차) ²의 총합
→ ④분산 → ⑤표준편차
앞서 설명드린 내용을 정리하면,
①평균 → ②편차 → ③(편차) ²의 총합 → ④분산 → ⑤표준편차 의 의식 흐림이 되겠네요.
저는 수학적인 공식은 하나도 사용을 하지 않았어요. 왜냐하면 χ(엑스)와 σ(시그마), μ(뮤) 뭐 이런 수식을 보는 순간 '나의 것이 아니다.'라고 뇌가 강하게 반응하기 때문입니다. 거듭 말씀드리지만 원리와 활용이 중요하며, 멋진 용어는 넣어두세요.
요즘 빅데이터와 인공지능이라는 단어에 많이 꽂혀 있으신 것 같아요. 하지만 빅데이터는 말 그대로 큰 데이터입니다. 기본적으로 '데이터'에 대한 이해 없이, '빅'만 가지고는 이해할 수 있는 것은 아니겠죠?
데이터에 기반해서 의사결정을 한다는 의미는 각 데이터가 나타내는 값을 정확히 이해하고 있다는 가정을 기반으로 합니다. 그런 의미에서 데이터가 나타내는 대푯값 평균, 편차, 분산, 표준편차에 대한 정확한 개념을 먼저 익히셔야 해요.
초등학교 수학 덧셈, 뺄셈 없이는 절대 미적분을 할 수가 없습니다. 그럼에도 불구하고 우리는 현업에서 기초적인 준비 없이 무조건 빅데이터, 인공지능을 외치고 있지는 않나요? 데이터는 거짓말을 하지 않습니다. 하지만 데이터로 거짓말을 하는 사람은 늘 생기기 마련입니다. 그것이 알고 하는 거짓말일 수도, 잘 모르고 하는 거짓말이 될 수 있어요.
뿌리가 깊은 나무가 키가 크고,
기초가 넓은 산이 높다
뿌리가 깊은 나무가 키가 크고, 기초가 넓은 산이 높다는 말처럼, 높은 장벽처럼 느껴지는 빅데이터와 인공지능의 시대를 이해하고 활용하려면 데이터에 대한 깊은 이해와 넓은 업무 경험이 여러분들을 세상에 유일한 전문가로 만들어준다고 확신합니다.
감사합니다.