두 가지 개념
http://www.yes24.com/Product/Goods/91614222
잠깐 이야기가 산으로 가긴 했는데, 수학은 내가 업으로 삼고 있는 데이터 분석 분야에서는 매우 중요한 학문 중에 하나다. 그러니 데이터 과학자가 되겠다고 마음먹었다면 수학은 필수불가결이다.
‘아 그럼 저는 일단 안 되겠네요. 수고하세요.’
지레 겁먹을 필요 없다.
데이터 분석과 수학은 매우 밀접한 관련이 있지만 그렇다고 꼭 수학을 잘할 필요는 없다.
나 역시 그다지 수학에 소질이 없다. 병 주고 약 주는 것 같은 아리송한 이야기 같지만 사실이다.
물론 여러분이 아직 세상에 빛을 보지 못한 엄청난 분석 기법을 창안하여 발표한다면 아마도 수학을 꽤나 잘해야 할 것이다. 그러나 다행스럽게도 이미 세상에는 엄청나게 많은 분석 기법이 나와있다.
그 많은 분석 기법들 다 써볼 틈도 없다.
‘그럼 뭐 어쩌라는 거냐? 수학을 하라는 거냐 말라는 거냐?’
‘아 수학은 하셔야 되는데…… 그러니까 음……’
많이도 아니다. 딱 두 가지 개념만 익혀 주길 바란다.
학창 시절 공부 꽤나 했을 법한 학생들이 모인 모 대학에서 강의를 진행할 때 일이다.
‘여러분 평균이 뭔가요? -평균은 뭐다-라고 정확히 설명할 수 있는 학생 있나요?’
그리고 약속이나 한 듯 모든 학생들은 아무 말도 없었다.
몰라서 대답을 안 한 건지 아니면 귀찮아서 인지는 모르지만 그 누구도 대답하지 않았다.
우리는 살며 평균에 대해 수 없이 말하고 사용하는데 그 의미를 정확히 파악하는 사람은 사실 많지 않다.
그러나 우리가 데이터 쟁이로 살아가기를 원한다면 평균에 대한 이해는 필수다. 아니 핵심이다.
모든 데이터 분석은 평균 없이 이루어지지 않는다. 모든 분석은 평균으로부터 시작된다.
우리가 일상에서 자주 사용하는 평균은 산술평균을 의미한다.
쉽게 말해 대상의 총합을 구하고 대상의 개수로 나누어 준 값이다.
이러한 산술 평균은 간단하게 구할 수 있는데 이는 데이터 분석의 엄연한 한 분야이다.
학교에서도 기업에서도 그 어느 조직에서도 이 평균을 산출해 냄으로써 최소한의 가치를 찾는다.
하지만 평균 속에서는 오묘한 구석이 있다.
그것은 바로 극단적인 값에 많은 영향을 받고 민감하게 반응한다는 다는 점이다.
어느 한쪽의 값이 극단적으로 높거나 혹은 낮을 때 평균은 이를 상쇄해 버린다는 약점을 가지고 있다.
다음 GROUP A의 평균을 구해보자.
GROUP A – 100, 90, 80, 90, 70
GROUP A의 평균은 86이다. 그런데 다음의 수가 추가되었다고 가정해 보자.
GROUP B – 100, 90, 80, 90, 70, 20,000
GROUP B의 평균은 3,405가 된다.
마지막에 추가된 20,000이 앞서 정리된 모든 수를 압도하여 평균을 높여 버린다.
이것을 나는 ‘평균의 오류’라 부르는데 이를 무시하면 데이터 분석의 결과가 전혀 예상치 못한 방향으로 전개된다. 그리고 분석을 통해 도출된 값은 무의미한 결과가 되기도 한다.
따라서 평균에 대한 맹목적인 신뢰는 자칫 현상을 왜곡하여 바라보는 결과를 초래할 수 있는 것이다.
‘그래도 평균을 사용 안 할 수는 없잖아요? 오늘도, 내일도, 매일 사용해야 되는 값인데.’
그렇다. 사용 안 할 수는 없다.
평균의 오류를 피하기 위한 가장 손쉬운 방법은 최댓값과 최솟값을 빼고 평균을 구하면 된다.
최댓값, 최솟값은 우연히 발생한, 말 그대로 평균적이지 않은 값으로 인식해 버리는 것이다.