brunch

You can make anything
by writing

- C.S.Lewis -

by 토실샘 Jan 07. 2019

통계의 거짓말(게스트 보스바흐 외)

통계를 배울 때 우리의 자세

뭉뚱그려서 수학과에서 가르치고 있지만, '확률과 통계'라는 교과목은 상당히 수학과에서도 특이한 과목입니다. 살짝 비밀을 말해드리자면, '확률과 통계'를 가르치기 싫어하시는 수학 선생님들이 참 많습니다. 대놓고 '난 확률과 통계 싫어. 안 가르치고 싶어.'하시는 분들을 꽤 많이 만나봤어요. 근데 왜 그러시는 건지 정확히 이해할 수 있고, 저도 별로 딱히 가르치고 싶어하는 과목은 아닙니다. 왜냐하면 보통 '수학'과 '통계'는 학문적으로 분리하기 때문입니다. 숫자를 쓰긴 하지만 어쨌든 과목의 성질이 좀 다릅니다.


예를 들어 '통계학과'의 경우 대다수의 많은 학교에서 교차지원을 받거나 인문계에서 지원합니다. 대다수의 수학과 과목이 증명과 공리를 완성해가는 과정이라고 하면, 통계학과 과목은 '이렇게 해볼까?' '이건 어때?' '이렇게 하면 이렇게 해석할 수 있지 않니?' 이런 성격이 조금 강합니다. 저는 사범대 출신이지만 자연대 통계학과 과목도 들어본 적 있었는데요, 과학교육도 전공한 제 눈에는 통계는 조금 '실험적'이라고 느껴지는 경우가 많았어요. 그리고 여기 저기 '수학과 선수 과목'을 요구하는 경우, '확률과 통계 과목은 제외합니다' 라는 문구가 따라오곤 합니다.


이 '확률과 통계', 특히나 '통계' 단원에서의 특이성을 이해하지 못한다면 이 과목에서 좋은 점수를 받기가 조금 힘듭니다. 저는 수학을 좋아하는 많은 자연계 학생들이 이 교과목에서 좌절하는 경우를 많이 봤어요. 자신이 배워온 수학과 좀 다르다, 뭔가 차근차근 명료하게 배워가는 맛이 없다, 이런 불평을 많이 들었는데요, 그 느낌을 받았다면 사실 정확하게 느낀 겁니다. '수학'과, '확률과 통계'는 시작부터가 다릅니다. 확률과 통계는 인간의 일상 생활에서 벌어지는 일들을 더 명확히 이해하기 위해 이렇게 저렇게 짜맞추기 시작하면서 무엇이 더 현실을 잘 반영할까 고민한 발자취입니다. 그러니 형식과 논리를 중시하는 수학과 논리 전개 방식이 다를 수밖에요. 통계를 잘하기 위해서는 당연히 수학적 지식이 필요하지만, 어디까지나 도구로 사용합니다.


조금 추상적이었다면 예시를 하나 들어보도록 하겠습니다. 1, 2, 3, 4, 5 라는 자료가 있다고 생각해봅시다. 이 자료를 대표할 수 있는 값을 찾습니다. 음, 평균은 어때? 그럼 이 자료들을 대표하는 값을 3이라고 하자! (전혀 수학적이지 않은 과정이지요?) 그럼 3, 3, 3, 3, 3 이라는 자료를 대표하는 값도 3인데? 둘의 자료는 좀 다르지 않아? 그럼 얼마나 흩어져 있는지 알 수 있는 척도도 만들자! 분산이라고 이름 붙일까? 각 자료에서 평균을 뺀 다음 제곱하고, 더하면 평균에서 얼마나 자료들이 떨어져 있는지 알 수 있지 않을까?


이런 식입니다. 차곡차곡 논리를 쌓아가기 보다는 '이렇게 해볼까?' '저렇게 해볼까?' 라고 개념을 만들어 가지요. 저는 분산을 중학교 때 맨 처음 배웠는데요, 왜 평균을 뺀 다음 제곱하는지 너무 궁금했습니다. 어차피 얼마나 떨어져 있는지 판단하는 척도라면 그냥 차이의 의미인 절댓값을 쓰면 되잖아요? 그런데 왜 굳이 계산하기 귄찮게 제곱을 하는지 알 수가 없었습니다.


그런데 그 이유를 나중에 전공하고 나서야 알게 되었습니다. (명확히 말하면 혼자 추론한 것이기는 합니다.) 물론 절댓값보다 제곱을 해야 더 민감하게 산포도(얼마나 자료가 흩어져 있는가)를 측정할 수 있다는 것도 이유의 하나이지만, 분산의 식을 함수화시키면 절댓값이 들어간 함수는 미분이 불가능하기 때문에 함수를 다룰 때 불편합니다. (어떤 문제에서 알 수 없는 함수의 그래프를 그리라고 한다면 미분해서 증감을 보는 것이 최우선입니다.) 물론 이 모든 과정은 대학교에 가서 관련 전공을 들어야 유추할 수 있는 내용입니다. 분산을 미분하는 과정이 교육과정 범위를 벗어나니까, 그 전까지는 대체 왜 분산은 제곱하는지 받아들이기만 해야 하는 것이지요. 질문한다면 고등학교 수준에서는 '그냥 그렇게 하기로 했어!' 같은 대답밖에 나올 수가 없습니다.


고등학교 '통계' 부분에서는 이런 공식들이 부지기수입니다. 모두 이유가 있는 공식이고 모두 상위 개념을 위한 도입이기는 하지만 일단 그 시기에 받아들이기에는 의문이 가득합니다. 예를 들어 학생들이 문제를 풀 때 언제는 표본표준편차를 쓰고 언제는 모표준편차를 쓰냐며 헷갈려하는데, 교과서에서는 '모표준편차를 구하기 힘들 때는 표본표준편차를 쓴다' 라는 문장이 있습니다. 이건 어쩔 수 없는 것이, 실제로 쓰는 통계가 아닌데 고등학교 교육과정에 꾸역꾸역 넣다보니 명료한 맛이 없을 수밖에 없습니다. 이런 대답의 정답은 '그냥 문제에 나온 거 써라. 너희한테 두 개를 구별하게 하거나 공식에 벗어난 건 안 나온다.'인데요, 수학적인 대답은 아니지만 문제는 맞출 수 있지요.


이러한 의문을 가지고 통계 단원을 보면 말도 안 되게 외우라는 것들이 굉장히 많습니다. 예를 들어 모평균을 추정하는데 모표준편차는 알고 있는 경우입니다. 모평균을 몰라서 추정하는데, 어떻게 모표준편차를 알고 있을 수 있겠어요. 교육과정을 위한 문제이고, 실질적으로 쓰는 통계는 아닙니다. 다시 말씀드리지만 통계는 인간이 자신의 필요에 따라 만들어 낸 것이기 때문에 일반적인 수학같이 '전 우주에서 성립하는 명료한 법칙'이 아닙니다. 아무리 열심히 확률을 계산해봤자 모든 실질적인 확률은 0 아니면 1이다, 뭐 이런 유명한 말도 있지요.


그런데 이 차이를 모르면 '통계'와 '수학'을 비슷하게 생각합니다. 같은 숫자를 다루고 있으니까요. 그래서 우리는 숫자만 나오면 그 말을 우주의 진리처럼, '소수는 무한히 많다'처럼 받아들이는 경향이 있습니다. 근데 그러면 절대 안 돼요. 통계는 인간이 만들어 낸 것이기 때문에 당연히 산출 방식이나 공식에 따라 조작이 가능하고 맥락에 따라서 누군가를 속이기도 쉽습니다. 숫자가 들어간다고 해서 모두 수학은 아니라는 것, 통계를 보는 눈에는 무조건 의심이 들어가야 한다는 것을 반드시 인지하고 있어야 합니다.


그런 의미에서 저는 고등학교 수학 교육 과정에서 '통계'는 엄청나게 유용하다고 생각합니다. '소수는 무한히 많다'라는 사실은 아름답고, 범우주적 진리이고, 확신할 수 있는 수학적 지식이지만 일상 생활에서 마주칠 가능성은 거의 없습니다. 하지만 통계는 다릅니다. 온갖 책과 뉴스에서 마주치고, 수학의 탈을 쓴 채 우리에게 진리인 양 다가옵니다. 하지만 통계는 수학이 아니고, 숫자에 속으면 절대 안 됩니다. 


이러한 통계의 오류에 대한 책들은 꽤 많지만, 제가 읽어본 책들 중에 가장 직관적이고 어렵지 않게 쓴 책이 '통계의 거짓말'입니다. 주제에 맞추어 어떻게 사람들을 속이는지 깔끔하게 잘 정리해 두었어요. 그래프를 필요 이상으로 과장한다거나, 어떤 변수를 생략한다거나, 상관 관계를 인과 관계로 살짝 속인다거나, 표본의 수를 적게 한다거나 하는 여러 가지 방법이 있지요.


저는 이 책의 챕터 하나를 가지고 몇몇 학생들과 진짜 '거짓된 통계'를 만들어본 적이 있습니다. 예를 들어 이런 것이에요. 표본은 저희 학교 자연계 학생 40여명이었고요, '수학 성적이 높은 학생들 중 96.2%가 수학 공부에 가장 많은 시간을 투자한다.'라는 결과가 있었어요. 이런 명제 뒤에는 뭐, '그러므로 수학 성적을 높이기 위해서는 수학 공부를 다른 과목보다 많이 해야 한다.'라는 주장이 달라 붙을 수도 있겠네요. 


그러나 여기서 숨겨진 사실은, 자연계 학생들의 대부분은 거의 다 수학 공부에 가장 많은 시간을 투자하고 있었다는 점입니다. 거의 대다수가 수학 공부에 많은 시간을 쓰고 있었고, 수학 성적이 낮은 학생들도 90%가 넘게 수학 공부를 가장 많이 한다고 응답했어요. 사실이건 아니건, 주장이 자연스럽게 달라붙기에는 좀 무언가를 은폐한 느낌이 나지요.


'통계의 거짓말' 정도는 사실 저는 전국민의 필독 도서로 지정해야 한다고 생각합니다. 우리 모두 수학을 배울 때, '수학은 정답이다!' 혹은 '숫자는 주관이 없다!'라고 무의식 중에 학습되어 있습니다. 그래서 숫자만 나오면 아무 의심 없이 주장을 받아들이는 경우가 많아요. 어떤 통계를 볼 때에는 모집단이나 표본 추출 방식, 자료 집계 방식, 사회적 맥락, 관계된 변수 등 여러 가지를 고려해야 합니다. 통계의 숫자로 누군가를 속이는 건 너무 쉽고, 사실 몇몇 학생들과 그 통계를 왜곡하는 수업을 하면서 다들 스스로도 놀라하더라고요. 아이들의 언어를 그대로 빌려보면, '어그로 끌기 되게 쉽네', '이렇게 기레기가 되는구나', '근데 저 이런 기사 되게 많이 봤어요', '이젠 진짜 있는 그대로 믿으면 안 되겠어요' 등등의 반응은 물론이고 이미 결론을 정해 놓은 다음 숫자를 짜맞추는 것도 상당히 잘하더군요.


그렇다고 통계가 아무 의미 없다는 말은 아닙니다. 이토록 인간의 주관이 많이 들어가고 해석이 중요하므로 인간의 삶에서 몹시 중요합니다. 제가 통계학과를 고민하는 아이들에게 종종 하는 말인데, 통계는 어디서나 쓰입니다. 그리고 '숫자'를 다루고 있다는 점에서 상당한 특수성을 가지지요. 또 통계학자들은 이러한 인간의 오류에 빠지지 않기 위해, 정확하고 객관적이며 유용한 통계의 방법을 고안하기 위해 지금 이 순간도 노력하고 있어요.


놀랍게도 통계 과목을 좋아하는 학생들 중에서는 '아무 생각 없이 공식에만 집어 넣어도 되어서 좋아요' 라고 대답하는 학생들이 많습니다. 저 역시 문제 풀이를 하다보면 '너무 깊이 생각하지 마. 그럼 틀려. 공식에 제대로 집어 넣으라고!'라고 말하는 경우도 있고요. 왜냐하면 명료한 체계 없이 교육과정에 들어왔기 때문에 개념 그 자체에 대한 응용이 조금 어렵습니다. 추출, 추정, 뭐 이런 개념들에서 응용하기 시작하면 사실 논란의 여지가 생길 수도 있거든요. 그럼 왜 학생들은 통계 문제를 어렵게 생각할까요? 저는 항상 통계 부분에서 '문자를 제대로 쓰면 절반은 먹고 들어가는 것이다'라고 말하는데, 생각보다 학생들이 문자를 제대로 쓰지 않아 어려운 문제에서 해석 자체를 못합니다. 


입시를 위한 팁을 조금 드리자면, 통계 부분에서는 개념의 엄청난 응용이 나오지 않는다는 것을 꼭 염두에 두시고, 난이도 조정은 문자를 정확히 쓰고 변수를 구분하는 데에서 나온다는 점을 기억하세요. 어떤 변수가 무엇을 말하는지 정확히 식을 쓸 수 있다면 여러분들이 배운 바로 그 개념에서 공식대로 답이 나올 것입니다. 


실질적인 통계는 고등학교 교육과정과 다릅니다. 저는 통계를 가르치면서, 문제 하나 하나를 맞추는 것도 중요하지만 모든 통계를 믿어서는 안 된다는 것도 중요하다고 꼭 말해줍니다. 통계와 수학이 다르다는 것을 잊지 마라, 숫자가 나온다고 해서 모두 명확한 규칙은 아니다. 물론 그렇기 때문에 매력이 있는 분야이기도 하지요. 수학이 정말 싫어도 사회를 보는 눈을 기르기 위해 '통계의 거짓말'이라는 책 정도는 읽어두시는 것을 추천합니다.

작가의 이전글 박사가 사랑한 수식(오가와 요코)

매거진 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari