brunch

You can make anything
by writing

C.S.Lewis

by 최크롬 Sep 06. 2019

수학 TMI : 에듀윌 오류?

통계에 속지 않는 법


 나는 종종 통계적 오류에 대해 이야기할 때 '에듀윌 오류'를 예시로 든다. 에듀윌? 그렇다. 당신이 알고 있는 그 학원 이름. 에듀윌은 '공인중개사 합격자 최다'라는 캐치프라이즈를 광고에 이용한다. 전국에서 합격자가 제일 많은 학원이라니! 나중에 실업자가 되면 수강을 고려해봐야겠다. 하지만 합격자가 많을수록 정말 '좋은' 학원일까? 내가 대한민국 평균의 지능을 가진 공인중개사 지망생이라고 가정했을 때, 곧장 에듀윌로 달려가는 것이 현명할까? 글쎄. 안타깝게도 합격자 수만으로는 학원의 파워를 보증해주지 못한다.


  이유는 간단하다. 합격자 수 자체보다는 원생 대비 합격자 비율이 중요하기 때문이다. 에듀윌에서 1000명의 학생이 동시에 공인중개사 강의를 수강하고, 다 같이 시험을 치르면 평균 500명이 합격한다고 하자. 그럼 에듀윌의 합격률은 50퍼센트이다. 그런데 어떤 후미진 동네에 '헬리코박터윌'이라는 학원이 있고, 거기서는 10명의 학생이 강의를 수강했을 때 평균 8명이 시험에 합격한다. 이런, 500명에 비해 8명은 너무나 초라한 성적이다. 하지만 비율로 따졌을 때 '헬리코박터윌' 학원의 합격률은 80퍼에 달한다. 이 학원에는 재야의 고수가 강의를 하는 것이 틀림없다. 자, 분석 단위가 바뀌었다. 이 상황에서 당신은 어느 학원을 선택할 것인가?


  물론 에듀윌의 수강생이 위 숫자만큼 있는 것도 아니고, '헬리코박터윌' 학원의 합격자 비율도 과하게 사기적이다. 여기서 강조하고 싶은 건, 마케팅에서 접하는 숫자(특히 큰 숫자)에 대해 더 신중해질 필요가 있다는 것이다. 통계 쪽 개념은 실생활에서 널리 쓰이는 데다가 '주작'하기 쉽기 때문에 이를 보는 데 익숙하지 않은 사람들은 혼란에 빠지기 쉽다. 비슷한 예로 나의 고3 수험 시절, 수능 EBS 연계율이 매우 높았을 때 학원가와 인강 마케팅에 '적중'이란 단어가 백종원 레시피만큼이나 흔했다. 학원 선생님들을 비롯한 대부분의 유명 인강 강사들이 "내가 찍어준 문제들이 거의 모의고사와 수능에 나왔다"라며 대대적인 홍보를 했다. 거짓말 같은가? 놉. 이는 사실일 수밖에 없다. EBS 책의 대부분의 문제를 찍어줬으니까 당연히 적중률이 높은 것이다. 효율을 밥 말아먹었다는 사실은 그 뒤에 숨어 있다.


  이 외에도 우리가 낚시당하기 쉬운 상황들을 몇 개 뽑아봤다. 물론 수학적인 지식을 꽤 필요로 하는 때도 있지만, 조금만 주의를 기울여서 피할 수 있는 경우도 많다.




● 될놈될 - 상관관계와 인과관계


  상관관계를 인과관계로 착각하는 경우이다. 좋은 대학교에 가면 그에 준하는 성공한 인생을 산다는 것이 그 예이다. 얼핏 생각해보면 좋은 대학교로부터 나오는 환경과 지원을 바탕으로 좋은 직장을 잡게 되고, 결국 성공한 인생으로 귀결된다는, 뭐 이런 식의 인과관계의 흐름이 도출된다. 하지만 애초부터 성공할 학생이 좋은 대학교에 입학하는 거라면? 좋은 대학교의 이미지가 우수한 인재들이 모이고, 그들이 스스로 훌륭한 아웃풋을 만들어내는 것으로부터 오는 거라면? 실제로 스티븐스 다비도위츠의 <모두 거짓말을 한다>에서는 대학 입학 점수(능력)가 비슷하다면 학교가 달라도 훗날 사회적 위치 또한 비슷하다는 사실을 소개한다. 물론 미국과 우리나라는 상황이 조금 다르지만, 될놈될이란 소리.



● 인생은 불공평해 - 평균과 중앙값


  지난해 우리나라 1인당 평균 소득(GNI)는 3만 1349달러라고 한다. 그럼에도 불구하고 체감 경기는 싸늘하다는 뉴스들이 뒤를 잇는다. 당연하다. 평균은 모든 관찰값을 무작정 더해서 개수로 나눈 값이다. 3, 4, 6, 7, 80의 평균값은 20이다. 특히 이런 극단값이 있는 경우 평균은 그닥 설명력을 갖지 못한다. 이 상황에서는 분포의 중간에 있는 중앙값(여기서는 6)이 그나마 쓸모가 있다. 또한 위의 평균 소득의 경우 최빈 소득(대부분의 사람들이 버는 수입)을 따질 수도 있다. 14년 통계에는 평균 소득이 3100만 원대인데 비해 최빈 소득이 1300만 원대였으니 지금도 별반 다를 바 없을 것이다. 어쨌든 평균만 보고 데이터를 판단하는 것은 금물.



● 그때는 맞고 지금은 틀리다 - 수치 비교의 함정


  <어벤져스:인피니트 워>가 <아바타>를 제치고 세계 흥행 1위를 갈아치웠다고 한다. 짝짝. 잠깐 조금 과거로 돌아가서 <아바타>가 흥행 1위일 때를 보자. <아바타>는 정말 '실질적으로' 역대 매출 1위이라고 볼 수 있을까? 경제학에서 쓰이는 '명목 수치'와 '실질 수치'를 고려하면 <아바타>는 인플레이션을 고려하지 않은 명목 수치 1위이다. 그렇다면 인플레이션을 고려한 실질 수치 1위는? <바람과 함께 사라지다>이다. 흠터레스팅. 안타깝게도 실질 수치에서는 <어벤져스:인피니티 워>도 흥행 1위를 지키지 못할 듯싶다.



● 얻어걸릴 수도 있지 - 확률은 거짓말 안 해


  우리는 놀라운 우연을 접할 때마다 그 뒷배경에 초자연적인 힘이 있다는 등의 상상을 하게 된다. 하지만 우연은 말 그대로 '가끔씩' 잘 일어나고 있을 뿐이다. 당신이 선생님이고 100명의 학급 친구들과 가위바위보 대결을 한다고 가정하자. 그러면 확률상 1명은 연속 네 번을 당신으로부터 승리하게 된다. 그럼 그 아이는 가위바위보 천재일까? 아니면 궁예마냥 독심술이라도 있는 것일까? 또다른 예시 추가. 23명이 모이면 그중 생일이 같은 두 명이 있을 확률이 50퍼가 넘는다. 판타지를 깨서 미안하지만, 당신이 우연히 학급에서 만난 생일이 같은 친구는 소울메이트 혹은 운명의 상대가 아니다. 껄껄.



● 봄이 좋냐? - 표본 편향


  가끔씩 연애나 성 관련한 설문조사를 보면 깜짝깜짝 놀랄 때가 있는데, 왜냐면 내가 너무 보수적으로 살아왔나 싶을 정도로 파격적인 수치를 보여준다는 것이다. 연애 횟수나 성 취향 등등... 하지만 (솔로들은) 안심하시길. 대체로 이런 류의 설문조사에 제대로 응답해주는 사람은 개방적인 성향이 있거나 경험이 많은 경우가 많다. 반대로 경험이 적은 사람의 경우는 대답을 피하거나 사회적 시선을 의식하고 수치를 조작해서 말할 수도 있다. 이를 표본이 편향되었다고 부른다. 비슷한 예로 투표소 앞 출구조사가 있다. 출구조사에 응하는 사람들은 조사를 받는다는 것에서 눈치를 보거나, 혹은 정치에 참여적인 성향을 가질 가능성이 존재한다. 이런 문제를 해결하려면 정교한 방법론을 설계해서 편향되지 않은 표본을 모아야 한다. 물론 말처럼 쉽지는 않지만.




매거진의 이전글 수학을 배워서 다행이다
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari