세상에는 3가지 거짓말이 있다

가능성 있는 인재가 되기 위한 첫걸음

by 성장디렉터
그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계 - 벤저민 디즈레일리


통계는 100%가 아닌 세상에서 어느 쪽이 더 수치적으로 다수를 차지하는지 알아보는 실용학문입니다


우리나라에서 AI에 대한 관심을 증폭시킨 알파고를 만든 구글은 직원 만족도가 높은 회사의 자리도 수년째 유지하고 있습니다. 구글은 직원 만족도를 높이기 위해 직원들에게 최적화된 구내식당 대기시간을 찾아내었습니다. 구글 인력개발팀의 연구원들은 점심시간의 구내식당 대기시간은 약 3~4분 정도가 적당하며, 더 많거나 적어서는 안 된다는 사실을 발견했습니다. 그 정도의 시간이 바로 직원들이 새로운 사람들과 교제할 수 있으면서도 시간을 허비한다고 느끼지 않는 최적의 시간이라고 합니다.


그리고 점심식사 테이블을 길게 만들어야 서로 알지 못하던 직원들이 자연스럽게 같이 앉아 대화를 나눌 수 있다고 합니다. 이런 것이 궁금한 것도 신기하지만, 이런 것을 조사할 수 있게 용인해주고 권장하는 구글의 기업문화가 부럽습니다. 아마 우리나라 기업에서 이런 조사를 한다고 하면 당장 업무외적인 딴짓을 한다고 경고를 받을 것입니다.


아침마다 지하철에서 출근하는 사람들에게 끼여서 나오는 길은 굉장한 정신적, 육체적 에너지 소모가 되는 일입니다. 그런데 출퇴근은 남성보다 여성에게 더 많은 스트레스를 준다는 사실을 알고 계셨나요? 미취학 연령의 자녀를 둔 남녀를 비교했을 때 출퇴근에 따른 고통은 여성이 남성보다 4배 더 컸다고 합니다. 매일 출퇴근하는 일에 별로 괴로워하지 않는 여성은 다음의 세 가지 부류에 해당됩니다. 자녀가 없는 독신이거나, 자율적으로 시간을 선택하여 일을 할 수 있거나, 육아의 대부분을 배우자가 책임지는 경우입니다.


출퇴근만해도 벌써 지친다...


이렇듯이 남성보다 여성이 더 많은 출퇴근 스트레스를 느낀다는 것이 이해가 되면서도 마음이 아픕니다. 다른 한편으로는 운동하는 여성의 임금이 더 크게 오른다는 사실도 매우 흥미롭습니다. 운동을 자주 하면 임금이 상승하고, 특히 남성보다는 여성의 증가분이 훨씬 크다고 합니다. 운동을 자주 하는 여성은 그렇지 않은 여성에 비해 임금이 평균 11.9% 더 높으며, 이는 학업을 1.8년 더 한 효과에 맞먹는 프리미엄에 해당합니다. 남성의 경우는 6.7% 더 높았다고 해요.




우리는 의사결정을 할 때 현재를 기반으로 미래를 예측하게 됩니다. 그런데 이것이 항상 옳은 것만은 아닌 것을 알고 계셨나요. 이것이 개인투자자가 주식투자에 실패하는 이유이기도 합니다. 최근 20년간 미국 주식시장에서 개인투자자의 연평균 수익률은 1.9%에 불과했던 반면, S&P 500의 수익률은 8.4%였다고 합니다. 투자자들이 가장 잘 저지르는 심각한 실수로 현재의 시장 상황에 근거해서 장기적인 예측을 하는 행동(앵커링)을 하는 것이기 때문입니다.


이기고 있는 팀보다 쫓아가는 팀에 베팅해야 한다는 말을 들어보셨나요?


NBA 경기 분석 결과 하프타임에 1점 뒤져있는 팀이 1점을 앞서있던 팀보다 경기를 이길 가능성이 더 높다고 합니다. 연구자들은 많은 경우에 약간 뒤처져 있으면 동기가 유발되고 박차를 가하게 되는 것 같다고 설명합니다. 또한 다양한 유형이 모인 그룹에서 보다 높은 수준의 혁신이 나온다고 합니다. 대형 방위산업 업체의 41개 급진적 혁신팀을 대상으로 한 연구에서 연구자들은 인지 유형의 최적 조합을 찾아냈습니다.


20~30%의 창의형 인력과 최대 10%의 철두철미형 인력이 있어야 하며, 10~20% 정도의 순응형 인력이 창의형 인력을 지원하고 협력의 분위기를 조성하며 팀원 간의 신뢰를 향상하는 역할을 해야 한다.


창의적인 팀을 만들기 위해서 순응하는 사람도 필요하다는 사실을 상상이나 할 수 있었나요? 팀의 규모가 작은 팀일수록 의사결정과 추진이 빠르다는 사실은 쉽게 예측되는 부분입니다. 레고 블록 50개를 사람모형으로 조립하는데 2명으로 이루어진 팀은 평균 36분이 걸린 반면, 4명의 팀은 52분이 소요되었습니다. 팀을 구성하는 인원이 많아지면 일치된 의견을 이끌어내기 어려워지고, 구성원들의 집중력이 약화된다는 것을 통계는 보여주고 있습니다.




선무당이 사람 잡는다는 말이 있습니다. 우리는 학창 시절 수학 과목에서 확률과 통계의 기본을 배웠습니다. 기본적으로 평균과 표준편차 정도의 용어와 의미는 모두가 알고 있습니다. 다만, 수학적으로 계산하는 방법만 배웠지 실제로 어떤 의미를 가지고 있는지는 제대로 배우지 못한 것 같습니다. 생각 외로 간단한 통계의 기본 원리도 모르는 경우를 쉽게 볼 수 있기 때문입니다.


상관관계의 사건을 인과관계인 것처럼 서술하는 경우가 있습니다.


예를 들어 운전 중 커피 소모량과 고속도로 교통사고 사망률이 비례하는 결과를 얻었습니다. 그런데 이것은 커피가 교통사고의 주범임을 보여주는 것이 아니라 커피를 대량으로 마셔가며 잠을 쫓아 운전하는 사람은 졸음운전의 위험성이 높고, 따라서 교통사고가 일어날 가능성도 높아지는 것으로 해석해야 합니다. 우리가 상관관계와 인과관계를 혼동해 잘못된 해석을 한 것입니다.


기본적으로 통계는 인과관계가 아닌 단순한 현상만을 보여준다는 사실을 우리는 기억해야 합니다. 통계 값에서 유의미한 인과관계를 찾아내는 것은 수치 이면에 숨어 있는 정보를 이끌어내는 것으로 여기에는 특별한 통계분석 기법들이 활용되어야 합니다. 이처럼 우리가 통계를 적절히 사용하고, 통계의 오류를 줄여간다면 조금 더 지혜로워질 수 있지 않을까요?



표본 추출을 통한 통계분석


우리는 통계를 활용함에 있어서 대상자의 규모가 큰 경우에는 일부 표본을 추출해서 대표성을 증명하곤 합니다. 그런데 이 표본추출이란 것이 과연 실제로 대표성을 띌 수 있는가에 대해 의문이 생겨야 합니다. 좋은 사례들이 많이 있는데, 하버드 비즈니스 리뷰에 나오는 예일대 졸업생들의 연평균 소득 사례를 들어보고자 합니다. ‘예일대 1924년 졸업생 연간 평균소득은 25,111달러이다'라는 <뉴욕 선>지에 실린 기사를 인용한 것인데, 여기에는 다음과 같은 맹점이 있습니다.


첫째 표본추출 시 주소가 파악된 졸업생 중 질문지에 응답한 사람들은 주소를 찾을 수 있고, 연소득이 얼마인지 기꺼이 말할 수 있는 그룹일 것입니다. 두 번째는 설문에 답한 소득이 과연 진짜 소득이냐는 점입니다. 따라서 진정한 대표성을 가진다고 말하기 어렵습니다. 표본은 모집단으로부터 순전히 우연에 의해 추출되어야만 합니다. 즉 원래의 전체 안에 있는 값들 중에서 표본에 선택될 기회가 동일해야만 합니다.


부분으로 전체를 판단할 때 범하는 실수를 일컫는 표현이 심슨 패러독스입니다. 심슨 패러독스란 부분끼리 비교한 것만을 가지고 전체를 판단하면 전혀 다른 결과가 나올 뿐 아니라 틀린 결과가 나올 수 있다는 것이다. 예를 들어 연간 영업 실적을 상반기와 하반기로 나눈 결과와 연간 전체 영업결과가 전혀 다르게 나올 수 있습니다. 상반기 A의 영업실적은 200건을 대상으로 영업을 하고 그중 60건이 성공했다고 하면, 성공확률은 30%입니다.


반면에 B는 100건을 대상으로 29건 성공하여 29%의 성공확률이었습니다. 하반기에 A는 100건 중 40건을 성공하여 성공확률이 40%, B는 200건 중 78건을 성공하여 39%였습니다. 그러나 상하반기 실적을 합산하여 영업실적을 계산하면 A는 33.3% B는 35.7%가 나옵니다. 분명 상반기와 하반기 모두 A가 B보다 성공률이 높았습니다. 그런데 전체 평균으로는 A보다 B의 성공확률이 2.4%나 높은 것입니다. 이게 도대체 어떻게 된 일일까요?


우리가 통상적으로 적은 인원수의 표본을 쓰는 이유는 시간과 비용을 줄이기 위함입니다. 그런데 여기에는 전제조건이 있습니다. 그것은 이 표본이 전체를 반드시 대표해야 한다는 것입니다. 실제로는 표본이 전체를 대표하지 않는 경우를 이용하여 대중을 속이는 사례가 있습니다. '00 운동을 하는 것만으로 한 달 만에 체지방 5% 감소' - 이 광고의 가장 커다란 속임수는 통계적으로 불충분한 표본을 채택했다는 점입니다. 이것은 단지 소비자가 아닌 피트니스 클럽의 목적에 부합하는 표본만을 사용했기 때문입니다.


즉, 소수의 대상으로부터 얻은 결과를 마치 전체인양 언급한 것입니다. 동전 던지기를 또 다른 예로 들어보겠습니다. 열 번 던졌더니 앞면 8번. 앞면이 나올 확률 80% 바로 입증한 셈입니다. 별반 다를 것이 없습니다. 충분히 많이 던져보면 거의 반반이 되는 것과 시행 횟수가 충분히 커야만 여러 현상을 제대로 설명하거나 쓸모 있는 예측을 할 수 있음을 기억해야만 합니다.



평균은 하나가 아니다


우리는 정말 여러 가지 상황에서 평균값을 맹신하여 사용하고 있습니다. 학창 시절 확률 및 통계 수업에서 가장 먼저 배웠던 부분이 평균이기 때문입니다. 하지만 산술평균값인지, 중앙값인지, 아니면 최빈값인지 이 중 어느 것을 말하는지 정확하게 알기 전에는 그 어떤 평균도 섣불리 해석하고 판단해서는 안됩니다. 다음 예시를 통해 여러 평균값을 구하는 예시를 먼저 살펴보겠습니다.


산술평균값 = (10+8+8+5+5+5+5+4+4+2)/10 = 56/10 = 5.6

중앙값 = 크기순 서대로 나열하여 한가운데에 있는 값으로 5

최빈값 = 가장 많이 등장하는 값으로 5


만일 당신이 평균 급여라는 이름의 수치를 보았다면 항상 이런 질문부터 해야만 합니다. "어떤 종류의 평균값이오? 그 평균값을 계산할 때 누구까지 포함했나요?" 즉 회사 사장님이나 임원들이 종업원 전체의 평균 급여가 얼마라고 발표할 때 그 값에 커다란 의미를 부여할 수도 있지만 전혀 그렇지 않을 수도 있는 것도 같은 이치입니다. 만약 급여 평균값이 중앙값이라면 종업원의 절반은 그보다 높은 급여를 받고 나머지 절반의 급여는 그보다 낮다는 뜻입니다. 그러나 만일 그것이 산술평균값이라면 그 값은 사장님의 급여 1억 원과 그보다 적은 종업원들의 급여들을 합한 평균값일 뿐이라는 것 외에는 아무것도 알 수 없는 값입니다.


따라서 '연간 평균 급여 4천만 원'이라고 할 때 이 숫자는 엄청나게 높은 금액의 사장님 급여와 종업원 급여 어느 쪽도 해당되지 않는 터무니없이 황당한 수치일 뿐입니다. 이처럼 우리의 판단을 현혹시키는 방법은 이외에도 얼마든지 찾아볼 수 있습니다. 그래프의 밑 둥을 잘라 내거나, 작은 것을 크게 하기, 절단된 막대그래프 방법 등을 이용해 사람의 눈을 속일 수 있습니다. 약간의 증가도 시각적으로는 충분히 엄청난 증가로 보일 수 있습니다. 10%라는 작은 증가를 100%의 증가처럼 보이려고 한다면 그저 가로축과 세로축의 눈금 간격만 바꾸면 가능해집니다.



평균 사용법 Ⅰ (중심 경향성)


우리는 수치를 해석할 때 다양한 값들을 사용하게 되는데, 어린 시절 학교에서 배웠던 평균에 집착하는 경우가 매우 많습니다. 실제로 평균 이외에도 중간값, 최빈도 값, 최댓값, 최솟값 등 다양한 분석자료들이 존재합니다. 각각이 의미하는 바가 다르고, 또 상황에 따라서 의미를 갖는 경우도 달라지게 됩니다. 예를 들어서 최근 태풍이 부산에 왔을 때 방파제 높이를 낮추어서 해운대 아파트들이 큰 피해를 입었다고 합니다.


이때는 태풍이 오는 경우 파도의 최댓값과 평균값이 있을 것입니다.


단 한 번의 큰 파도만으로도 피해의 규모가 크다는 점을 감안하면 방파제의 높이를 결정하게 되면 최댓값을 반드시 고려했어야만 합니다. 조망권을 중시하고, 파도의 최댓값을 무시한 결과 자연재해를 인재로 바꾸어 버리는 상황이 발생한 것입니다. 참고로 평균값을 사용할 수 있는 경우는 평균값, 최빈도 값, 중간값의 편차가 작은 상황이어야 한다고 합니다.


평균은 특별한 지식이 없어도 계산하기 매우 쉽고 유용한 방법이지만, 잘못 사용되면 사실과 전혀 다른 의미를 전달하게 됩니다. <벌거벗은 통계>에서는 통계학자의 익살스러운 표현을 소개하고 있는데요. 내용이 매우 재미있습니다. 두 남자가 한 사람은 족발 한 세트를 먹고, 한 사람은 맥주 피쳐 두 잔을 마셨습니다. 통계적 평균 개념을 적용하면 두 사람은 각각 맥주 한잔과 족발 절반을 먹은 것입니다.


하지만 실제로는 한 명은 족발을 과식했으며, 다른 한 사람은 맥주를 과음한 것입니다. 평균을 사용할 때는 다른 데이터들과 달리 유별난 차이를 보이는 값이 존재할 수 있다는 것을 감안해야만 한다는 것을 명심해야 합니다. 평균값으로 모든 것을 다 설명할 수 없기 때문에 우리는 최댓값과 최솟값이나 범위 같은 산포도를 통해 데이터의 분석 정도를 같이 활용해야만 합니다.


위에서 설명한 최댓값, 최솟값 이외에도 우리는 분산, 표준편차와 같은 값을 통해 평균으로부터 각 데이터들의 차이를 알 수 있게 됩니다. 분산이나 표준편차가 클수록 평균이 데이터의 전체를 대표하는 값이라고 말할 수가 없게 됩니다. 그래서 평균을 활용할 때는 데이터의 분포 정도를 함께 감안해야만 논리력과 설득력을 갖게 됩니다.



평균 사용법 Ⅱ (표본 평균과 모집단 평균)


우리가 실제로 사용하는 대부분의 평균값은 우리가 조사하는 집단 전체의 평균값이 아닙니다. 즉, 모집단 전체의 평균값이 아니라 일부분만을 추출한 표본 평균을 사용하고 있는 것입니다. 그런데 표본 평균이 모집단 평균값의 값과 차이가 날 여지는 충분히 있습니다. 그래서 이에 대한 검증이 필요한 것입니다. 표본의 수가 모집단의 전체수에 가까워질수록 당연히 오차는 줄어들게 되지만, 시간과 비용이 제한적이라는 점을 감안할 때는 적정선을 찾아야 할 필요가 있답니다.


이미 통계가 과거로부터 많은 사람들의 연구가 이뤄진 분야이기 때문에 보편적으로 널리 알려진 방법들이 있다는 것이 다행입니다. 아마 학창 시절 가우스 분포 또는 정규분포라는 말을 들어보신 적이 있을 것입니다. 정규분포는 평균, 중간값, 최빈도 값이 모두 동일하며, 이중에서도 평균은 0이고 표준편차가 1인 분포를 표준 정규분포라고 하는 것입니다. 학창 시절에 배웠던 표준 정규분포를 드디어 사용하게 된다고 생각하니 조금 설레는 이유는 무엇일까요? 통계조사를 보면 정확도 95%, 99.7%라는 말을 들어보셨을 텐데 이것이 바로 표준 정규분포 개념을 적용한 것입니다.


평균의 함정에서 벗어나야 한다!!


즉 우리가 구한 표본 평균이 모집단 평균 내에 속할 확률이 얼마인지를 추정할 수 있는 것입니다. 이론적으로 이해하기보다는 실용적인 측면에서 설명을 드려보겠습니다. 예를 들어서 표본의 수가 10,000개이고, 표본 평균은 4, 표준편차는 1이라면, 표준오차를 구할 수가 있습니다. 표준오차는 표준편차/루트(표본의 수)로서 0.01이 됩니다. 따라서 ‘모집단 평균 추정법’을 사용하여 95% 신뢰구간 공식(표본 평균±계수*표준오차)을 사용하면 모집단 평균이 4.01 ~ 3.99 내의 값을 가질 것이라고 95% 확신할 수 있는 것입니다. 와우!!


통계적으로 주어진 정보들을 잘 활용하기 위해서는 세분화 작업이 중요합니다. 마케팅에서도 고객을 세분화하여 대응하는 것이 기본입니다. 우리가 정보를 세분화하는 순간 기존에는 보이지 않던 의미들을 발견할 수 있게 됩니다. 예를 들어서 언론에서는 금융권이 고연봉이라는 점과 은행별 평균 급여를 비교하는 자료를 수시로 공개하고 있습니다. 그런데 이게 단순히 평균 급여로만 분석하면 상당히 왜곡되는 해석을 할 수 있게 됩니다.


예를 들어서 각 조직의 연령, 성별, 근속연수, 정규직 비율, 급여제도 등에 따라서 평균 급여는 매우 달라질 수 있습니다. 따라서 이런 기준들로 평균 급여를 세분화하게 되면 실제로 우리가 궁금해하는 점들에 대해서 올바른 정보를 얻을 수 있게 되는 것입니다. 우리가 통계라는 자료를 활용하고 분석하면서 기억해야 할 부분이 있습니다. 통계는 팩트 즉, 사실을 우리에게 제공한다는 점입니다. 다만 우리가 통계적 지식이 부족하기 때문에 사실과 전혀 다른 판단 값을 제시하게 되는 것입니다.




통계를 모르면 속을 수밖에 없다


정보를 제공하는 사람이 권위자라면 우리는 의심하지 않고 쉽게 믿는 경향이 있습니다. 그리고 이를 악용하는 사람들이 있다는 것이 문제입니다. 통계의 기본원리를 이해하고, 상대방의 의도대로 정보를 받아들이는 것이 아니라 철저히 논리적인 사고에 의해 상황을 받아들여야 합니다. 영업사원이나 광고전문가는 통계를 활용해 현상을 왜곡하는 경우가 많다고 합니다.


예를 들어서 새로운 교육프로그램을 실시한 후 참가자들의 만족도를 조사한 경우가 있습니다. 2016년도에는 85.6점이었던 만족도가 새로운 교육 프로그램을 실시 후에는 87.1점이 나왔습니다. 만족도가 1.5점이나 오른 것입니다. 해당 부서에서는 만족도가 올랐다며, 평균 1.5점이 오른 것에 매우 고무되어 있을 것입니다. 그렇다면 통계적으로는 어떻게 해석하는 것이 옳을까요.


선거 이후에 당선율이나 득표율을 보면 정확도 95% 뒤에 ±2.5% 같은 값을 본 적이 있을 것입니다. 이 말은 정확도가 95%라는 것이 아니라, 92.5%에서 97.5% 사이라는 것입니다. 말하자면 1.5점의 만족도 상승은 오차 범위 이내이므로 실제로는 올랐다고 볼 수 없다는 뜻입니다. 왜냐면 85.6점 ± 1.5점 = 84.1점 ~ 87.1점이고, 87.1점 ± 1.5점 = 85.6점 ~ 88.6점입니다.


즉 85.6점은 최대 87.1점일 수도 있고, 87.1점은 최솟값은 85.6점일 수도 있습니다. 즉 오히려 만족도가 떨어진 결과일 수도 있다는 뜻입니다. 설문을 통해 얻어진 통계의 기본 원리를 모르면 잘못 해석하기 가장 대표적인 사례입니다.



추론


볼티모어 주식 중개인으로부터 뜻하지 않은 뉴스레터를 받습니다. 그 안에는 어떤 주식이 대폭 상승할 거라는 팁이 적혀 있습니다. 일주일 뒤 실제로 주식이 정말 오르게 됩니다. 다음 주에 받은 뉴스레터에는 어떤 주식이 하락할 것 같다는 예상이 적혀 있습니다. 실제로 그 주식은 폭락하게 됩니다. 10주 동안 매주 새로운 예측을 담은 정체불명의 뉴스레터가 당신에게 배달되고, 매번 예측은 현실이 됩니다. 드디어 주식 중개인은 자신에게 투자하라고 권유를 하는 편지를 보냅니다. 대신 자신의 정확한 판단을 대가로 두둑한 수수료를 요구합니다.

예측을 맞힐 확률이 1/2이라면 열 번 연속 맞힐 확률은 1/2을 10번 곱한 1/1024입니다. 즉 거의 이루어지기 어렵다는 뜻입니다. 그런데 이 일이 실제로 있었던 일이라면 얘기가 달라집니다. 실제 주식 중개인은 10,240통의 뉴스레터를 보냈습니다. 여기에서 중요한 것은 뉴스레터의 내용이 같지 않았던 것입니다. 절반은 어떤 주식이 오르리라고 예측한 내용이었고, 나머지 절반은 그 반대로 주식이 내릴 것이라고 예측한 내용이었습니다.


주식 중개인이 무효한 예측을 했던 수신자는 더 이상 중개인으로부터 소식을 듣지 못했습니다. 현실과 같은 예측을 받은 5,120명에게만 두 번째 예측의 서신을 보낸 것입니다. 이렇게 10주가 지나면 10명의 수신자는 10번 연속 예측을 맞힌 서신을 받게 되는 것입니다. 10명의 수신자는 주식 중개인을 대단한 실력자로 믿을 것이고, 실제 자신의 재산을 맡길 확률이 매우 높습니다.


하지만 과거의 성과는 결코 미래의 결과에 대한 보장이 되지 못한다는 사실을 우리는 기억해야만 합니다. 우리가 의사결정 시에 과거의 성과에만 몰입해서는 안 되는 이유입니다. 10번의 성공 이후에 벌어지는 1번의 대 실패로 자신이 10번의 성공으로 벌어들인 모든 이익과 자신의 전재산이 한순간에 사라질 수 있는 것이 인생입니다.


금융 회사는 뮤추얼 펀드를 출시할 때 대중에게 공개하기에 앞서 한동안 사내에서 운영을 하는데 그 관행을 인큐베이션이라고 합니다. 수많은 펀드들을 다양한 투자전략과 포트폴리오 배분을 통해 실험하는 것입니다. 여기에서 괜찮은 수익률을 보인 펀드는 실적이 얼마나 좋았는가 하는 정보와 함께 대중에게 공개되지만, 수익률이 낮은 펀드들은 공개되지 않는다고 합니다.


지난 12개월 동안 시장을 초과하는 수익률을 냈다고 자랑하는 펀드에 가입하는 것이 얼마나 위험한가를 알려주는 교훈입니다. 황금의 손을 지닌 조언자를 찾는 대신 규모가 크고 수수료가 늦은 따분한 지수 펀드에 돈을 넣고 잊어버리라는 투자의 현이들의 말을 기억해야 하는 이유입니다. 세상에는 확률이 낮은 사건이 생각보다 자주 그리고 많이 일어난다는 것을 기억해야 합니다. 벼락에 맞거나 복권에 당첨되는 것은 확률이 대단히 낮은 일이지만 그래도 세상에서는 누군가에게 그런 일이 벌어집니다. 다만 우리에게 아직 일어나지 않았을 뿐입니다. \

잘 쓰면 강력하지만 잘못 사용하면 엄청난 오류를 만들어내는 것이 통계라는 것을 배웠습니다. 그렇다면 통계를 어떻게 사용해야 할까요? 예를 들어 내일 비가 올 확률은 30%이다 vs. 5월에는 10일 정도 비가 온다. 후자가 바로 빈도 진술입니다. 사람들의 판단력을 높일 수 있는 표현이 빈도 진술이라고 합니다. 조건부 확률 표현과 자연 빈도 표현이 우리에게 얼마나 다르게 이해되는지 다음 예시를 통해서 직접 체험해보도록 하겠습니다.

(조건부 확률) 회사에 입사한 신입사원 중에서 6개월 안에 퇴사하는 비율은 3% 수준이다. 그리고 1년 안에 퇴사하는 비율은 10%에 이른다. 이것은 자신의 적성을 고려하지 않고 무조건 지워하고 보는 사회적 현상인 묻지 마 지원이 만연되었기 때문이다.
(자연 빈도) 회사에 입사한 신입사원 100명 중에서 6개월 안에 퇴사하는 인원은 3명 수준이다. 그리고 1년 안에 퇴사하는 비율은 10명에 이른다. 이것은 자신의 적성을 고려하지 않고 무조건 지워하고 보는 사회적 현상인 묻지 마 지원이 만연되었기 때문이다.

사람들은 조건부 확률로 표현된 상황에 대해서는 올바른 판단을 하지 못한다고 합니다. 쉽게 이해되지 못하기 때문입니다. 사람은 대개 확률 정보가 무엇을 의미하는지 정확히 해석하지 못한다고 합니다. 상대 빈도는 그 값을 얻은 당시의 맥락을 전달하기에 부적절한 표기법입니다. 반면 자연 빈도는 우리의 사회적·개인적 실천 속에 반드시 포함되는 확률 정보를 사람들이 제대로 다룰 수 있게 만드는 지침의 한 단계로서 도입된 장치입니다.


따라서 올바른 판단을 위해서는 “자연 빈도” 방식으로 설명해야 합니다. 반대로 올바른 판단을 하지 못하도록 하려면 일부러 “조건부 확률” 방식으로 표현하면 됩니다. 세계에서 일어나는 거의 모든 일은 불확실하다는 것을 기억하시기 바랍니다.









keyword