곰젤리는 남녀노소 누구에게나 친숙한 간식입니다.보기만 해도 기분 좋아지는 귀여운 생김새, 식욕을 돋우는 알록달록 어여쁜 빛깔, 입안 가득 퍼지는다채로운 달콤함, 묘하게 빠져드는 쫄깃한 식감까지. 곰젤리가 100년 넘게 사랑받을 수 있었던 이유이지요.
봉지 안에는 6가지 색깔의 곰이 옹기종기 들어있어요. 저마다 고유한과일맛이 납니다.다홍곰은 라즈베리맛, 초록곰은 사과맛, 투명곰은 파인애플맛, 빨간곰은 딸기맛, 주황곰은 오렌지맛, 노란곰은 레몬맛이에요. 여러분은 어떤 곰을 가장 좋아하세요?
* 출처 : 하리보
초록곰을 유난히 편애하는 저는 매번 아쉬움을 느낍니다. 양이 적어서 골라먹는 재미가 순식간에 끝나거든요. 우리집 어린이는 맛있으면서 양까지 많은 투명곰이 가장 좋다고합니다. 그런데 정말 색깔마다 수량차이가 있는 걸까요? 골고루 들어있지 않은 게 확실한가요? 만약 다르다면 가장 많은 색은 뭐고 가장 적은 색은 뭐지요? 곰젤리의 색깔 분포가 궁금해진 저는 곧장 실험에 착수했어요.
수학실험을 위해 곰젤리 다섯 봉지를 구입했습니다.
한 봉지당100g이며곰젤리는43개씩 동일하게 들어있어요. 만약 6가지 색깔이 골고루 들어있다면 43÷6=7...1이니까, 한 색깔당 7~8개여야 할 겁니다. 과연 예상이 맞을지 곰젤리를 색깔별로 분류해 보겠습니다.
● A봉지 (총 43개)
빨강 :8개
다홍 :7개
주황 :8개
노랑:8개
초록 :4개
투명 :8개
색깔별로 개수가 일정하지 않군요. 초록이 상대적으로 적다는 저의 불만에 힘이 조금 실립니다. 이번에는 각각의 색깔이 전체에서 차지하는 비율을 계산해 보겠습니다.
비율=비교하는 양÷기준량
비율을 구할 때 가장 중요한 건 '기준'이죠? 여기서 기준은 한 봉지에 들어있는 전체 개수 43이고, 비교하는 양은 색깔별 개수예요.비율에 100을 곱하면 백분율(%)을 구할 수 있습니다.
빨강 : 8÷43=0.19=19%
다홍 : 7÷43=0.16=16%
주황 : 8÷43=0.19=19%
노랑 ; 8÷43=0.19=19%
초록 : 4÷43=0.09=9%
투명 : 8÷43=0.19=19%
이 수치를 토대로 원그래프를 그려봅시다. 한 바퀴는 360°니까 360°에 각각의 비율을 곱하면 각 항목별 각도가 구해집니다.
빨강 : 360°×19%=68°
다홍 : 360°×16%=58°
주황 : 360°×19%=68°
노랑 : 360°×19%=68°
초록 : 360°×9%=32°
투명 : 360°×19%=68°
계산된 각도로 부채꼴을 그리면 원그래프가 완성됩니다. 원그래프를 이용하면 전체에 대한 각 항목의 비율을 한눈에 비교할 수 있어요.
이렇게 데이터를 시각화하니 쏠림현상이 확연히 드러납니다. 나머지 네 봉지도 백분율을 계산하여 원그래프로 나타내보겠습니다.
● B봉지 (총 43개)
빨강 :7(16%)
다홍 :4(9%)
주황 :7(16%)
노랑 :6(14%)
초록 :12(28%)
투명 :8(19%)
● C봉지 (총 43개)
빨강 :6(14%)
다홍 :5(12%)
주황 :4(9%)
노랑 :11(26%)
초록 :13(30%)
투명 :4(9%)
● D봉지(총 43개)
빨강 :6(14%)
다홍 :5(12%)
주황 :9(21%)
노랑 :10(23%)
초록 :4(9%)
투명 :9(21%)
● E봉지 (총 43개)
빨강 :6(14%)
다홍 :10(23%)
주황 :4(9%)
노랑 :6(14%)
초록 :8(19%)
투명 :9(21%)
봉지마다 색깔의 혼합비율이 달라서 특정 색깔이 제일 많다고 단정할 수 없었습니다.왜 이런 차이가 생기는 걸까요?
* 출처 : 하리보 홈페이지
곰젤리 생산 과정을 보면 납득이 됩니다. 하리보 홈페이지 설명에 따르면 일정 비율로 제작한 곰젤리를 '무작위 혼합' 방식으로 중량에 맞게 포장한다고 해요. 그러니 우리가 진열대에서 골라 잡은 곰젤리 봉지는 저마다 혼합 비율이 다를 수밖에요.
곰젤리는 여론조사와 닮았습니다. 지금 우리 앞에 큰 통이 놓여있고 그 안에 여섯 빛깔의 곰젤리수만 개가들어있다고상상해 보세요.전자동시스템으로 인해100g씩 봉지 하나에 담겨 포장됩니다. 곰젤리가 담긴 커다란 혼합용기는 통계학에서 '모집단', 그 속에서 꺼낸 한 봉지 분량의 곰젤리는 '표본'을 뜻합니다. 모집단에서 표본을 꺼내는 것을'표본추출'이라고 하는데, 통계학에서 중요한 것이 바로 이 표본추출입니다.어떤 표본을 선택하느냐에 따라 조사 결과가 달라질 수 있으니까요.
역사상 가장 유명한 통계참사를 아십니까. 1936년 미국의 저명한 주간지 <리터러리 다이제스트>에서 실시한 대통령 당선 예측 여론조사입니다. 당시 후보는 민주당의 프랭클린 루스벨트와 공화당의 알프 랜던이었는데요. 잡지사에서는 무려 1000만 명의 미국인을 대상으로 여론조사한 후, 랜던이 57%의 득표율로 대통령에 당선될 거라고발표합니다. 그런데 개표 결과,루스벨트가 61%로 가볍게 압승했어요. 여론조사가이토록 완벽하게 빗나간 이유가 뭘까요? 바로 표본 자체가 왜곡됐기 때문입니다.
1000만 명의 표본을 추출한 방식이 문제였습니다. 잡지사에서는 구독자와 전화번호부, 자동차 등록부에서 표본을 골랐다고 해요. 그런데 1930년대 미국에는 집에 전화기가 있는 인구는전체의 고작 1/4에 불과했습니다. 집에 전화기를 설치하거나 잡지를 구독할 만큼의 재력이 있는 사람들을투표자 표본으로 선택한 거죠. 그들은 저소득층을 위한 공약을 내건 루스벨트를 지지하지 않았어요. 그러다 보니 1000만 명이라는 어마어마한 표본에도 불구하고 여론조사는 실제 투표 결과와 일치하지 않았던 겁니다.편향된 표본은 전체를 대표할 수 없어요.
표본 추출의 목적은 적은 양의 표본으로 모집단의 특성을 파악하는 것이지만, 표본과 모집단의 특성이 동일하지 않다는 데 바로 통계의 함정이 숨어있어요. 더군다나 표본이 너무 적거나 편파적이면 현실과는더욱 멀어져요. 통계학에서는 이러한 오차를 최대한으로 줄이기 위해 노력합니다. 부분이 전체를 대신할 수 있으려면 아래 두 가지 조건이 필요해요.
첫째, 조사 인원이 너무 적어서는 안 되고 대표성이 충분해야 한다. 둘째, 조사 표본이 너무 강하거나 특별한 경향이 없어야 한다.
곰젤리 포장을 예로 들면, 통에 여섯 가지 색깔의 곰젤리를 쏟아부은 후 골고루 충분히 섞어줘야 합니다. 대충 섞어 무작위로 포장하면 원래의 생산 비율을 나타낼 수 없어요. 게다가 너무 적은 표본은 통계 가치가 없으니가급적 많은 표본을 확보해야 합니다.
만약 곰젤리를 한 봉지가 아닌A, B, C, D, E 다섯 봉지를 전부 취합한다면 색깔 비율은 어떻게 달라질까요?
● A+B+C+D+E (총 215개)
빨강 : 8+7+6+6+6=33 (15%)
다홍 : 7+4+5+5+10=31 (14%)
주황 : 8+7+4+9+4=32 (15%)
노랑 : 8+6+11+10+6=41 (19%)
초록 : 4+12+13+4+8=41 (19%)
투명 : 8+8+4+9+9=38 (18%)
한 봉지만 개봉했을 때는 천차만별이던 색깔 비율이 다섯 봉지를 합산하니 어느 정도 고른 분포를 보이는군요. 검증이 충분해야 통계적 의미가 있습니다.
분명 통계는 우리 삶을 이롭게 합니다. 지금의 상황을 분명하게 보여주고 미래를 예측하는 데 도움을 주거든요. 따로따로 떼어놓으면 무작위적이고 예측 불가능해보이지만, 한데 모아서 분석하면 어떤 법칙이 나타나고 예측도 가능해져요. 이러한 통계의 특성을 이용해 우리는 현실의 많은 문제를 해결하곤 하죠.
그렇지만 의도된 왜곡은 매우 위험합니다.각종 설문조사는 설계와 시행 과정에서 고의로든 실수로든 현실 조작이 가능해요. 정치인은 자신에게 유리하게끔 특정 숫자를 취사선택하고, 무언가를 판매하는 사람들 역시 숫자로 착시현상을 일으킵니다. 학술분야도 연구 결과의 신뢰도를 높이기 위해 숫자를 교묘하게 이용하고요. 이처럼 결과를 미리 정해놓고 입맛대로 숫자를 버무리는 통계는 속임수입니다.
숫자는 절대 거짓말하지 않습니다. 숫자를 이용해 거짓말하는 사람이 있을 뿐이죠. 통계는유용하지만 다분히 정치적이기도 합니다.