brunch

You can make anything
by writing

C.S.Lewis

by 김나야 Oct 28. 2024

하리보 곰젤리에는 어느 색깔 곰이 제일 많이 들었을까?

곰젤리는 녀노소 누구에게나 친숙한 간니다.  기만 해도 기분 좋아지는 귀여운 생김새, 식욕을 돋우는 알록달록 어여쁜 빛깔, 안 가득 퍼지는 다채로운 달콤함, 하게 빠져드는 쫄깃한 식감까지. 곰젤리가 100년 넘게 사랑받을 수 있었던 이유이지요.


봉지 안에는 6가지 색깔의 곰이 옹기종기 들어있어요. 마다  과일맛이 납니다. 홍곰은 라즈베리맛, 초록곰은 사과맛, 투명곰은 파인애플맛, 빨간곰은 딸기맛, 주황곰은 오렌지맛, 노란곰은 레몬맛이에요. 여러분은 어떤 곰을 가장 좋아하세요?

* 출처 : 하리보

초록곰을 유난히 편애하는 저는 매번 아쉬움을 느낍니다. 양이 어서 골라먹는 재미가 순식간에 끝나거든요. 우리집 어린이는 맛있으면서 양까지 많은 투명곰이 가장 좋다고 합니다. 그런데 정말 색깔마다 수량 차이가 있는 걸까요? 골고루 들어있지 않은 게 확실한가요? 만약 다르다면 가장 많은 색은 뭐고 가장 적은 색은 뭐지요? 곰젤리의 색깔 분포가 궁금해진 저는 곧장 실험에 착수했어요.


수학실험을 위해 곰젤리 다섯 봉지를 구입했습니다.

한 봉지당 100g이며 곰젤리는 43개씩 동일하게 들어있어요. 만약 6가지 색깔이 고루 들어있다면 43÷6=7...1이니까, 한 색깔당 7~8개여야 할 겁니다. 과연 예상이  곰젤리를 색깔별로 분류해 보겠습니다.


A봉지 (총 43개)

빨강 : 8개

다홍 : 7개

주황 : 8개

노랑 : 8개

초록 : 4개

투명 : 8개


색깔별로 개수가 일정하지 않군요. 록이 상대적으로 적다는 저의 불만에 힘이 조금 실립니다. 이번에는 각각의 색깔이 전체에서 차지하는 비율을 계산해 보겠습니다.

비율=비교하는 양÷기준량

비율을 구할 때 가장 중요한 건 '기준'이죠? 여기서 기준은 한 봉지에 들어있는 전체 개수 43이고, 비교하는 양은 색깔별 개수예요. 비율에 100을 곱하면 백분율(%) 구할 수 있습니다.


빨강 : 8÷43=0.19=19%

다홍 : 7÷43=0.16=16%

주황 : 8÷43=0.19=19%

노랑 ; 8÷43=0.19=19%

초록 : 4÷43=0.09=9%

투명 : 8÷43=0.19=19%


이 수치를 토대로 원그래프를 그려봅시다. 한 바퀴는 360°니까 360°에 각각의 비율을 곱하면 각 항목별  구해집니다.


빨강 : 360°×19%=68° 

다홍 : 360°×16%=58° 

주황 : 360°×19%=68° 

노랑 : 360°×19%=68° 

초록 : 360°×9%=32°

투명 : 360°×19%=68° 


계산된 각도로 부채꼴을 그리면 원그래프가 완성됩니다. 원그래프를 이용하면 전체에 대한 각 항목의 비율을 한눈에 비교할 수 있어요. 

이렇게 데이터를 시각화하니 쏠림 현상이 연히 드러납니다. 머지 네 봉지도 백분율을 계산하여 그래프로 나타내보겠습니다. 


B봉지 (총 43개)

빨강 : 7 (16%)

다홍 : 4 (9%)

주황 : 7 (16%)

노랑 : 6 (14%)

초록 : 12 (28%)

투명 : 8 (19%)


C봉지 (총 43개)

빨강 : 6 (14%)

다홍 : 5 (12%)

주황 : 4 (9%)

노랑 : 11 (26%)

초록 : 13 (30%)

투명 : 4 (9%)


D봉지 (총 43개)

빨강 : 6 (14%)

다홍 : 5 (12%)

주황 : 9 (21%)

노랑 : 10 (23%)

초록 : 4 (9%)

투명 : 9 (21%)


E봉지 (총 43개)

빨강 : 6 (14%)

다홍 : 10 (23%)

주황 : 4 (9%)

노랑 : 6 (14%)

초록 : 8 (19%)

투명 : 9 (21%)


봉지마다 색깔의 혼합비율이 달라서 특정 색깔이 제일  많다고 단정할 수 없었습니다. 왜 이런 차이가 생기는 걸까요?

* 출처 : 하리보 홈페이지

곰젤리 생산 과정을 보면 납득이 됩니다. 하리보 홈페이지 설명에 따르면 일정 비율로 제작한 곰젤리를 '무작위 혼합' 방식으로 중량에 맞게 포장한다고 요. 그러니 우리가 진열대에서 골라 잡은 곰젤리 봉지는 저마다 혼합 비율이 다를 수밖에요. 


곰젤리는 여론조사와 닮았습니다. 지금 우리 앞에 큰 통이 놓여있고 그 안에 여섯 빛깔의 곰젤리 수만 개가 들어있다고 상상해 보세요. 전자동시스템으로 인해 100g씩 봉지 하나에 담겨 포장됩니다. 곰젤리가 담긴 커다란 혼합용기는 통계학에서 '모집단', 그 속에서 꺼낸 봉지 분량의 곰젤리는 '표본'을 뜻합니다. 모집단에서 표본을 꺼내는 것을 '표본추출'이라고 하는데, 통계학에서 중요한 것이 바로 이 표본추출입니다. 어떤 표본을 선택하느냐에 따라 조사 결과가 달라질 수 있으니까요.


역사상 가장 유명한 통계 사를 아십니까. 1936년 미국의 저명한 주간지 <리터러리 다이제스트>에서 실시한 대통령 당선 예측 여론조사입니다. 시 후보는 민주당의 프랭클린 루스벨트와 공화당의 알프 랜던이었는데요. 잡지사에서 무려 1000만 명의 미국인을 대상으로 여론조사한 , 랜던이 57%의 득표율로 대통령에 당선될 거라고 표합니다. 그런데 표 결과, 루스벨트가 61%로 가볍게 압승했어요. 여론조사가 토록 완벽하게 빗나간 이유가 뭘까요? 본 자체가 왜곡됐기 때문입니다.


1000만 명의 표본을 추출한 방식이 문제였습니다. 잡지사에서는 구독자와 전화번호부, 자동차 등록부에서 표본을 골랐다고 해요. 그런데 1930년대 미국에는 집에 전화기가 있는 인구는 전체의 고작 1/4에 불과했습니다. 집에 전화기를 설치하거나 잡지를 구독할 만큼의 재력이 있는 사람들을 표자 표본으로  거죠. 들은 저소득층을 위한 공약을 내건 루스벨트를 지지하지 않았어요. 그러다 보니 1000만 명이라는 어마어마한 표본에도 불구하고 여론조사는 실제 투표 결과와 일치하지 않았던 겁니다. 편향된 표본은 전체를 대표할 수 어요. 

 

표본 추출의 목적은 적은 양의 표본으로 모집단의 특성을 파악하는 것이지만, 표본과 모집단의 특성이 동일하지 않다는 데 바로 통계의 함정이 숨어있어요. 군다나 표본이 너무 적거나 편파적이면 현실과는 더욱 멀어져요. 통계학에서는 이러한 오차를 최대한으로 줄이기 위해 노력합니다. 부분이 전체를 대신할 수 있으려면 아래 두 가지 조건이 필요해요.

첫째, 조사 인원이 너무 적어서는 안 되고 대표성이 충분해야 한다.
둘째, 조사 표본이 너무 강하거나 특별한 경향이 없어야 한다.


곰젤 포장을 예로 들면, 통에 여섯 가지 색깔의 곰젤리를 쏟아부은 후 골고루 충분히 섞어줘야 합니다. 대충 섞어 무작위로 포장하면 원래의 생산 비율을 나타낼 수 없어요. 다가 너무 적은 표본은 통계 가치가 없으니 가급적 많은 표본을 확보해야 합니다.

 

만약 곰젤리를 한 봉지가 아 A, B, C, D, E 다섯 봉지를 전부 취합한다면 색깔 비율은 떻게 라질까요?


A+B+C+D+E (총 215개) 

빨강 : 8+7+6+6+6=33 (15%)

다홍 : 7+4+5+5+10=31 (14%)

주황 : 8+7+4+9+4=32 (15%)

노랑 : 8+6+11+10+6=41 (19%)

초록 : 4+12+13+4+8=41 (19%)

투명 : 8+8+4+9+9=38 (18%)

한 봉지만 개봉했을 때는 천차만별이던 색깔 비율이 다섯 봉지를 합산하니 어느 정도 고른 분포를 보이는군요. 검증이 충분해야 통계적 의미가 있습니다.  


분명 통계는 우리 삶을 이롭게 합니다. 지금의 상황을 분명하게 보여주고 미래를 예측하는 데 도움을 주거든요. 따로따로 떼어 무작위적이고 예측 불가능해 보이지만, 한데 모아서 분석하면 어떤 법칙이 나타나고 예측도 가능해져요. 이러한 통계의 특성을 이용해 우리는 현실의 많은 문제를 해결하곤 하죠.


그렇지만 의도된 왜곡은 매우 위험합니다. 각종 설문조사는 설계와 시행 과정에서 고의로든 실수로든 현실 조작이 능해. 정치인은 자신에게 유리특정 숫자를 취사선택하고, 무언가를 판매하는 사람들 역시 숫자로 착시현상을 일으킵니다. 학술분야도 연구 결과의 신뢰도를 높이기 위해 숫자를 교묘하게 이용하고요. 처럼 결과를 미리 정해놓고 입맛대로 숫자를 버무리는 통계는 속임수입니다.


숫자는 절대 거짓말하지 니다. 숫자를 이용해 거짓말하는 사람이 있을 죠. 통계 유용하지만 다분히 정치적이기도 합니다.







이전 07화 리그전과 토너먼트전,경기 수를 빠르게 계산하는 방법은?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari