brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Mar 11. 2020

주사위는 던져졌다 #1

대상을 명확히 하고 확률을 높여라

대부분 분야에서는 데이터 분석 시 표본조사를 수행한다. 따라서 전체에서 선택된 표본은 매우 중요하다. 당연히 표본은 전체를 대변하고 시간과 비용을 최소화하며 목적과 분석 방법이 고려돼야 한다. 표본을 선정하는 데 표본 추출 방법과 크기도 중요하지만, 분석하고자 하는 대상을 명확히 설정하는 게 가장 중요하다.

일상생활에서 예를 들어보자. 어느 날 쇼핑을 하러 가서 무척 맘에드는 가방을 발견했다. 이 물건을 구매할 금전적 여유가 있는지를 판단하려 한다. 이때 최근 1주일간의 소비 규모는 매우 효과적인 분석 대상이지만, 유사 제품의 가격 비교는 금전적 여유를 판단하는 데 전혀 도움이 되지 않는다.


우리의 일상은 불확실한 상황을 유연하게 대처하도록 판단하는 사고(데이터 분석)의 연속이다. 비 올 확률이 몇 %면 우산을 가지고 나가겠는가?

선택된 자료(표본)로부터 전체(모집단)의 특성을 추출할 때 해당 표본이 전체를 얼마나 잘 대표하는지를 판단하는 데 확률은 매우 중요한 작용을 한다. 이러한 확률은 절대적 또는 상대적인 개념으로 접근할 수 있다. 

절대적 개념의 확률은 어떤 것이 있을까? 쉬운 예로 ‘러시안 룰렛’이 있다. 권총에 총알을 한 개만 넣고 총알의 위치를 알 수 없게 탄창을 돌린 후 참가자들이 머리에 총을 겨누고 방아쇠를 당기는 아주 무시무시한 게임이다. 총알 6개가 들어가는 총에 총알 한 발만 장전하면 이 게임에서 누군가 죽을 확률은 1/6이다. 여기에 이론의 여지는 없다. 이러한 절대적 확률은 직관적으로 알 수 있고 예측 또한 가능하다(사전적 확률).

그렇다면 상대적 확률은 어떨까? 동전을 던져 앞면이 나올 확률은? 주사위를 던져 1이 나올 확률은? 전자는 /2, 후자는 1/6이다. 그런데 정말 동전을 두 번 던지면 앞면이 반드시 한 번은 나올까? 주사위 역시 6번 던지면 반드시 한 번은 1이 나올까? 결론은 그럴 수도 있고 아닐 수도 있다. 이러한 결과는 직관적이기 보다는 경험 또는 실험 및 관측의 결과로 확률이 계산된다(장기적 상대 도수 확률). 그러면 동전을 몇 번을 던지면 1/2, 즉 50%의 확률이 될까? 100번? 1,000번? 10,000번? 확실한 것은 던지는(실험) 횟수를 늘려 반복하면 우리가 기대하는 50% 확률을 수렴해간다는 점이다.

동전 던지기의 실험을 10,000번을 수행하고자 할 때 1,000번 만에 앞면이 504번 나왔다면 그 확률은 50%를 충족하게 된다. 그러면 10,000번을 실험하지 않아도 앞서 수행된 1,000번의 실험을 통해 이미 상대적 확률

50%를 확인한 셈이 된다. 여기서 실제 실험 횟수인 1,000번은 10,000번을 대표하는 표본이 되며, 1,000번의 실험으로 그 결과를 정확히 도출한 게 된다. 따라서 표본이 전체를 대표하는 실험과 관찰은 확률에 의존적이며 영향을 많이 받는다.

주사위도 마찬가지다. 주사위 확률 16.6%와 동전의 확률 50%는 실험 횟수가 많아질수록 그 확률이 상대적으로 명확해지는데, 이를 다른 말로 ‘주사위를 던져 1이 나올 확률은 평균적으로 16.6%이고, 동전을 던져 앞면이 나올 확률은 평균적으로 50%다.’라고 표현할 수 있다. 곰곰이 생각해 보자. 어떤 확률을 구하기 위해 실험과 관찰 횟수가 많아지면 얻고자 하는 확률을 수렴할 것이다. 이러한 확률을 평균이라 부른다. 확률에 따른 평균은 한두 번의 관찰만으로 얻기 어렵다. 관찰 범위가 많아질수록 주사위나 동전의 확률처럼 높아질 것이다.


http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1



매거진의 이전글 세상의 중심에서데이터를 외치다 #2
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari