brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 06. 2022

18 개인과 사업의 운을 부르는 '데이터 복리의 마법'

오징어 게임 다섯 번째 게임 유리 징검다리 생존율 확률과 통계

# 01. 복리의 마법으로 행운을 크게 할 수 있다면


정말 행운이야


사람들은 "휴, 운이 좋았어" 또는 "이번에는 운이 없었어"라고 말합니다. 운이라는 것은 무엇일까요?

운수 또는 간단히 운은 의지나 노력과는 상관없이 어쩔 수 없이 생기는 일을 말합니다. 좋지 않은 운수는 '불운', 좋은 운수는 '행운'이라고 하죠.


동전을 던져서 앞면이 나오면 운이 좋고(행운), 뒷면이 나오면 운이 없다(불운)라고 해보겠습니다. 그럼 생각할 것도 없이 확률은 절반인 2분의 1, 행운은 50%입니다.


이번엔 주사위로 생각해봅니다. 나올 수 있는 숫자는 1,2,3,4,5,6 이니까 어떤 숫자가 나올 확률은 6분의 1이 되겠네요. 좀 더 응용해서 주사위를 한번 던져서 나온 수 곱하기 x 만원(10,000)을 받는 게임이 있다고 가정해볼게요. 이 게임을 한번 하는데 3만 원입니다. 여러분은 이 게임을 하시겠습니까?


기댓값 계산 전 주사위 게임 (출처 : 저자)


참가하신다는 분도 안 하신다는 분도 좋습니다. 저마다의 선택의 방식이 있으실 테니까요.

저는 철저히 이성적, 계산적인 관점에서 말씀드려보겠습니다.


주사위를 한번 던졌을 때 얻을 수 있는 돈(기대)은 얼마인가요? 6이 나오면 6만 원이고, 1이 나오면 1만 원이겠죠? 그러면 각각의 각각의 숫자가 나올 확률은 6분의 1이니까, 아래와 같이 계산할 수 있겠네요


(1 x 1/6) + (2 x 1/6) + (3 x 1/6) + (4x 1/6) +(5 x 1/6) + (6 x 1/6) = 3.5


즉 3만 5천 원을 기대할 수 있을 겁니다. 이렇게 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률의 곱을 다 더한 값을 "기댓값"이라고 합니다. 3만을 내고 3만 5천 원의 기댓값을 얻을 수 있네요. 즉 한번 할 때마다 5천 원이 더 크기 때문에 게임을 많은 횟수 계속 반복한다면 여러분은 돈을 딸 수밖에 없습니다.

자, 다시 여쭤보겠습니다. 여러분은 이 게임을 하시겠습니까?


기댓값 계산 후 주사위 게임 (출처 : 저자)


내가 주사위를 던져서 운 좋게 돈을 땄어! 정말 행운이야!!
우리는 방금 그 행운을 계산해냈습니다. 간단한 예를 들어 설명드렸지만 실제 일상과 업무에서도 비슷한 사례들이 많이 있습니다. 우리는 개인적인 결정을 하거나 비즈니스에 중요한 결정을 내릴 때 이 "운"을 계산합니다.

 "세상일은 너무 복잡해서 그렇게 확률로 딱 안 떨어져!"...①
VS.
 "내가 생각할 수 있는 경우의 수는 다 계산해보겠어"...②


맞습니다. 세상일은 복잡해요. 그렇다면 이 복잡한 일을 선 둘로 나눠 생각해보면 어떨까요? 통제할 수 있는 요인통제할 수 없는 요인으로 나눠 계산하죠. 통제할 수 있는 요인과 통제할 수 없는 요인이 각각 절반이라고 하겠습니다. 통제하고 계산할 수 있는 절반에 대해서 데이터를 수집하고 분석하고 예측해서 의사결정을 한다고 가정해보겠습니다.

첫 번째 판, 두 번째 판에서는 차이가 없을지도 모릅니다. 그런데 100판, 1000판,,, 1,000,000판 이 된다면 어떨까요? 단 1%의 확률 차이가 난다고 하더라고 반복되면 계속 그 확률이 커질 겁니다. 바로 확률 계산에서 의 "복리의 마법"입니다.


이처럼 확률은 매우 중요합니다. 우리는 성공할 확률은 높이고, 실패할 확률은 줄이는 결정을 하고 싶어 합니다. 그리고 이것은 두 가지로 결정이 됩니다. 한 가지는 "그 방면에 대한 지식이 있는가?"이고, 다른 하나는 "성공확률을 높일 수 있는 데이터 분석이 가능한가?"입니다.



# 02. 오징어 게임 다섯 번째 게임 유리 징검다리를 건너라

잠시 후 다섯 번째 게임이 시작됩니다.


앞에 보이는 한쌍의 유리는 두 가지 유리, 강화유리와 일반 유리로 되어 있습니다.
강화유리는 두 사람의 무게도 버틸 수 있을 만큼 튼튼하지만 일반 유리는 한 사람만 올라가도 깨져버립니다. 참가자들은 앞에 놓인 한 쌍의 유리 중에 하나를 밟고 열여덟 쌍의 다리를 지나면 통과입니다.

넷플릭스 오리지널 "오징어 게임 7화 中"


다음은 다섯 번째 오징어 게임에서 몇 번째로 참가하는가? 에 따라 달라지는 생존확률 그래프입니다. 사람이 직접 할 수 없으니까 인공지능에게 무한반복 계산을 시켜보니 아래와 같은 생존확률 그래프를 얻었습니다.


그 결과, 12번째 선수의 생존율이 88% 확률로 상당히 높게 예측이 되었습니다. 확률을 예측할 수 있다면 결정은 달라질 수 있습니다. 이제 여러분은 몇 번째 선수가 되시겠습니까?

데이터 분석으로 계산한 참가자 번호별(게임 순서) 생존확률(출처 : 저자)


문제의 정의를 조금 바꿔보겠습니다. 떨어져도 죽지는 않는 예능쇼입니다. 그리고 가장 처음으로 유리 징검다리를 건너는 사람에게 상금 456억 원을 다 지급한다고 가정해보겠습니다. 이 문제는 목적이 "생존"이 아니라 "상금" 이 됩니다. 참가자 번호에 따라 첫 번째 생존자가 될 확률을 계산해 보겠습니다.

보시는 바와 같이 10번 참가자가 첫 번째 생존자가 될 확률이 18.5%로 가장 높습니다. 목적에 따라 우리가 원하는 확률 계산은 얼마든지 달라질 수 있습니다. 앞서 계산한 10번 참가자의 생존확률 59%만 머릿속에 되뇌고 있다면, 상금은 멀어질 것입니다. 문제의 "목적"에 대해 얼마나 잘 이해하고 있느냐에 따라 성공과 실패를 가르는 "행동"에 대한 확신이 생길 것입니다.


다섯 번째 오징어 게임에서는 먼저 순서를 고르고 게임에 참가하지만, 우리의 삶은 수많은 게임들이 동시에 일어나며 순서를 정하고 있습니다. 사람들은 대부분 본인들이 어떤 게임에 참가하고 있는지 조치 인식하지 못하는 경우가 많습니다. 하지만 최소한 '본인이 주로 하는 분야'에 대해서 '잘하고 싶다'라고 생각할 것입니다.


# 03. 통계가 거짓말이라고요?

세 가지 거짓말이 있다. There are three kinds of lies.
그것은 거짓말, 새빨간 거짓말, 그리고 통계다. lies, damned lies, and statistics.

벤저민 디즈레일리(Benjamin Disraeli, 영국 42대 총리)


아침에 해가 뜨고, 계절이 바뀌는 자연현상과 물체가 아래로 떨어지는 물리법칙은 과학으로 설명될 수 있습니다. '지구가 태양의 주변을 돈다'는 대우주 원리에 의해 아침 해가 뜨는 것을 자연스럽게 받아들입니다. 하지만 우리 주변에서 일어나는 현상들은 그렇지 않죠. 예를 들면, 갑자기 사람들이 코로나에 걸리고 마스크를 쓴다던지, 갑자기 너도나도 집을 산다던지 하는 사회적인 현상은 하나의 원리나 법칙으로 설명하기 어렵습니다.


이렇듯 우리 주변의 다양한 현상에 대해 조사, 관찰, 실험하여 데이터를 얻어내고, 이것을 정리 분석하는 것을 '통계'라고 합니다. 통계는 조사하는 것인데, 지구 상의 모든 사람들(집단)을 다 조사하는 것이 현실적으로 불가능하거나 비용이 비쌉니다. 그래서 일부 데이터를 표본으로 뽑아서 전체를 대표해요.


거짓말 = 틀릴 확률


그리고 문제의  '거짓말'은 바로 여기서 등장합니다. 거짓말을 좀 더 정확하게 표현하면 "틀릴 확률"입니다.

국가대표 선수를 뽑을 때 어떻게


"틀릴 확률"

우리는 학교에서 "확률과 통계"(현 수능 수학 선택과목)을 배웠어요. 그런데 왜 확률과 통계를 함께 배우는 것일까요? 통계는 우리가 알지 못하는 어떤 수를 예측하는 방법입니다. 그 예측은 정확할 수가 없죠. 그래서 계산과정이 수학적으로 아무리 정확해도 그 결과까지 정답이라고 말할 수는 없습니다. 하지만 그 예측한 값이 정답일 확률을 같이 표현한다면 어떨까요? 그 예측한 결괏값을 얼마나 신뢰할지는 그 확률을 보면 알 수 있겠죠?


우리가 조사하고자 하는 전체 집합을 직접 조사할 수는 없습니다. 그래서 샘플을 채취하고 이 샘플을 통해 원래 전체 집합을 예측(추정)하는 것이지요. 샘플을 조사하는 이유는 시간과 비용을 고려했을 때 전체 집단을 조사하는 것은 불가능하거나 이른바 가성비가 떨어집니다.

예를 들어 학교에서 학생들의 진로를 조사할 때 한 반의 학생들을 조사하면 30명의 전수조사가 가능합니다. 하지만 학교 전체로 보면 300명의 학생들의 꿈을 조사한다면 얼마나 걸릴까요? 체험학습 간 친구, 아파서 결석한 친구 등등을 고려하면 10일이 걸릴지 모릅니다. 그럼 전국 고등학생을 조사한다면, 전국 초중고 학생을 조사한다면 더 많은 시간이 걸릴게 분명합니다.

오늘의 결론입니다. 주사위도, 오징어 게임도, 우리 주변의 문제들도 저마다 확률이 있습니다. 사회현상에 대해서는 정답이 없기 때문에 우리는 정답에 근접한 값을 예상하고 거기에 틀릴 확률을 같이 제공합니다. 또 수많은 경우를 다 조사할 수 없기 때문에 일부  샘플로부터 전체를 예측하면 오차가 발생할 수밖에 없습니다.


그럼 이렇게 조사한 데이터는 정확하지 않기 때문에 필요가 없을까요? 우리가 조사한 자료가 오차가 있음을 인정하고 그 정확도를 확률로 표시한다면, (예측+확률) 그 데이터는 특별한 의미를 갖게 됩니다. 이것을 우리는 통계적 추론이라고 합니다. 거듭 말씀드리지만, 중요한 것은 멋진 통계용어가 아니라 원리와 활용입니다.

제 글과 강의로 여러분 삶이, 비즈니스가 단 0.1% 라도 성공의 확률을 높여갔으면 하는 바람입니다.  감사합니다.


매거진의 이전글 17 데이터 오류의 늪
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari