brunch

You can make anything
by writing

C.S.Lewis

by Amang Kim Feb 18. 2019

38. 나의 데이터, 남의 데이터

데이터, 통계, 데이트사이언스 그리고,어떤 것

아는 분들은 아시겠지만, 요즘 본이 아니게 AI이니, 머신러닝이니, 바이오매트릭 등등을 하고 있다. 더구나 20년만에 코딩 아닌 코딩을 하고 말이다. 어쨋든 여러가지로 알바를 하다보니 간만에 글을 적는 것 같다. 오늘 글의 제목은 "나의 데이터, 남의 데이터"이긴 하지만, "나의 통계, 너의 통계" 라고 읽어도 크게 무리는 없으리라. 우선 시작하기전에 최근에 알바 중인 것중에 괜찮아(?) 보이는 그림을 투척하고 시작할까 한다.

요즘 알바중

본론을 시작하기 전에 다음 질문들에 대한 답변을 한번 고민 해 보길 바란다. 참고로, 여기서 언급한 수치는 내가 맘데로 지어 낸 것이니, 너무 숫자 자체에 대해서 민감하지 마시라.


1. 갑돌이는 미국과 한국 이중 국적자이다. 만약, 미국국민(재외 국민 포함)의 암발병 사망률이 0.1%이고, 한국 국민의 암발병 사망률이 0.5%라고 한다면, 프랑스에 살고 있는 갑돌이의 암발병 사망률은 얼마인가? 0.1%인가? 0.5%인가? 아니면, 프랑스 암발병 사망률일까?

2. 갑돌이와 철이가 한판승 가위 바위보 대결을 한다. 참고로 철이의 가위 바위 보의 승률은 80%이다. 그렇다면, 갑돌이가 가위바위보에서 철이를 이기거나 비길 확률은 20%인가? 66.666...%인가?

3. 영희는 유명한 시리얼 벤처 투자자이다. 이제 껏 5번투자하여 모두 성공하였다. 그리고, 베트남은 요즘 경기가 너무 과열이 되어 최근 20%만이 투자에 성공을 했다고 한다. 영희가 베트남에 투자를 하려고 한다. 이때 영희가 베트남에 투자하여 성공할 확률은 100%인가? 20%인가? 

4. 이를 본 갑돌이가 영희를 따라 처음으로 베트남에 투자 할려고 한다. 갑돌이 베트남에 투자하여 성공할 확률은 얼마인가? 20%인가? 50%인가? 아니면, 100%인가?

5. 아주 유명한 온라인 쇼핑몰에서 해킹에 대비한 자본을 확보 하고자 한다. 해킹이 일어날 가능성이 20%이고, 그때의 피해액 1억원이라고 했을때, 이 쇼핑몰 CEO가 확보해야 하는 자본은 얼마인가? 1억원인가? 2천만(1억*20%)원인가? 아니면, 0원인가?

6. "확률(혹은 가능성)을 높인다(혹은 낮춘다)"는 것이 의미가 있는가?  예를 들자면, "고장날 가능성을 줄인다"던지, "성공할 가능성을 높인다"던지, "(연애)애프터신청을 받을 가능성을 높인다"던지... 이런 것이 의미가 있을까?


이 후 글을 보기전에 시간을 가지고 질문에 대한 답을 생각해 보기 바란다. 예를 들어 놓았으니, 선택하는데 크게 어려움은 없을 것이다.

.

.

.

.

.

.

.

.

.

.

.



데이터 (분석값)에 대한 단상

우선, 첫번째 질문에 대한 여러분의 생각은 어떤가? 갑돌이를 한국인으로 봤을때의 암발병 사망률은 0.1%이고, 미국인으로 봤을땐 0.5%라고 볼 수도 있을 것이다. 하지만, 결정적으로 국민을 대상으로 한 데이터(혹은 통계)는 개인의 "사망"(사망률 아님)과는 크게 관련이 없다. 갑돌이의 유전적 요인이나, 건강상태가 암사망 보다 결정적인 영향을 미친다. 

거시적인 데이터는 미시적인 행동(혹은 결정)에 생각보다 관련이 없을 수 있다.


두번째 질문은 어떤가? 철이를 기준으로 봤을 때, 갑돌이가 이거나 비길 가능성(즉, 철이가 질 가능성)은 20% (100%-80%)이다. 하지만 가위바위보를 하는 갑돌이의 입장에서는 2/3가 된다(즉, 이기거나 비기는 것). 만약, 갑돌이의 승률이 90%라고 하면, 갑돌이가 이길 가능성은 90%가 되고, 갑돌이가 "철이와 대결"해서의 이기거나 진 비율이 40%라고 하면, 이번 판에서 갑돌이가 철이에게 이기거나 비길 가능성은 60%가 된다. 즉, 보기에 따라서 갑돌이가 철이에게 이기거나 비길 가능성은 20%가 될수도, 66.666...%(2/3)가 될 수도, 90%가 될 수도 40%가 될 수도 있다. 하지만, 여기서 알아야 할 것은 이 데이터 값들 중 일부는 나(즉, 갑돌이)의 데이터(분석값)이지만, 일부는 남의 데이터라는 점이다. 

남의 데이터는 나(갑돌이)에게는 전혀 쓸모가 없다. 


세번째 질문에 대한 여러분의 생각은 어떤가? 우선 베트남 시장을 기준으로 보면, 또 다른 투자자인 영희가 베트남에서 성공할 확률을 20%로 보는 것이 타당해 보인다. 하지만, 영희는 이제것 모든 투자를 성공(100%)했었다. 그랫기에 그 다음 투자인 베트남 투자도 성공할 가능성이 높아 보인다. 하지만, 그렇더라도 "100%는 너무하지 않냐?"라고 생각하는 당신 생각은..... 맞다! 영희입장에서의 베트남 성공 가능성은 대략 83% ~ 100%사이의 가능성을 가질 것이다. 어떻게 이런 수치가 나왔는지 궁금한 이는 예전에 필자가 적었던 글("22. 데이터/통계 분석 값에 대한 직관적 이해")을 참조 하기 바란다. 하지만, 새로운 투자(베트남)는 이전 투자와는 연관성이 없을 가능성이 많다. 이전 상황(이벤트)과 독립적이란 뜻이다. 이럴 경우는 매번 처음 하는 것과 같은 가능성 즉, 50%(성공하거나 실패하거나)의 확률을 가질 수도 있다. 위에도 잠시 언급 했듯이, 어떤 데이터 분석 값은 나(영희)의 데이터 이지만, 어떤 데이터 분석값은 남의 데이터이다. 

때로는 복잡한 분석(베트남시장 조사)으로 만들어진 데이터 분석값(20%)이 가장 간단한 논리로 만들어진 분석값(50%)보다 못 할 수 있다.


설령, 복잡한 분석이 타당하다고 하더라도 말이다. 그렇다면, 갑돌이는 어떤가? 갑돌이의 경우는 "영희를 따라한 경우"라고 하면, (83%~) 100%로 보는 것이, 최초 투자자의 관점에서 본다면, 50%로 보는 것이 타당하다. 둘다 나의 데이터이기에 의미가 있는 것이다.


5번문제에 대한 여러분의 생각은 어떠 한가? 사실 이 문제는 나의 데이터, 너의 데이터에 대한 문제가 아니라, 확률(혹은 가능성)의 본질에 대한 문제 이다. 사실, 이와 비슷한 그렇지만 반대되는 개념을 예전에 다룬 적이 있다. 혹시라도, 궁금하신 분들은 이전 글을 참고 하시고("16. 도박과 확률 사이"). CEO의 결정은 0원(투자 않함)일 수도 있고, 1억원(투자함)일 수 도 있다. 하지만, 확실한 것은 2천만원(평균값)은 아니라는 것이다! 평균값(mean)은 데이터과학(혹은 통계)을 하면서 가장 많이 사용하는, 가장 많이 알려진 데이터 분석값일 것이다. 통계나 수학을 모르더라도 누구나 한번즈음 "평균(average)"에 대한 이야기를 들어본적이 있을 것이다. 엄밀하게 말해,  Average(평균)와 Mean(평균값)은 다른 값이다 (어떻게 다른지는 나중에 기회가 되면 다루도록 하겠다). 어쨋든, 여기서 중요한 것은 때로는 

평균(값)이 현실에서는 이루어질수 없는 "상상의 값" 일 수가 있다는 것

이다. 바로 5번 문제처럼 말이다. CEO가 1억원 손해에 대한 평균(값)인 2천만원을 확보했다고 했을때, 이 액수는 사실상 의미가 없다. 해킹을 당하게 된다면, 8천만원이 모자르게 되고, 운이 좋아 해킹을 당하지 않았다면, 2천만을 낭비한 것이 된다. 어느 상황이 되던, 평균값(2천만원)은 아무런 의미가 없는 것이다. 그렇기에 차라리 0원(투자 않함)이 2천만원보다는 보다 더 현명한 투자가 되는 것이다. 즉, 0원이나 1억은 내 데이터 이지만, 2천만원 남의 데이터인 것이다.


6번 질문에 대한 여러분의 생각은 어떤가? 예제들이 타당한 것 같은가? 예를 들어준 것을 보면, 대체로 타당하다고 느낄 것이다. 그리고, 어떤식으로던지 이러한 가능성을 높이는(혹은 줄이는) 일을 하는 것이 맞을 것이다..라고 단정하기전에 다음 예화를 한번 보자.

      통계학자가 타고 있던 비행기가 운행 도중 사고의 위험에 직면하게 되자. 기장은 승객들에게 사고로 인한 부상이나 사망의 "가능성"을 줄일수 있는 (할 수 있는) 모든 조치를 취해달라고 승객들에게 이야기 한다. 어떤 승객은 기도를 하고, 어떤 승객은 아이를 보호하고..... 이 때 갑자기 나타난 통계학자..... 모든 승객들에게 다음과 같이 해줄 것을 당부한다... "모든 승객들은 양말은 뒤집어 신으시오..... 왜냐하면, 모든 승객이 뒤집힌 양말을 신은 채로 사고날 확률이 일반승객(양말을 제대로 신은)들에게 사고가 날 가능성 보다는 훨씬 적을 테니까요......"


여기서 추가 질문... 

1. 통계학자의 (통계적) 논리는 타당한가? 

2. 통계학자의 조치로 사고의 가능성을 줄일 수 있을까?

.

.

.

.

.


위의 두 문제에 대한 대답이 6번문제의 대답이 될 것이다. 우선, 위의 조치는 통계적인 논리로는 타당하다. 무슨 뜻이냐 하면, 확실히 뒤집한 양말을 신은 사람이 비행기 사고로 죽거나 다칠 가능성이 제대로 양말은 신은 사람이 비행기 사고로 죽거나 다칠 가능성보다는 현저히 낮다. 그렇기에 사고의 "가능성"은 확실히 줄어든다. 하지만, 여러분도 아시다 시피, 승객들이 양말을 바꿔 신는다고 해서 해당 비행기사고로 인한 부상/사고에 영향을 주는 것은 아무것도 없다. 그보다는 아이를 보호한다거나, 안전벨트를 한다거나 하는 안전조치들이 사고로 인한 부상/사망을 직접적으로 줄일 수 있는 요인인 것이다. 양말을 바꿔 신은 이가 사고나서 죽을(혹은 부상당할) 가능성은 남의 데이터인 것이다. 때로는 

"가능성"을 줄이는 것이 의미가 없을 때가 있다

는 것이다. 가능성을 줄이기(혹은 높이기)보다는 실제적인 사건(혹은 이벤트)를 줄이는 것이 훨씬 중요하다. 비행기 사고에서 양말을 뒤집어 신는 대신 안전조치를 취하는 것처럼 말이다.


나의 데이터 남의 데이터

문제를 진지하게 풀어보고, 위의 단상들을 본 독자들이라면, "나의 데이터, 남의 데이터"가 무엇을 의미하는 것인지 어렴풋이 감이 왔으리라. 그리고, 내가 하고 싶은 이야기 또한 여러분이 감(?) 잡은 것과 크게 다르지 않다. 요즘 데이트사이언스네, 비지니스 애널리틱스네, 빅데이터네 많은 데이터 분석기법과 도구들이 난무하는 세상이지만, 데이터 분석보다 중요한 것이 데이터 자체이고 데이터 자체보다 중요한 것이

데이터가 내 것인지 남의 것인지를 아는 것

이다. 데이터과학을 제대로 하기 위해서 수학이 중요하고, 과학이 중요하고, 철학이 중요한 이유도 데이터분석 자체 보다 근본적인 본질을 파악하기 위해서가 아닐까 싶다. 


오늘 글은 여기까지...코딩하러가야지...

아~ 코딩 시로.....

MATLAB 로고 (출처:인터넷 어딘가)

 




 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari