7. 치킨과 프로야구

빅데이터, 치킨, 야구 그리고, 수학

Apr 5. 2016

오늘 아침(4월5일) 어느 페북 친구분께서 공유해준 아주 재미있는(?) 기사를 보았다.

. 빅데이터로 본 '프로야구 5강'…한화·삼성·SK·두산·KIA (연합뉴스)

이 기사의 중에는 빅데이터 분석이 슈퍼볼과 닭날개의 관계 분석을 이용했노라 자랑스럽게 이야기 하고있다. 우선, 이 글의 재미 있는 이해를 위해서는 위의 기사를 꼭 참조 해보시길 바란다.

0. 들어가기전에

아마도 많은 분들이 머신 러닝(Machine Learning)이라든지, 데이터마이닝(Data Mining)과 같은 용어를 접해 봤을 것이다. 빅데이터가 유행하면서, 조금 유식(?)해 보일려면 머신러닝이나 데이터 마이닝과 같은 이야기를 해주면 있어 보인다. 이렇게 생각하는 이유는 비교적 간단하다. 빅데이터를 분석하기 위해서는 머신러닝이나 데이터 마이닝 기법을 많이 사용하기 때문이다. 그리고, 여기서 분석이라 함은 여러 데이터 엔티디 간의 상호 관계를 파악하는 것을 이야기 한다. 어쨋든, 이러한 상관관계를 분석해주는 수학적인 이론이 바로

Linear Algbra(선행대수학)과 Regression Analysis(회귀분석)

이다. 그렇기 때문에 최신의 데이터마니닝 기법을 사용하던, 머신러닝 혹은 그 할애비(?)를 사용하던, 데이터가 분석되는 기본동작은 위의 수학적 지식을 크게 벗어나지 않는다. 참고로, 이 두가지를 합친 것이 선형회귀분석(Linear Regression Analysis)이다. 여기서, 상관관계를 알고자 하는 변수가 세개이상 경우에 ANOVA (Analysis Of VAriance)를 사용한다. 그리고 확신하건데, 당신이 통계를 전공했거나, 데이터분석과 관련된 직업군에 속해 있다면, (선형)회귀분석에 대해서는 대학에서 한번즈음은 들어봤어야 한다. 그만큼 회귀분석은 데이터간의 상호관계를 분석하는데 유용할 뿐만 아니라, 많은 데이터를 사용(이게 빅데이터임)할 경우, 그 결과에 대한 신뢰도를 올릴 수 있는 아주 강력한 도구이긴 하다.

선형회귀분석은 x,y에 대한 상관관계를 일반화 시켜준다 (from Wikipedia)

물론, 이렇게 엔티티(변수)만 정해진다고 모든 게 해결되지는 않는다. 각 엔티티에 신뢰할만한 그리고 (분석을 하기에) 충분한 데이터를 수집해야 하는 과정이 있어야 한다. 하지만, 데이터의 엔티티가 많아지고, 신뢰성 확보를 위해 보다 많은 양의 데이터를 필요로 한다면, 데이터 수집하는 과정 자체가도 굉장한 숙련도와 난이도가 필요한 작업이다. 어쨋든, 데이터수집에 대한 내용은 여기서 다루지 않겠다. 오늘 여기서 다루고자 하는 것은 몇 가지 예를 통해 이러한 데이터분석 방법이 가지고 있는 태생적 한계에 대해서 이야기를 하고자 한다.

1. 자유낙하하는 공

기본적으로 회귀분석은 "선형성(Linearity)"을 기반으로 한다. 자유낙하하는 공의 시간(t)과 거리(S)와의 관계를 생각해보자.

자유낙하 실험 (출처: 인터넷 어딘가)

수직으로 쏘아 올린 공이 자유 낙하하는 공에 대해서 위에 언급한 두가지 변수를 올바른 실험을 통해서 얻었다고 가정하고, 이렇게 얻은 데이터로 선형 회귀 분석을 하면, 기울기는 0이가 된다(작가주: 항상 기울이가 0이 되는 것은 아니지만, 높은 확률로 회귀 분석의 기울기가 0이 된다). 참고로, 두 변수(Two value) 선형회귀 분석에서의 기울기는 ANOVA나 다른 데이터 기법에서의 p-value에 해당 한다. 어쨋든, 정말 (수직으로 쏘아 올린) 자유낙하에서 시간과 낙하거리는 관계가 없을까? 이에 대한 정답은 고등학교 수준의 물리지식을 가지고 있다면, 쉽게 답변 가능할 것이다. 아시다시피(?), 이러한 자유낙하 문제는 다음과 같은 이차 함수의 관계를 갖는다. 즉, 자유낙하하는 공의 떨어진 시간과 거리와의 관계는 아주 강력한 상관 관계를 가지고 있지만, 선형회귀 분석을 할 경우에는 상관관계가 없는 것으로 나타나는 대표적인 사례이다. 그리고, 고등학교 물리에서 자유낙하운동을 배운 사람이라면, 이 예제가 어이없어 보일수도 있을 것이다.

영화 "베테랑" (출처: 인터넷 어딘가)

물론, 데이터 분석기법도 선형 회귀분석뿐만 아니라 다양한 기법들이 존재 하며, 위의 경우는 고등학교 수준의 물리내용이라, 자유낙하에 대한 자료를 분석하면서 무턱대고 선형회귀분석을 적용하지는 않을지도 모르겠다. 그런데, 이 사실을 아는가?

동생아 너는 이 사실을 아니? (출처: 웃음을 찾는 사람들)

위의 예제는 강의에서 ANOVA실습을 할때, 가장 많이 등장하는 소재인 동시에 내가 강의를 하는 동안에 어느 누구도 위와 같은 이유로 데이터분석 자체에 대한 이슈를 제기한 적이 없다는 거다. 심지어는 데이터 구간에 따라서는 p-value조차 유의하다고 나오니, 기존 물리학 공식이 잘못 된것 아니냐고 우기기 까지 한다. 그나마 다행인 것은, 자유낙하에서 시간과 거리와의 관계는 수학적으로 이미 증명이 되어 있다는 점이고, 이러한 수학적 증명이 가능한건 바로 우리 앞에 있었던 천재들(뉴톤, 아인슈타인) 덕분이다.

모든 물리학도들의 우상 아인슈타인 할배

굳이 내가 증명을 하지 않아도, 앞에 있던 천재들 덕분에 기존 물리학 공식이 맞다고 설득(?)이 가능했다는 것에 감사할 뿐이다. 위에도 언급을 했었지만, 회귀분석 더 나아가, (특별한 언급이 없는)

데이터 분석은 "선형성(Linearity)"을 기반

으로 동작한다. 즉, 각 변수간의 정확한 관계를 모를 때는 1차함수(Y=aX+b)의 관계를 가지는 것으로 가정을 하고 분석을 하기 때문에, 각 변수간의 관계가 1차함수가 아닌, 다른 함수형태를 가지게 된다면 이러한 데이터 분석은 의미가 없게 된다. 데이터분석을 시도하는 가장 큰 이유는 각 데이터 변수들(혹은 엔티티)간의 관계를 알려고 하는 것이지만,

데이터 변수들 사이의 관계를 알지 못하면 정확한 데이터 분석을 할 수 없다

는 것이 바로 데이터 분석이 가지는 태생적 한계 중 하나이다.

2. [모기약 과 모기] 그리고 [치킨과 프로야구]

데이터분석만으로 가지고 현상을 분석하다보면, 어이없는 결론에 도달하는 경우가 생각 보다 많다는 거다. 위에 언급한 자유낙하 문제는 그나마 다른 형태로의 증명이 가능하지만, 세상 일어나는 현상은 그것보다는 헷갈리는 상황이 많다.

예를 들어, 당신은 모기의 개체수와 모기약 판매량에 대한 조사를 한다고 해보자. 그리고, 두 변수, 즉, 모기 개체수(X)와 모기약 판매량(Y),에 대한 데이터를 수집했다고 가정을 해보자. 당신은 어떠한 결과를 얻을 것인가? 아마도, 모기 개체수가 증가하면, (사람들이 모기를 잡으려고) 더 많은 모기약을 구매할 것으로 예상할 수 있을 것이다. 즉, "모기개체수가 증가(X)하면 모기약 판매는 증가(Y)"한다는 명제는 타당해 보인다(참(True)인 명제). 그렇다면, "모기약 판매가 증가(Y)하면, 모기 개체수가 증가(X)"한다는 명제는 어떤가? 말이 되는가? 물론, 일부는 위의 명제가 말이 된다고 생각할수도 있지만, 대부분은 첫번째 명제(X이면 Y이다)는 말이 되지만, 두번째 명제(Y이면 X이다)는 말이 안된다고 생각할 것이다. 참고로, 두번째 명제(Y이면 X이다)가 참(True)이라면, "모기약 판매를 감소시키면, 모기 개체수를 줄일 수 있다" 또한 참(True)인 명제가 된다. 이 명제가 왜 참(Ture)인지가 궁금한 분들은 다시 한번(?) 수학의 정석의 "집합과 명제"파트를 공부하시라.

수학정석 표지 (나 배울때랑은 다른듯...ㅎ)

모기 개체수는 자연 현상이고, 인간이 어떻게 할수 없다는 것을 초등학교 수준의 논리 지식을 가지고 쉽게 알수 있으며, 설령 모기 개체를 감소시키는 인위적인 방법(예, 웅덩이를 없앤다던가)이 있긴 하더라도, 단순히 모기약 판매를 줄인다고 모기 개체수가 줄어들 것으로 생각하는 황당한 경우는 없을 것이다. 초등학교 수준의 지식수준을 가졌다면 말이다.

초등학교 수준의 지식 수준을 가지고 있다면 말이지.... (출처: 개그콘서트)

하지만, 이 일반상식선에서는 말도 안되는 결론이 데이터분석에서는 충분히 나올 수 있다는 것이다. 왜 위의 예제가 너무 시시한가? 데이터분석을 할 정도의 지식 수준이면, 모기약 판매를 줄인다고 모기 개체수가 줄어들지 않는다는 것즈음은 충분히 알 수 있다고 보는가?

처음에 언급했던 기사는 프로야구 구단의 전력와 치킨판매량의 관계를 다루었다고 할 수있다. 즉,

프로야구구단의 전력이 높으면(X), 해당 구장 치킨 판매량이 증가(Y)

라는 명제로 표현이 가능하고, 위의 명제는 여러가지 정황상 타당한 명제(즉, 참인 명제)로 보인다. 구단의 전력이 높으면, 보다 재미있는 경기를 할 가능성이 높고, 그렇게 되면 관중이 많아지고, 증가하는 관중수와 비례해서 치킨판매량이 늘어난다는 추측이 가능하다. 그렇다면, "치킨 판매량이 증가하면, 해당 구단 전략이 높을까?" 어쨋든, 기사에서는 치킨판매량이 증가(Y)하면 구단 전략이 높은(X)것으로 그리고 이 두 변수(치킨 vs. 전력)는 약한 상관관계가 있는 것으로 결론을 맺었다. 그런데, 정말 그런가? 이에 대한 진실은 독자 여러분(?)들께 맡기겠다.

판단은 시청자 여러분의 몫입니다... (출처: 웃음을 찾는 사람들)

그렇다면, 왜 이러한 황당한 결론들이 나오게 된 것일까? 여러가지 이유가 있겠지만, 그 중 가장 큰이유는 데이터분석을 통해서 나오는 결과는 변수들 사이에 상관관계(Correlation) 알려줄 뿐이지, 인과관계를 알려주진 않기 때문이다. 즉,

데이터만으로는 변수들 사이의 인과관계(Causality)를 분석 할 수 없다.

데이터분석이 이러한 한계를 갖게 되는데는 이전에 언급한 선형성과도 관계가 있다. 변수들의 관계에서 선형성이 보장 될 경우에는 그에 대한 역함수가 항상 존재하기 때문에 Y=f(x)의 관계가 성립하면, X=g(y)를 만족하는 함수 g(x) (즉, 역함수)가 항상 존재 하게 되고, 회귀분석을 포함한 일반적인 데이터 분석은 이러한 가정을 바탕으로 동작하기 때문이다. 하지만, 실제 자연현상이나 사회현상은 이러한 선형성을 가지지 않는 경우가 훨씬 많다. 모기약과 모기수의 관계나, 치킨과 구단전력과의 관계에서 처럼 말이다.

결국은 올바른 데이터 분석을 하기 위해서 가장 필요한 것은 데이터 변수(엔티티)사이의 관계를 데이터분석을 하지 않고 알수 있어야 한다. 그리고, 이러한 인사이트는 데이터분석능력이나 데이터가 아닌 다른 곳에서 나온다. 특히, 데이터(변수)간의 인과관계를 제대로 파악하기 위해서는 기본적으로 수학, 물리학에 대한 지속적인 훈련이 있어야 한다. 왜냐하면, 어떤 현상에 대한 인과관계를 분석하는데 있어서, 인간의 말빨(?)이 아닌,

수학적 언어로 묘사(물리)하고, 풀어가는(수학) 훈련

을 할수 있는 가장 좋은 과목들이기 때문이다. 치킨과 구단전력과의 관계를 분석한 다음의 이사가 물리와 수학공부를 조금만 열심히 했었더라면, 빅데이터라는 이름으로 기사에서와 같은 망발은 하지 않았을 테고, 1년에 3만5천대수준 생산능력(2014년 기준, 기사2 참조)을 갖춘 테슬라가 판매하는 차량에 30만대에 육박하는 사전주문 열풍 속에서 섣불리 주문을 넣기는 어렵지 않을까?

테슬라 모델3 (출처 : www.theophiluschin.com)

. 테슬라 관련 기사 2: The Local and Global Impact of Tesla’s Giga Factory

keyword

매거진의 이전글6. 호칭을 없애면 조직문화가 바뀔까?8. 자아성찰에 관한 이야기매거진의 다음글