재미있는 논문 이야기 (21)

데이터 분석

by tstory

Oct 31. 2017

데이터 분석 실전(4탄)

기초통계분석을 통해 내가 구축한 데이터셋이 어떤 놈(?)인지를 파악했다면, 이제는 논문 통과를 위한 최종 관문의 하나인 모델링을 시작해보자.

모델링(Modeling)이란 무엇일까?

Tip 20-1. 모델링은 결과를 일으키는 원인을 분석하는 것이다

간단히 설명하자면, “A가 B에 영향을 미치는 것이 사실일까?”라는 궁금증에 대해 통계적으로 판단을 하는 것이다. 바꿔 말해, “A가 B에게 영향을 미칠 확률은 얼마나 될까?”를 설명하는 작업이다.

예를 들어, “술을 즐겨 마시면 간이 나빠질 것이다”라는 궁금증을 풀어보기 위해, 술을 즐겨 마시는 사람과 잘 마시지 않은 사람들의 집단을 구분해 10년의 기간을 두고 추적 실험을 한다고 쳐보자. 여기서 술은 설명변수이고 간의 건강은 종속변수가 된다. 물론, 술 말고도 담배, 식습관 등 많은 다른 설명변수가 존재한다.

술이 간의 건강에 영향을 미치는 정도를 판단할 때는, 담배, 식습관 등 다른 조건들은 불변한다는 가정에서 설명이 가능하다(ceteris paribus → all other things being held constant). 쉽게 얘기해서, 담배를 피거나 특별한 식습관이 있거나 하지 않는다는 가정(assumption) 하에 술만 마실 때 간의 건강이 어떻게 변화되는지를 판단해보는 것이다.

결과를 통계적으로 설명해보면, “내가 95% 정도 확신할 수 있는데, 술은 사람들의 간을 나쁘게 만든다고 볼 수 있어”. “그렇지만, 100%는 아니고, 어떤 사람들은 간이 워낙 튼튼해서, 아니면 알코올이 몸에 잘 받아서 간이 나빠지지 않기도 해.” “이러한 확률은 5% 수준에 불과하기 때문에, 결국 술은 사람의 간을 망친다고 얘기할 수 있어, 세상에 100%는 없으니까.”

가장 기본적인 통계모형은 회귀분석(regression analysis)이라고 할 수 있다. “A가 B에 영향을 미친다는 것을 판단해주는 것, 그리고 그러한 확률이 얼마나 되는가?”를 보여주는 것이 모델링의 기본이기 때문이다.

Tip 20-2. Hedonic모형은 재화의 가격을 특성들의 양에 대해 회귀(regression)하여 특성들의 가격을 통계학적으로 추정하는 모형이다.

이러한 회귀모형에서 결과치로 나온 ‘B’ 값이 설명변수가 종속변수에 미치는 영향력의 정도를 설명하기도 한다. “(이질적인) 재화의 가치는 해당 제화에 내포되어 있는 특성에 의해 결정된다”는 ‘Hedonic Price Model’이 이에 해당된다. 예를 들어, ‘B’ 값이 0.1로 나타난다면, 쓰레기매립장과 같이 커뮤니티 주민들이 싫어하는 시설에서 거리가 1㎞ 멀어질 때마다 아파트 가격은 평당 100만원이 오른다(가격을 1천만원 단위로 변수로 사용할 경우)는 등으로 설명이 가능하다. 커뮤니티 내 님비(NIMBY: Not in My Backyard) 시설의 영향력을 측정하는데 매우 유용한 방법이다.

Tip 20-3. 정규분포, 선형성을 만들기 위해 log 등을 취해 모델식의 변형을 꾀해보자.

일반적으로 회귀모형은 정규분포를 따르고 선형성의 가정이 따라오게 마련인데, log, 1/y, sqrt(y), Box-Cox 등의 변환을 통해 정규분포 형태로 바뀌길 시도하기도 한다. 물론, log를 씌운다고 해서 정규분포로 바뀔 확률은 30%에 불과하다고 한다.

Tip 20-4. log-log모형은 민감도(sensitivity)를 나타내는 것을 기억해라.

초보자에게 좀 쉽게 얘기해보면, 일단 종속변수든 설명변수 든 간에 log를 씌워보고 회귀분석을 돌려보자. 그래서 결과가 잘 나온다면 정규분포를 띄게 될 확률이 높아진다고 생각하자. 여기서 종속변수와 설명변수 모두에 log-log를 취하게 되면, 설명변수 값 1 단위 변화에 따라 종속변수 값이 얼마 정도 변하는지를 판단하는 민감도 분석(sensitivity analysis)이 된다는 것을 기억해 놓으면 의외로 써먹을 곳이 많다.

Tip 20-5. 종속변수가 범주형 데이터(0, 1, 2...) 일 경우, 로지스틱 또는 로짓모형을 사용한다.

사실 앞의 설명과 연결되는 것이지만, 일반적인 회귀모형에서 종속변수가 binary choice(0 또는 1) 또는 multiple choice(2개 이상의 선택)의 형태를 띠게 되면, logistic 또는 로짓(logit) 모형 등으로 불리기도 한다.

예를 들어, “만일, 자가주택과 전세주택이라는 선택(choice)이 있다면 1~2인 가구는 3~4인 가구에 비해 전세주택을 선택할 확률이 높다”는 결과가 나올 수도 있을 것이다. binary choice model의 일종인 생존 모형(survival model)에서는 종속변수를 ‘success=survive’ 또는 ‘fail=die’로 설정하기도 한다.

종속변수의 개수가 2개가 아니라 여러 개일 경우에도 유사한 모형 구축이 가능하다. 예를 들어, 나이가 어릴수록 자전거, 버스, 자가용 중 어떤 것을 타게 될 것인가 하는 문제, 소득이 높은 사람의 교통수단 선택 문제 등의 예측도 가능하다.

Tip 20-6. 시계열 모형은 시간을 고려한다는 점이 회귀모형과 다른 점일 뿐이다.

시간을 고려한다는 점에서 회귀분석과 다르게 설명될 수 있는 시계열 분석(Time Series Analysis)은 규칙성을 가지는 패턴과 불규칙한 패턴의 결합이며, 이전과 이후의 결과 사이에서 발생하는 자기상관(Autocorrelativeness)과 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래하는 이동평균(Moving Average) 현상으로 구분된다. 시계열 모형을 돌리기 위해서는 White Noise 등 몇 가지 사항들에 대해서 이해하고 통계책을 보면서 데이터셋을 정리하고, 통계 패키지를 돌리면 되는 문제라고 우선 쉽게 얘기해본다.

Tip 20-7. 요인분석, 군집분석, t-test, ANOVA 등은 기본적으로 그룹 간의 차이를 분석하는 데 사용한다.

회귀모형과 더불어 모델링에 있어 가장 기본적인 분석은 요인분석, 군집분석과 같이 내가 구분지은 그룹은 다른 그룹과 어떤 면에서 다르다는 것을 보여주는 것이다. 이런 분석의 경우에는, “내가 선택한 그룹이 다른 그룹과 ‘다르다’, ‘같다’, ‘어떻게 다르다’” 등이 중요한 분석의 초점이다. t-test, ANOVA(분산분석) 등도 ‘다르다’, ‘같다’를 분석해주는 모형의 일종이다.

예를 들어, “경기도에서 서울과 가까운 과천, 분당, 일산 등은 서울로 출퇴근하는 사람들이 많이 살고, 공원들이 잘 갖춰져 있으며, 아파트 가격이 다른 지역에 비해 높다는 점에서 경기도의 다른 지역들과 다른 그룹으로 분류될 수 있다”라고 요인분석을 통해 구분해볼 수 있다.

Tip 20-8. 시뮬레이션 모형, Chaos모형, 복잡계 모형 등은 일단 흥미를 가지고 접근해봐라.

그 외, 단순한 분석방법으로는 분석하고자 하는 현상의 해답을 찾기 어려운 경우, 시뮬레이션 모형을 쓰기도 하는데, 이 정도 알면 통계에 어느 정도 익숙한 사람들이기 때문에 여기서 따로 설명은 하지 않는다. 맨해튼 계획의 시뮬레이션이나 수소폭탄의 개발에서 핵심적인 역할을 했던 몬테카를로 방법(Monte Carlo Simulation)이 잘 알려져 있다. 기본적인 것은 각각의 단위 변수의 패턴을 알아내서 의사결정을 위해 그 단위 변수 조합의 패턴을 추정하는 것이다.

더 나아가면, 초기 조건의 작은 차이가 결과적으로 큰 결과를 나타낼 수 있다는 나비효과(butterfly effect)로 상징되는 혼돈이론(Chaos Theory)과 그보다 조금 더 구체화된 형태의 복잡계(complex systems) 이론 등 수많은 형태의 모형이 존재한다.

Tip 20-9. 수학적 모델은 수학적 개념과 언어를 활용하여 시스템을 서술하는 것이다.

통계적인 모형 외에 현상을 분석하는데 많이 쓰이는 모델 유형 중 하나는 수학적 모형(Mathematical Model)이다. 이러한 수리모델은 자연과학, 공학, 사회과학(경제학, 사회학, 정치학 등) 다양한 분야에서 사용되고 있으며, 특히, 경제학자들이 많이 사용을 한다.

CGE 모형(Computable Equilibrium Model: 일반균형 모형)과 같은 거시경제모델이 대표적인데, 경제주체, 정책·제도, 시간, 효용 극대화 등 경제구조를 이루는 다양한 요소들의 상관관계를 활용하여 경제예측을 하는 데 사용한다. 크게는 정태적(static) 분석과 동태적(dynamic) 분석으로 나눠지며, 일반적으로 많이 쓰이는 모형으로는 경제기반 모형(Economic Base Theory), 투입산출모형(Input-Output Model) 등이 있다.

이러한 모형은 언뜻 복잡해 보이지만, 실제로는 부분 부분을 뜯어서 살펴보면 전체 구조가 그리 어렵지 않게 나타난다. 전체 구조에서 일부가 변화되면, 전체가 어떻게 바뀌는가를 보는 경우가 많기 때문이다.

예를 들어, IT산업과 같이 부가가치가 높은 산업의 경우, 기존의 굴뚝산업에 비해 승수효과(multiplier effect)가 크기 때문에 파급효과가 더 커질 수 있다는 것을 경험상 알 수 있다. 따라서 해당 모형을 사용할 경우에는 조그만 부분부터 이해하려고 노력해보자.

Tip 20-10. 네트워크(network) 모형은 공간상에서 경로를 최적화하는 모형이다.

공간상에서 최단거리를 분석하는 네트워크 모형의 경우, 시작점(origin)과 끝점(destination)의 개수와 각각의 점이 가지는 특성에 따라 도달하는 경로를 어떤 방식으로 최적화(optimization)시키는가를 다루게 된다.

일반적으로는, 여러 개의 경로 중 반복된 계산에서 가장 짧은 루트를 찾아서 가면, 결국 최단거리가 나오는 것이 최단경로를 찾는 방법이 된다.

그러나 시작점과 중간점, 종점의 조건에 따라 최적경로는 다르게 된다. 예를 들어, 수송비, 임대료, 서비스 비용, 공급지 및 원료 생산지 등의 상대적 위치 관계에 따라 네트워크가 만들어지는 경로가 달라지며, 대부분의 주체는 이익을 극대화하고, 비용을 최소화하는 경로를 선택하려고 노력하게 된다.

대표적인 예가 Hub & Spoke이론인데, 예를 들어, 미국의 도시들 중 어느 도시가 경제적 측면에서 일단 들르게 되는 Hub 공항인지, 이러한 Hub 공항을 통해 어느 도시들이 spoke가 되는지를 판단하게 된다.

Tip 20-11. 최적화 모형은 다양한 분야에서 널리 쓰이므로 관심을 가져보자.

최적화 모형은 수학적 모델의 일종으로서, 앞의 거시경제 모형과 네트워크 모형에서도 일반적으로 쓰이지만, 그 외에도 정말 다양한 분야에서 활용될 수 있다.

우선, 환경오염을 측정하는 문제에 있어서도 바람의 세기 및 방향, 기온, 오염물의 배출 시기 등에 따라 오염물이 어느 방향으로 어느 정도 거리까지 퍼져나가는지를 분석하는 데에도 최적화 모형이 쓰이기도 한다. 배출권거래제에 따라 오염물을 배출할 수 있는 권리까지 거래되고, 오염물의 확산에 따라 누가 비용을 지불해야 되는가를 결정해야 하기 때문에, 공장에서 생산을 위해 오염물을 배출시키는 것도 전략의 문제이기 때문이다.

가장 고전적인 경제학 이론에서도 지대지 이론(bid rent theory)에서부터 시작해 효용(utility)에 입각한 다양한 경우에 이익 극대화와 비용 최소화라는 목적의 달성을 위해 최적화 모형이 사용되어왔다.

사실 우리가 사는 모든 문제가 최적화의 문제이기 때문에 해당 모형들에 관심을 가져보면 아주 재미있게 공부할 수도 있을 것이라 생각된다.

모델링을 하는 데 있어 가장 중요한 것은 모형을 이해하고 선택하는 능력을 키우는 것이다.

위에서 보는 바와 같이, 다양한 모형들이 존재하는데, 여러분들이 통계식이나 수학식을 만드는 학문이 아니라고 한다면, 여러분들이 해야 할 것은 오로지 모형을 이해하고 선택하는 문제이다. 어떤 경우에 어떠한 모형을 쓸 것인가를 알아내는 연습이 당신의 통계모형 사용능력을 배가시키게 될 것이다.

필자는 미국의 한 도시에서 일정기간 동안 일어나는 주택의 반복적인 매매를 기록한 데이터셋을 가지고, 사람들이 주어진 기간 내에 주택을 팔고 다른 지역으로 갈 가능성(확률)을 알아내고 싶어 어떤 모형을 쓸 것인가 고민을 했었다. 그때, 의학계와 생물학계에서 널리 사용되고 있었던 ‘생존모형(survival model)’이 필자의 시야에 들어왔다. 예를 들어, 암에 걸려 병원에 와서 5년을 생존할 확률을 측정하는 것을 보고, 필자는 주택을 매입해서 주어진 기간 동안에 주택을 매각할 확률을 측정하는데 그대로 대입하여 사용해보았다. 결국, 이 논문은 필자가 쓴 최초의 SSCI 논문이 되었고, 학계에서 많은 주목을 받기도 하였다.

통계모형은 많은 초보 학자들이 어렵게 생각하고 접근하기 어려운 부분인데, 겁내지 마라. 내가 통계식, 수학식을 만드는 것이 아니라면, 내가 분석할 대상에 적합한 모형을 선택하는 것이 가장 고심해야 될 부분이다. 위에서 설명한 다양한 통계모형에 대해 대충 기억만 하고 있어도, 내가 분석하고자 하는 것에 어떠한 모형을 쓸 것인가가 감이 잡힐 수도 있다. 일단 통계모형에 대해 관심이라도 가져보자. 유사하게, 이성을 사귀기 위해서는 무엇보다 우선 관심이 필요하고, 그 이후는 자연스럽게 모든 것이 연결되지 않는가? 통계모형도 마찬가지다, 물론 희망사항일 수도 있겠지만...

통계 공부를 하는 이유는 내가 분석하고 싶은 대상에 대해 어떠한 모형을 써야 하는가를 알아야 하기 때문이다. 수 없이 많은 통계분석방법들이 있지만, 요즘은 인터넷만 치면 통계 프로그램 다루는 법, 해석하는 방법 등을 가르쳐준다. 무엇이 두려운가? 용감한 사람이 미인을 얻는다.

keyword

tstory

알고 보면 별거 아닌 논문의 기술 저자

사회문화분석가

팔로워 97

매거진의 이전글재미있는 논문 이야기 (20)재미있는 논문 이야기 (22)매거진의 다음글