데이터로 2016년 미국 대선 결과 예측해보기(1편)

인구통계 데이터와 프라이머리 경선 결과를 통해 예측한 미국 대선 결과

Jun 27. 2016

미국 대통령 선거가 얼마 남지 않았다. 미국이 세계 질서에 미치는 영향 때문에 누가 대통령이 될 것인가에 세계인들의 이목이 집중되고 있다. 이번 글에서는 데이터 마이닝 방법을 이용하여 2016년 미국 대선에서 힐러리가 승리할 것이냐 트럼프가 승리할 것이냐를 예측해보려고 한다. 이번 글의 목적은 주로 데이터마이닝을 통한 분석 과정을 소개하는 데에 있으며, 1%의 차이만으로도 당락이 뒤바뀔 수 있는 대통령 선거를 예측하는 데 있어 인구통계 데이터만을 사용하는 것은 불충분한 방법이기 때문에 모델의 예측 결과는 신뢰할 수 없다는 것을 미리 밝혀둔다. 또한 글의 내용은 정치적 견해와는 무관하다.

우선 분석을 위해 데이터를 수집했다. 첫 번째로 미국의 3143개 카운티에 대한 미국 통계청의 인구통계 데이터를 수집하였다. 카운티는 미국의 행정단위인데 State 바로 아래 등급의 행정단위이다. 두 번째로 각 카운티 별 프라이머리 경선 결과 데이터를 CNN에서 수집하였다. 해당 데이터는 프라이머리 경선이 다 끝나기 전에 정제된 데이터이기 때문에 27개 주 만의 데이터를 포함한다. 프라이머리는 각 당에서 대통령 후보를 결정하기 위해 치르는 예비 경선제도이다.

데이터 탐색

간략하게 데이터에 대한 설명을 덧붙이자면 카운티의 인구통계 데이터는 총 3195개 레코드와 52개의 속성을, 프라이머리 데이터는 14488개의 레코드와 8개의 속성을 가진 데이터이다. 프라이머리 데이터는 주, 카운티, 코드, fips, 정당, 후보자 이름, 득표수, 득표율 등의 정보를 포함하고 인구통계 데이터의 정보는 너무 많아 설명은 생략하고 아래 표를 첨부한다.

카운티 인구통계 데이터

본격적 데이터 분석을 진행하기에 앞서서 간략하게 데이터를 살펴보았다. 우선 각 후보별 득표비율을 살펴보았다. 경선 중반까지의 상황이지만 프라이머리 결과를 반영하듯 공화당에서는 트럼프가, 민주당에서는 힐러리가 우세한 득표율을 보였다.

트럼프와 힐러리의 각 카운티에서의 득표율 분포도 한번 살펴보았다. 아무래도 공화당에서 계속해서 더 많은 후보가 경선에 함께 참여해서 그런지 트럼프의 득표율 분포는 40%를 기준으로 고르게 분포해 있었다. 힐러리는 40%가 넘는 득표율이 훨씬 더 많았는데 이 역시 후보자 수와 관련이 있다.

그렇다면 두 후보는 어떤 주에서 가장 높은/낮은 평균 득표율을 보였을까? 트럼프는 미시시피, 플로리다, 앨라배마에서 힐러리 역시 미시시피, 사우스캐롤라이나, 앨라배마에서 가장 높은 평균 득표율을 보였다. 추가적인 데이터 분석이 필요하겠지만 높은 득표율을 보인 주 중에서 미시시피와 앨라배마가 공통으로 포함된다는 점을 보았을 때 유권자가 생각하는 두 후보자의 성향 차이가 생각보다 크지 않을 수도 있겠다는 생각이 들었다. 트럼프는 텍사스, 아이오화, 유타 주에서는 가장 낮은 평균 득표율을 보였고 힐러리는 아이다호, 유타, 버몬트에서 가장 낮은 득표율을 보였다.

미시시피주 : 멕시코 이민자 문제를 겪고 있고 시골지역이 많으며 타 주들에 비에서 가난하다.

앨라배마 : 중공업과 농업이 발달한 노동자 계층이 많은 주이다.

군집분석

다음으로는 미국의 인구통계적 특성을 더 직관적으로 이해해 보기 위하여 52개 특성을 가진 카운티별 데이터를 통해 미국을 몇 개의 지역별 특성으로 군집화하려는 시도를 해보았다. 군집화 알고리즘으로 K-means 알고리즘과 GMM알고리즘을 모두 사용해봤는데 아무래도 인구통계 데이터가 정규분포의 특성을 많이 따르다 보니 GMM알고리즘을 사용할 때 성능이 더 좋아서 최종적으로는 GMM만을 사용하여 결과를 분석했다. R을 이용해서 계산을 하였고 총 5개의 군집으로 요약하였다. 결과는 다음과 같다.

여기서 분석가의 개입이 필요한데, 각 군집에 대한 정의와 특성 요약을 해야 한다. 필자는 군집 2, 군집 3을 다인종의 대도시 지역으로 정의하였고 군집 1, 군집 4를 백인 인구가 많은 소도시 또는 시골지역, 군집 5를 원주민들이 많은 현대산업이 발달하지 않은 시골지역으로 정의하였다. 이 중 가장 많은 비중을 차지하는 지역은 2번째로 정의한 백인 인구가 많은 소도시 또는 시골지역이었다.

프라이머리 경선 결과 예측 모델

이어질 글에서는 위에서 수집한 데이터를 이용하여 프라이머리 경선 결과의 득표율을 예측해보는 모델을 만들어보는 것부터 시작하여 대선 결과를 예측하는 과정을 소개하겠다. 프라이머리 경선 결과를 예측해보는 이유는 모델에서 선택한 주요 예측자들을 통해 대선 결과에 크게 영향을 미칠만한 변수들을 예상해 보기 위해서이다. 데이터마이닝에서 예측모델은 종종 예측 자체가 목적이 아니라 요인 분석을 위한 목적일 때가 있다.

keyword

작가의 이전글빅데이터 처리기술데이터로 2016년 미국 대선 결과 예측해보기(2편)작가의 다음글