인구통계 데이터와 프라이머리 경선 결과를 통해 예측한 미국 대선 결과
이번에는 지난 글에 이어 프라이머리 경선 결과 예측 모델을 설명한고 대선 결과를 예측해보겠다. 인구통계 데이터에는 52개의 속성이 있었는데, 선형 모델을 만들 때 속성이 너무 많으면 예측의 정확도가 낮아지는 문제가 존재하기 때문에 먼저 PCA주성분 분석을 진행하여 데이터가 가진 52개의 차원을 10개의 차원으로 축약해보았다. 그림 1과 같이 분산이 상당히 줄어드는 것을 확인할 수 있다. 즉 52개의 속성은 사실 10개의 요약된 속성으로 충분히 표현이 가능하다는 것이다. (주성분 분석에는 R을 이용함) 축약된 10개의 특성은 그림 2와 같았다.(중요한 예측자로 나타난 6개의 성분에 대해서만 설명하겠다)
이렇게 얻어진 10개의 주성분을 이용하여 다중회귀 모델과 인공신경망 알고리즘을 모두 적용하여 프라이머리 경선 결과의 득표율을 예측해보았는데 예측의 정확도는 필자의 우려와는 반대로 52개 속성을 모두 입력 변수로 사용했을 때 보다 설명력과 정확도가 약간씩 감소하였다. 하지만 큰 차이는 없어서 여전히 유의미하다고 볼 수 있었다. 모델의 성능은 다음 그림과 같았다. 선형 상관관계는 입력변수과 목표 변수를 얼마나 잘 설명하는지를 확인하는 척도인데 트럼프와 힐러리의 데이터 모두 약 70% 정도의 설명력으로 양호한 결과를 보였다. 그리고 평균 오류도 낮은 편이었다. 하지만 최소 오류와 최대 오류 모두 매우 크게 나타나서 개별 데이터를 보았을 때는 예측이 잘 안된 케이스도 있다는 것을 알 수 있었다. (계산은 IBM SPSS Modeler 16.0을 이용하였다)
그렇다면 프라이머리 득표율을 예측하는데 큰 영향을 준 변수들은 어떤 성분들이었을까 알아보자 다중회귀 모델과 인공신경망 모델에서 모두 일치하는 결과를 보였는데 예측자 중요도는 그림 3과 같았다.
위에서 얻은 중요 예측자들은 득표율과 일부는 양의 상관관계를 일부는 음의 상관관계를 보였는데 이를 각 PCA가 대표하는 속성으로 해석해보면 힐러리와 트럼프 두 후보자는 각각 다음과 같은 특성을 가진 지역에서 높은 득표율을 얻어서 강세를 보인 것을 알 수 있었다.
힐러리 득표율우세지역의 특징:
다인종 지역, 수입이높은 지역, 학력이높은 지역, 인구가 적은지역
트럼프득표율 우세지역의 특징:
외국이민자가 많은 지역, 히스패닉이 많은지역, 인구가많은 지역, 근로자가많은 지역, 빈곤율이 높은 지역, 학력수준이낮은 지역
위 결과를 간략하게 요약해보자면 힐러리는 중산층 유권자가 많은 지역, 트럼프는 히스패닉과 이민자가 많고 소득이 낮은 지역에서 강세를 보이고 있음을 알 수 있었다. 트럼프가 그토록 이민, 그중에서도 히스패닉의 이민을 반대하는데 어떻게 해당 지역에서 높은 득표율을 보일 수 있었을 까? 답은 미국은 인구 분포에 있다.
미국이 이민자의 나라라고 하지만 가장 많은 인구를 차지하는 것은 역시 백인이다. 혐오의 정치를 하는 트럼프가 히스패닉이 많은 지역에서 높은 득표율을 보인 것은 해당 지역의 백인들의 지지를 받아서 라는 것을 추론해볼 수 있다.
위에서 진행한 분석을 통해서 각 후보들이 어떠한 인구 통계적 특성을 가진 지역에서 인기가 많았는지 확인해 볼 수 있었다. 하지만 이를 가지고 대선을 예측하려면 한 가지 문제가 있다. 프라이머리 경선은 각 정당 안에서의 경쟁이기 때문에 우리는 힐러리와 트럼프가 함께 경쟁했던 선거에 대한 데이터가 없다는 것이다. 따라서 예비 경선에서 사용한 데이터를 대선에 그대로 적용하는 것은 타당하지 않다.
이 문제를 해결하기 위해 이번에는 힐러리와 트럼프가 함께 선거를 치른 결과를 예측해 볼 수 있도록 데이터를 약간 변형해 보았다. 먼저 프라이머리 경선 결과에서 공화당이 민주당보다 평균적으로 더 많은 후보들이 경선에 참여했기 때문에 이로 인해 트럼프의 평균 득표율이 힐러리보다 낮아 두 후보의 득표율 직접 비교가 불가능한 문제를 해결하기 위해 두 후보의 득표율을 표준화시켰다. (표준화된 득표율 = 득표율 × 후보자수 )
표준화된 득표율을 이용해 만약 두 후보가 함께 경쟁했다면 경합이 치열했을만한 주와 두 후보 중 한 후보의 승리로 끝났을만한 카운티를 분류해보았다. 경합의 기준으로는 두 후보의 표준화된 득표율 차이를 사용하였다.
예를 들어 다음의 경우 힐러리가 승리했을 것이라고 가정을 했다.
(힐러리의 표준화된 득표율 - 트럼프의 표준화된 득표율) > 0.6
이렇게 분류해보니 다음과 같은 결과를 확인할 수 있었다:
필자의 모델에서 힐러리는 568개, 트럼프는 5개 카운티에서 승리할 것이 분명하다. 그렇다면 나머지 2571개는 어떻게 예측을 해야 할까? 위 가상의 경선 결과를 목표 변수로 하고 인구통계 데이터의 52개 속성 중 10개를 최종적으로 선별하여 입력 변수로 정한 후 로지스틱 회귀분석을 진행했다. 트럼프의 승리가 확실시되는 카운티 가 5개밖에 되지 않아서 Over sampling을 통해 데이터의 균형을 맞춰줘야 했는데 이 부분이 필자에게는 조금 아쉬웠다.
요약하자면 최종 모델은 다음과 같았다.
1. 변수 설정
입력 변수 : 전체 인구, 인구증감률, 비농업 근로자 증가율, 흑인 비율, 히스패닉 비율, 이민자 및 외국인 비율, 학력, 수입, 빈곤율, 중위소득
목표 변수 : 힐러리 승리 OR 트럼프 승리
2. 로지스틱 회귀분석
3. 모델 도출
4. 2571개 경합 카운티에 모델 적용
2571개 경합 카운티에서 1272개 카운티는 힐러리가 승리, 1298개 주는 트럼프가 승리하는 것으로 나왔다. 이미 대선 결과가 확실시될 것이라고 판단한 카운티까지 고려했을 때 힐러리는 총 1840개 카운티에서 승리하고 트럼프는 1303개 카운티에서 승리할 것으로 예상된다. 인구 통계 데이터만을 고려했을 때 대선에서는 힐러리가 승리할 가능성이 크다.
이 글의 시작에서도 말했듯 대선에 영향을 미칠 수 있는 변수들은 너무나도 많다. 후보자들의 말 한마디, 다른 영향력 있는 인물들의 지지 선언, 미국 내 사건사고 등등 여러 요인들이 대선에 영향을 미치기 때문에 인구통계 데이터 만으로는 대선을 절대로 정확히 예측할 수 없다, 그리고 미국 대선은 각 주별로 선거인을 확보하는 시스템이기 때문에 카운티의 개수를 모두 예측한다고 하더라도 이에 따라 결과가 달라질 수도 있다. 본문에서는 이러한 세세한 부분까지 고려하지 못했다. 하지만 분석을 통해 적어도 어떠한 유권자 특성들이 대선에 중요하게 영향을 줄지에 대해서는 파악해 볼 수 있었기 때문에 부족하지만 흥미 가질만한 시도라고 자평해본다. 대선이 종료된 후 두 후보자가 각각 승리를 거둔 지역을 한번 본문에서 예측한 지역들과 비교해봐야겠다.