18. 과연 TK(대구경북)가 문제인가? (2차 개정)

데이터과학, 통계, 그리고 편향

May 10. 2017

[2차 개정판] 아래의 글(개정판)을 포스팅 한 후에 아래 독자분(댓글참조)께서 대전제(TK는 수구꼴통인가?)에 대한 의의를 제기해 주셨습니다. 이에 관련하여, 오해의 소지가 있는 부분을 수정했습니다. 다만, 이 글을 통해 원래 검정하고자 했던 내용은 TK의 이념적인 성향(수구꼴통)을 판단하는 것이 아니라, TK지역 사람들이 특정 후보에 대해 편향성이 유독 강한가에 대한 검정입니다. 이점에 대해서는 오해가 없으셨으면 합니다.

[개정판] 아래의 글을 포스팅 한 후에, 페북 친구 중 한분이 데이터 오류를 지적하여 주셨습니다. 데이터를 수정한후 계산을 해보니까 처음과는 조금 다른 결과가 나왔습니다. 이에 일부 내용을 수정하여, 다시 포스팅 합니다. 수정이 된 부분은 보라색으로 변경하였습니다. 읽으시면서 참고 바랍니다.

2017년 5월9일 말도 말고 탈도 많은 대통령 선거가 끝이 났고, 불행(?)이도 내가 찍었던 이는 이번에 대통령이 되지 못하였다. 하지만, 대통령 선거가 진행 되는 동안에 포털을 통해서, 그리고 무엇보다도 페북을 통해서 실시간 중계(?)가 되기도 하였다. 페친 분들의 피딩들 가운데는 TK(대구/경북)에 관련 내용들이 눈에 띄었는데, 예를 들자면 이런거다:

페북친구분의 피딩

대통령 선거를 할 때마다 그렇지만, 대구/경북지역은 예외없이 지역감정의 도마위에 올랐으며, 묻지도 따지지도 않는 몰아주식 투표를 했다고 한다. 뭐, 그도 그럴 것이 경북 지역 개표결과를 보면 페북 친구분의 언급이 이해가 되기는 한다. 파란색이던 다른 지역과는 달리 경북지역은 뻘건색으로 도배를 했으니 말이다.

대구 경북지역 대통령 선거 결과 (출처: 네이버)

심지어 대통령에 당선된 경쟁 후보의 격차만 보더라도 전국 평균을 훨씬 넘는다는 것을 알수 있다. 위에 페북 친구분이 부끄럽다고 했던 이유는 아마도, 객관적인 잣대 없이 특정 후보를 묻지도 않고 따지지도 않고 몰아주는 TK주민들의 편향성 때문 일 것이다. 이때 얼핏 든 생각은, 대구 경북 지역 주민들은 다른 지역에 비해, 특정 후보에 대한 편향성이 강한가에 대한 의구심이다.

과연, TK주민들은 다른 지역보다 심하게 몰아 주기식 투표를 하였는가?

오늘은 데이터 과학을 이용하여 이에 대해서 과학적으로 다루어 보고자 한다.

1. 데이터의 수집 및 가공

우선 데이터 수집은 네이버의 결과를 이용했다. 각 지역별로 찍어보면, 후보자들이 비율이 나온다. 그중에 몰아주기(?)가 예상되는 후보 두명에 대한 데이터를 수집했다. 그리고, 특정 후보에 대한 선호도를 나타나기 위해서, 두 후보자 사이의 비율을 측정 값(Y)로 지정을 했다. 이를 표로 만들면 다음과 같다.

문/홍 후보간 선호도 비율 (전국)

여기서, Y값이 의미하는 것은 문후보와 홍후보사이의 선호도 비율을 뜻한다. 예를 들어, 인천지역은 Y값이 1.97이라 함은 이 지역에서는 문후보를 홍후보보다 2배정도 선호한다는 것을 의미한다. 한가지 유의 할 것은 이 값은 두 후보사이의 선호도의 비율만을 다룬다. 예를 들어, 대구의 경우는 선호 후보는 다르지만, 선호도 차이는 2배(2.08)정도 라는 것을 의미 한다. 그 다음 수집할 데이터는 TK지역이다. TK지역의 데이터 또한 네이버를 통해 수집이 가능하다. 두 후보간의 선호도의 비율을 X로 정했다.

문/홍 후보간 선호도 비율 (대구/경북)

2. t-분포를 이용한 가설 검정

이 정도로 선가공이 된 데이터를 가지고 있으면, 이를 기반으로 한 가설을 세울 수 있다. 위의 제목 처럼 우리가 알고자 하는 것은 바로 TK지역이 타지역(전국)에 비해서 묻지마식 몰아주기를 했느냐? 일 것이다. 이를 검정 위한 가설을 세우면 다음과 같다:

H0: E(Y) == E(X); H1: E(Y) != E(Y)

그리고, 우리는 t-Test를 이용하면, 이에 대한 가설을 검정할 수 있다. t-Test를 통한 검정은 다음 수식으로 가능하다.

T-test Summary (출처: Braon, 2014)

그리고, 고맙게도 엑셀은 이러한 계산들을 손쉽게 할 수 있다. 엑셀을 이용하면, 다음과 같은 값들을 얻을 수 있다.

위의 데이터로 t값을 구하면 1.41가 나오며, 자유도가 16.1인 T-분포(Distribution)를 이용하면 그 확률 0.916가 된다. 이는 p-value가 0.088인 것을 의미한다. 위의 가설을 검정하기 위해서는 alpha값이 0.05라고 하면 (95% 신뢰 구간), p-value (0.088) > alpha (0.05)이다. 이 경우, H0는 수용(Accept)되어야 한다. 95% 신뢰 구간의 경우, TK지역의 선호도 편향은 전국과 비교할때 "차이가 없음"을 의미 한다. 그럼에도 불구하고, TK지역 사람들만이 특정 후보에게 표를 몰아준다고 욕을 먹는다면 억울한 일일 것이다. 특히, 이번 대통령 선거에서는, 적어도 데이터는 그렇게 말하고 있다.

3. 마치며

요즘 데이터 과학이나 빅데이터와 같은 용어들의 인기가 하늘을 찌른다. 그래서, 소제목을 데이터과학이라고 쓰기는 했다만... 어쨋든 이러한 데이터분석은 편향적인 사고를 가진 사람들을 객관적으로 일깨줘 주는 역활을 하기도 한다. 세상사람들은 다양한 문제들을 데이터를 이용해 풀려고 한다. 그렇지만, 세상에 (빅)데이터를 이용해야지만 해결 된다고 생각 되어지는 문제들 중 대부분은 그렇게 많은 양의 데이터 없이도 해결이 가능하거나, 심지어는 데이터가 없이도 해결 가능한 경우가 많다. 이번 글에 적용한 가설 검정(Hyperthesis Test)은 대학교 1학년 수준의 기초 통계학을 배우면 누구나 적용할 수 있는 방법이다. 굳이 데이터 과학(혹은 빅데이터)이라는 거창을 이름을 붙이지 않더라도 말이다. 빅데이터라는 키워드가 등장하면서, 사람들은 많은 데이터를 다루는 것에 더욱 더 열광 하고 있다. 하지만, 데이터를 다루는 현란한 기술을 배우고 적용하기 전에, 과연 문제의 본질을 파악하는 법을 배우고 고민하는 것이 선행 되어야 하지는 않을런지? 뭐...그냥... 그렇다는 거다....

덧붙여...

1) 심심풀이로 몇몇 다른 지역도 비슷한 방법으로 분석을 해보았는데, p-value가 0.045 인 곳이 있다. 즉, p-value (0.045) < alpha (0.05). 이게 의미하는 것은 H0는 기각(Reject), H1(E(X)!=E(Y))을 수용(Accept)라는 거다. 어느 지역인지는 굳이 이야기하지 않겠다. 그렇다, 여러분들이 생각하는 바로 그 지역이다.

2) TK 지역 분석에서 alpha를 0.1로 할 경우(즉, 90% 신뢰구간), 결과는 달라진다. 즉, p-value (0.088) < alpha (0.1)이 된다. 이 경우에는 H0는 기각(Reject), 즉, TK 지역의 선호도 편향은 전국의 편향성과 비교하여, "차이가 있음"을 의미 한다.

3) 처음 글을 적었을때, 이부분은 놓쳤던 이유는 데이터가 하나 잘못 들어갔기 때문인데, 페북 알바분께서 수정해주셨다. 그분께 감사를.... :)

4) 데이터 입력시 오류 때문에 본문을 여러번 수정함. 역시, 분석에 필요한 데이터 수집은 노!가!다! 임.

Reference

Baron, M. (2014), Probability and Statistics for Computer Scientists, 2nd Ed., CRC Press, Boca Raton, FL., USA.

keyword

Amang Kim IT 분야 크리에이터 직업 교수

여러가지(?) 하는 사람

팔로워 1,546

매거진의 이전글17. 평준화를 하면, 서열화가 사라질까?19. 데이터 분석으로 미래를 예측할 수 있을까?매거진의 다음글