brunch

You can make anything
by writing

C.S.Lewis

by 이정우 Aug 17. 2021

통계 공부를 어떻게 해야 하나요?

방법론에 대한 고민

  이번 장의 제목은 본래 "방법론이 뭐예요?"였다. 쓰고 나서 읽어보니 내가 건방진 것 같아서 바로 지워버렸다. 사실 방법론이 뭔지는 책을 몇 권이나 쓸 수 있는 주제인데, 내가 주제넘게 제목을 그렇게 지어버리다니. 본래 하고 싶었던 이야기는 내가 학부 때나 석사 시절에 부딪혔던 방법론에 관한 고민들을 적으려고 했던 것인데, 거창하게 방법론 개설을 적으려고 하다니. 건방진 나를 꾸짖어본다. 이처럼 방법론에 대해서 말하는 것은 시간도 많이 걸리는 일이다. 무엇이냐보다는, 내가 했던 고민들을 적으려고 하는 것이니까 오해가 없으시기를 바란다.


  방법론이 뭔지도 어려운데, 어떻게 사용해야 하는가는 더 어렵다. 뭔지 모르는 것을 사용해서 논문을 적어야 한다니. 이만큼 답답한 게 어디 있을까? 다른 사람의 논문을 읽어보면, 대략 이런 구조로 논문이 구성되어있다. 대부분의 논문이 이렇다.


I. 서론
II. 기존 연구 검토 (요즘은 서론과 기존 연구 검토를 1장에 함께 적는 경우도 많다.)
III. 이론적 배경과 가설
IV. 양적 방법론이면 측정 방법과 데이터 / 사례 연구라면 분석 내용
V. 양적 방법론이면 분석 결과 / 사례 연구라면 분석 내용 (분량에 따라)
VI. 분석 내용에 대한 토론과 결론 
참고문헌


  방법론은 대부분 IV, V, VI 장에 따라 달라진다. 저기에도 그렇게 적혀있다. 양적 방법론이면 어쩌고. 사례 연구 혹은 질적 방법론이라면 어쩌고. 방법론이 뭔지 모르겠다면 이 내용으로 유추해보자. 이론적 배경과 가설 부분이 이 논문에서 저자가 기대하는 주장이 될 것이다. 그러면 그 주장을 어떻게 보여줄 것인가? 그런 주장의 근거를 보여주는 방법이 바로 방법론이다. 굉장히 단순하게 말하면, 통계와 같이 수학을 동원해서 보여준다면 양적 방법론일 것이고, 사례와 같이 수학을 동원하지 않고 비교하는 방법을 쓴다면 질적 방법론이 될 것이다.


  오늘도 나는 대학원 진학을 희망하는 어느 학생과 전화로 이야기를 나누고 오는 길이다. 자신이 어느 교수에게 컨택을 하였는데, 질적 방법론과 양적 방법론을 둘 다 공부하고 오라는 내용이었다. 그래서 어떻게 공부를 해야 할 수 있을지 모르겠으며, 자신이 대학원에 가서 정말 할 수 있을까를 고민하고 있었다. 제일 좋은 것은 논문을 읽고 그 학계 분야에서 가장 많이 쓰는 방법론이 무엇인지, 그리고 그것에 어떻게 적응할 수 있을까를 고민하는 것이 좋다. 교수 자마다 자신이 박사학위를 취득하면서 사용하였던 방법론이 모두 다르기 때문에, 지도교수에 따라 여러분도 사용하는 방법론이 달라질 수 있다.


  물론 자신이 어떤 가설을 내세우고, 그것의 결과를 가장 잘 보여줄 수 있는 방법이 있다면 질적인 것과 양적인 것은 모두 다 좋은 도구가 될 수 있다 (King, Keohane, and Verba, 1994: 4-5). 하지만 어느 학계에서든 유행하는 방법론이 분명 있으며, 80년대 후반부터는 정치학계에서 가장 유명한 방법론은 통계 분석을 통한 양적 방법일 것이다. 여러 방법에 대해서는 최근 국제정치학회 방법론 분과에서 기획한 "정치학 방법론 핸드북" (박종희 편, 2020)을 참조해도 좋겠다.


  나도 석사를 입학할 때에는 비밀문서라던지 사례 연구를 선호했다. 해제된 비밀문서를 보는 것 자체가 너무 재밌어서 그런 것도 있었다. 그런데, 입학하기 전에 강원대학교를 졸업하고 고려대학교에서 박사학위를 받은 선배 박사 한 분을 만날 기회가 있었다. 식사를 하고 나오면서 선배는 나에게, "통계 공부를 해. 요즘 그게 유행이라서 미리 해두는 게 좋을 거야"라고 하셨다. 음, 무슨 연습을 어떻게 할 수 있을까. 내가 수학과 담을 쌓았는데 괜찮을까. 걱정이 먼저 앞섰다.


일단 먼저 만들어보자


  2017년 2월 즈음이었나. 서점엘 갔다. SPSS 분석, R 분석, STATA 분석 책을 우선 하나씩 샀다. 요즘 R이 유행이라던데? 상관분석, 회귀분석? 이게 다 뭐야? ANOVA? 머리 아파. 그래, 기존 연구들이 뭘 쓰는가를 보자 싶었다. 그랬더니 다중회귀분석이라는 것을 쓴다. "회귀분석"이라는 단어의 의미가 뭔지는 차치하더라도 독립변수 X가 Y에 미치는 영향을 알려주는 것이라고 했다. 그럼 그 분석을 어떻게 하는데?


  R을 열었다. 설치하는 것도 오래 걸렸다. 컴퓨터가 좀 오래되어서 그런 것도 있었다. 네 파트로 나뉜 세션들이 있다. 나의 컴퓨터에 열린 R은 우하단에는 파일이 열리는 디렉터리, 우상단에는 입력된 인자들, 좌상단에는 스크립트, 좌하단에는 명령어를 넣는 곳이 있다. 우선 나의 목적은 대충 회귀 분석의 결과가 어떻게 나오는가를 확인하고 싶었다. 이렇게 넣으면 되는 것인가 하고 책을 무작정 따라 했다.


  책을 보니 'lm'이 회귀분석의 명령어라고 했다. 대략 이렇게 집어넣으면 된다고 했는데?


> lm(y~x, data=data)


  뭐야, 이렇게 넣었더니 오류가 난다. 책을 보니까 데이터셋도 입력을 해야 한다고 하고, 그 파일이 디렉터리에 있어야 된다고 한다. 그리고 데이터셋에 y와 x에 상응하는 것들이 있어야 한다. 주로 csv 파일로 쓴다고 한다. 그래서 우선 뭐라도 만들어보자. 무슨 효과를 볼까? 경제 발전 정도가 민주주의에 미치는 효과? 경제 발전 정도는 1인당 GDP로 측정해보고, 그게 X가 되겠군. 민주주의는 Polity index라고 있군. 그걸 집어넣어 보자. 최근 2019년만 해보자. 데이터셋을 만들자. 어떻게 만들지? 가로로 넣어야 해, 세로로 넣어야 해? 아, 맨 위에 변수 이름을 지정하고 밑으로 값을 넣는 것이군.


데이터를 밑으로 이렇게 입력하면 되는구나


  그렇게 입력했고 csv 파일로 저장을 했는데, 그럼 어떻게 돌린다는 거야? 에이씨. 어려워. 데이터부터 우선 입력해보고, 그다음에 돌려봐야겠다. 데이터셋은 디렉터리에 있어야 된다. getwd라고 입력하니까 결과창에 나의 문서라고 뜬다. 나의 문서에 data.csv를 넣어놨다. 모르는 게 너무 많아서 구글에서 막 찾아봤다. 책에 적힌 것들을 일단 따라 하고 본다. 디렉터리를 바꾸는 것은 setwd()를 통해서 한다고 한다.


> getwd()
> data <- read.csv("data.csv")


  오, 이렇게 넣으니까 우상단에 data라고 뜨네. Observation은 몇 개고, variable은 몇 개고. 오오. 신기하다. 그럼 이걸 회귀분석으로 어찌 돌린다는 거지? 회귀분석도 일단 어느 인자에 결과를 입력하고, 그걸 출력하는 방식을 취하는군. 어렵다.


> result <- lm(polityindex ~ gdppc, data = data)
> summary(result)


  이게 맞나? 책을 그대로 따라 하는 건데? 무슨 숫자가 막 나온다! 오오. 그때를 생각하며 써본 것인데 글자도 많이 틀려서 오류도 정말 많이 나고. 빨간 오류 글씨가 뜨면 심장이 막 콩닥거린다. 쪽팔리기도 하지만, 한 번에 잘되었으면 하는 마음이 있으니까. 이걸 그대로 또 따라 하고 있으니까 2017년 2월로 돌아간 것 같은 느낌도 든다. 그때 이걸 한 번 돌려보고서 드는 생각은, "아, 대충 이렇게들 한다는 거지? 직접 수업에 가서 써보면 감이 더 오겠네. 됐다"였다. 건방졌네.


논문 쓰기 강사로 다시 돌아와서


  2017년의 나를 생각하면서 수업에 들어왔다. 아니나 다를까 학생들이 엑셀 파일을 어떻게 만드냐. 가로로 입력하냐 세로로 입력하냐는 질문이 많았다. 월드뱅크 데이터를 보면 가로로 되어있는데, 이건 왜 세로냐. 세로로 입력을 했는데 어떻게 돌리냐. 처음엔 그래서 예시 데이터를 주고 그 자리에서 같이 돌려보는 연습도 했다. 회귀분석은 이렇게 한다. 종속변수가 연속형 데이터면 OLS, 0과 1로 이루어져 있는 것이면 로짓이라고 한다고 말했다. 물론 나중엔 이런저런 분석을 더 많이 배우게 될 거라고 했다.


  빨간 오류가 나올 때마다 너무 기분이 나쁘다. 아이고, 그래 우리 학생들 기분이 나빴구나. 나도 처음 할 땐 떨리고 기분이 나빴다. 우리 다시 한번 같이 돌아가 보자. 그래프도 그려보자. 달래가면서 했는데 어려워하는 느낌을 많이 받았다. 어떻게 하면 좀 더 쉽게 다가갈 수 있을까. 아마 적응을 한다면 좀 더 복잡한 모델도 잘할 수 있을 텐데. 결국엔 분석을 몇 번 더 연습했고, 어느 학생에겐 박선경, 신재혁(2019)을 따라서 매개 분석을 해보라고 했다. 왜냐하면, 그 학생은 모유 수유가 아동 사망률에 미치는 영향에 대해서 쓰고 싶어 했는데, 모유 수유가 아동의 비타민 A 섭취를 높이기 때문에 사망률을 낮춘다고 주장했기 때문이다. 나는 다음과 같은 숙제를 냈다.


1. 매개 분석이 무엇인지 논문을 보고 요약해올 것
2. Baron and Kenny의 방법에 따라서 분석한다면 R 코드를 어떻게 입력해야 할까?
3. 그리고 다음 시간에 나와 비교를 해보자
당시 강의에 사용했었던 PPT 자료

  이렇게 구체적으로 방법을 알려주면서 강의를 하니까 나는 품은 좀 많이 들기는 했지만, 그래도 재미는 있었다. 학생이 직접적인 결과물을 만들어오면 내가 만든 것과 비교하고, 원하는 값이 나오지 않았다면 같이 살펴보고. 데이터 입력에서부터 이렇게 구체적인 것까지 모두 같이 하다 보면 학생도 발전하고 나도 발전하는 것 같은 느낌이 들었다. 대신 학생에게 칭찬하는 것은 잊지 말고. 결국 그 학생이 우수상을 탔다.


  생각보다 많은 학생들이 데이터를 입력하고 셋을 만드는 과정부터 연습이 되어있지 않은 경우가 많았다. 우선, 어느 책이든 구입을 해서 코드를 무조건 하나 만들어보고 결과를 만들어보기를 바란다. 그런 연습이 한 번이라도 되어있다면 통계 분석을 할 때에 다른 코드를 짜는 시간은 들어도 낯설지는 않을 테니까.


<참고 문헌>

박선경, 신재혁, 2019, "가족끼리의 정치에 관한 대화는 투표 참여확률을 높일까?", 21세기정치학회보, 29(4): 1-22.


박종희(편), 2020, 정치학 방법론 핸드북, 서울: 사회평론아카데미.


King, Gary, Robert Keohane, and Sidney Verba, 1994, Designing Social Inquiry: Scientific Inference in Qualitative Research, NJ: Princeton University Press.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari