brunch

매거진 지식일기

You can make anything
by writing

C.S.Lewis

by 낭만민네이션 Mar 20. 2023

박사학위 논문을 쓸때 어떻게  방법론을 설정해야 할까?

과학학연구 방법론 수업을 들으면서 정리하기

0. 들어가기


지식은 패턴의 발견이다. 발견한 패턴이 설명력이 높아질 수록 연구의 효과는 높아진다. 특히 패턴이 시간의 구애를 받지 않고 언제 어디서나 발견된다면 이것은 이론을 넘어서 원칙principle이 된다. 연구자들은 이러한 원칙을 찾기 위해서 다양한 데이터의 패턴을 찾고 있다. 오늘은 이러한 패턴을 발견하기 위해서 먼저 고민해야할 방법론을 소개한다. 보통은 변수를 설정하고 연구방법을 정하는데 오늘은 다른 방법으로 살펴보자. 즉, 종속변수에서부터 시작해서 독립변수로 그리고 다시 방법론으로 가보자.


https://brunch.co.kr/@minnation/3333


1. 종속변수를 완전하게 분석하라.


박사학위를 쓸 때 먼저 해야할 것은 무엇일까? 그것은 당연히 독립변수가 아니라 종속변수이다. 먼저는 종속변수가 속해있는 영역인 domain에 대한 이해가 있어야 한다. 그 다음은 그 영역 안에서 자신이 보고싶어하는 혹은 궁금해하는 비전, 결과를 세밀하게 그려보는 것이다. 자신이 가진 주체를 명확하게 이해하고 구분할 수 있어야 한다는 것이다. 예를 들어 네트워크 퍼포먼스가 어떻게 나오는지가 궁금하다면 어떻게 해야할까? 그러면 일단 네트워크가 무엇인지, 네트워크가 어떻게 사용되는지, 네트워크의 활용에 대한 이해가 선행되어야 한다. 그 다음은 그러한 네트워크들이 어떻게 퍼포밍하는지에 대한 원인, 과정, 결과에 대한 이해가 있어야 한다. 말 그대로 decomposition이다. 단어를 쪼개어 보고 각각 분석을 해 보는 것이다.


그 다음은 종속변수가 변수로 인정받기 위한 양적 지표를 찾아보는 것이다. 그래야 종속변수가 변수로서 '양'을 가지게 되고, '방향'도 가질 수 있고, '결과값'이 나올 수 있다. 네트워크 퍼포먼스에서 가장 중요한 것은 어떤 네트워크의 '평균값, 표준편차, 분배' 데이터를 찾아보는 것이다. 그럼 그 변수들이 어떤 방식으로 구성되었고 데이터셋이 나왔는지를 파악해야 한다. 이 부분에서는 엄밀하고 철저하게 해야 한다. 다시 말하면 목적함수에 대해서 함수의 구성과 분석, 평가가 결과와 어떻게 연결되는지에 대해서 확실하게 이해해야 한다는 것이다.



그 다음에 해야할 일은 그 데이터가 나오게 되는 '방법론'인 분석 방법을 살펴보아야 한다. 회귀분석인지, 로짓분석인지, 심지어 T검정인지. 그러면 지금 자신이 보고 있는 데이터가 어떤 패턴을 보여주고 있는지에 대한 확신이 생기게 된다. 종속변수에 대한 다양한 이해와 프로세스를 이해했다면 이제 종속변수에 영향을 주는 독립변수, 매개변수, 조절변수를 살펴볼 수 있게 되는 것이다. 대부문 논문이 무너지는 이유는 자신이 원래 보려고 했던 결과인 종속변수에 대한 불확실한 이해 때문이다. 이것은 확신에 대한 문제이다.


가끔 연구를 하다보면 '정규분포'를 넘어서는 데이터들이 발생하게 된다. 그러면 어떤 때는 아예 연구를 접어야 할 때도 있다. 시기가 짧거나 양이 충분하지 않거나 정규분포가 확실하지 않을 때가 만약에 연구의 마지막이라면 이건 시간을 되돌릴 수도 없다.




2. 독립변수는 이론을 근거로 생각하라


박사학위 논문은 철저하게 이론이 기본이다. 이론이 확실할수록 구체적인 종속변수를 잡아낼 수 있다. 종속변수를 만들어내는 결정적인 '독립변수'가 있다. 이것이 없으면 인과관계가 흔들리면서 제대로 된 설명을 할 수가 없다. 여기서 핵심적인 독립변수를 확실하게 재단하기 위해서는 통제변수를 사용한다. 내가 정말로 보려고 하는 것이 핵심변수인데, 추가적인 변수들도 존재할 수 있다. 그러나 자신이 생각하기에 핵심변수가 명확하다면 추가적인 변수는 통제변수로 구성해서 단도리를 쳐야 한다. 이것은 선행연구가 철저할 수록, 이론적인 정합성이 확실할 수록 용기있게 쳐낼 수 있다.


통계에 의해서 양적추론을 하는 과정에서 버리기 아까운 데이터들이 존재한다. 그러다 보면 유혹에 빠지는데 그것은 바로 통제변수로 빼야할 것들을 설명력이 있다고 해서 독립변수에 추가하는 것이다. 이렇게 되면 기존에 제시한 이론의 범위도 넘어서게 된다. 그러면 독립변수에서 부터 이미 다양한 변수를 제시했기 때문에 종속변수에서도 인과관계가 흐트러지게 된다. 그러면 이것은 연구가 아니라 그냥 통계자료를 보여주는 것에 지나지 않는다. 중요한 것은 핵심변수는 데이터마이닝에서 나오지 않는다는 것이다. 핵심변수는 이론에서 나온다. 선행연구와 기존이론의 설명하는 과정에서 독립변수가 발생하게 된다.




3. 모델링에서 '시간'을 어떻게 처리할 것인가를 결정하라


통계자료를 보다보면 '시간'의 개념을 놓치는 경우가 많다. 특히 종속변수가 '시간'과 긴밀하게 연결되어 있다면, 이것을 어떻게 처리할 것인지를 결정해야 한다. 종속변수에서 변하지 않는 것과 변하는 것들이 있는데, 시간과 연계해서 어떤 현상은 그 순간만 의미가 있고, 일정 시간이 지나면 의미가 없어져 버린다. '구매도, 만족도, 신뢰도'와 같은 것들은 시간의 흐름에 따라서 달라진다. 그래서 이것은 매우 '비판적'인 질문으로 돌아온다. 그래서 많은 사람들은 패널분석을 하고, 다년도 분석을 하게 되는 것이다. 이것을 제대로 처리하지 못하면, 이론이 아무리 훌륭하고 독립변수가 아무리 핵심적이여도 종속변수를 설명하는 요인이 떨어지게 된다.


나의 연구문제가 시간의 변화에 따라서 영향을 많이 받게 된다면, 이것을 설명할 수 있는 이론을 설정해야 한다. 모델링할 때 '시간변수'를 놓치게 되면 설명력이 떨어진다는 것이다. 그래서 t1, t2, t3으로 갈 수록 예측력이 높아지는지를 고믾애 보아야 한다. 자신이 가지고 있는 데이타와 증거들이 유동성을 기반으로 하고 있다면 반드시 시간의 문제를 다루어야 한다. 이른바 '동적 연구'라고 한다. 종속변수가 이미 동적연구를 기반으로 하고 있는데 단년도 데이터를 가지고 왔다면 당연히 설득력이 떨어진다. 그럼 어떻게 해야할까? 단년도 사업이라도 그 안에 패턴이 시간변수를 능가해서 어떤 조건에서 계속 발생한다면 설명력이 높아진다.


'아버나시-어터백 모델'은 시간변수를 반영하여 유동기-과도기-경화기를 보여준다





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari