이전 편에서 언급했듯이 사회과학은 눈에 보이지 않는 사회 구조나 인간 행동 등을 연구 대상으로 삼기에 직접 데이터를 수집하기는 무척 어렵다. 때문에 자금과 시간문제로 공공기관에서 제공하는 데이터를 사용하게 된다. 문제는 이 데이터 역시 여러 현실적인 사정이 얽혀서 만들어졌다는 것이다.
사회과학에서 쓰는 공공기관 데이터는 대체로 '설문조사' 데이터다. 설문조사를 할 때도 몇 가지 규칙이 있는데, 대표적으로 문항이 너무 길면 응답자들의 집중도가 하락해 응답에 성의가 없어질 수 있다. 그래서 설문조사지에는 일목요연한 핵심 질문들만 넣기 마련인데, 해당 질문들은 안전하게 보편적이고 정형화된 질문들로만 구성되었을 확률이 높다. 다시 말해 공공기관의 독특하거나 내가 궁금해할 만한 질문이 없을 확률이 높다.
예를 들어 '기독교와 불교 신자 간의 행복도'를 비교한다고 가정해 보자. 그러면 내가 찾아야 할 공공 기관 설문지 데이터에는 응답자의 종교를 묻는 질문과 행복도를 묻는 질문이 모두 포함되어 있어야 한다. 그러나 현실에서는 종종 응답자가 믿는 종교의 종류 대신 종교의 유무만 물을 때도 있고, 행복도 대신 '우울한 정도'만을 묻기도 한다.
혹여 두 질문이 모두 포함되어 있더라도, 전체 응답자 중에서 무교와 천주교 신자를 제외했더니 연구 대상이 너무 적을 수도 있다. 데이터를 분석할 때 최소한의 신뢰도를 담보하기 위해 요구되는 표본 숫자가 있는데, 이를 지키지 못할 수도 있다는 것이다.
가끔은 우여곡절 끝에 선택한 질문이 이론과 현실의 경계에서 아무런 의미를 갖지 못할 때도 있다. 무슨 소린고 하면, 설문지를 구성할 때 또 다른 중요 원칙으로는 "추상적인 질문은 안된다-"가 있다. 나이를 물어보아도 연 나이인지 만 나이인지 명확히 규정해서 물어봐야 한다. 즉, 어떤 질문을 던졌을 때 응답자 모두가 그 질문의 의미를 최대한 비슷하게 이해해야 한다.
그렇다면 '좌파와 우파를 비교'해야 하는 연구에서 우리는 어떻게 좌파를 구분해 낼 것인가? 좌파의 의미는 사람마다 다르게 정의되기 때문에 많은 데이터에서 응답자의 정치적 성향을 직접적으로 묻지 않는다. 가장 마지막에 임했던 선거에서 지지한 정당에 따라 구분하는 방법? 글쎄다... 민주당의 정책이나 스탠스를 보면 서구의 자유주의 보수당에 가까워 보이기도 한다.
아, 노동조합에는 시쳇말로 '빨갱이'가 많다는데 노조 가입 여부로 알 수 있지 않을까? 마르크스 이론에 비추어 봐도 조합원은 노동의 가치를 중요시하는 좌파일 확률이 높아 보인다. 세상에나! 국제노동권 최하위 등급 받은 나라답게 우리나라에서 '노조'가 있는 기업은 극소수의 거대기업뿐이다. 애초에 노조가 존재하고 운영될 만한 업장에서 일하는 사람들은 돈 많은 대기업 노동자로, 다른 지표로 분석해 보면 시장경제체제 열렬 신봉자에 가깝다.
요약하자면 사회과학에서 이론을 바탕으로 아이디어를 떠올려도 내 가설의 증명을 도와줄 데이터가 있을 가능성은 미지수다. 그 결과 초보 대학원생의 현실적인 연구는 몇 안 되는 기존 데이터를 요리조리 아무렇게나 다 뜯어보는 데서 시작한다. 시간 낭비를 막기 위해 현존하는 데이터의 수준을 먼저 파악한 뒤, 이를 가지고 할 수 있는 이론적 설계를 마구잡이로 떠올려 본다.
그중에서 흥미 있어 보이는 변수 간의 관계를 깊게 파고 들어가서 그럴듯한 분석 결과가 나오면, 그제서야 분석을 뒷받침할 이론적 배경과 논리적 토대를 열심히 구상한다. 다만 이론적 배경을 논의하기 전까지는 앞서 살펴본 과정을 반복해야 한다. 대가들의 이론과 한국 사회만의 맥락이 포함된 현실 데이터 사이의 간극을 이해하고 조정하는 게 생각보다 만만치 않다.
나는 분명히 저서도 많이 읽고 데이터를 열심히 분해하고 살펴보았는데, 위의 사례처럼 번번이 분석이 무산된 경우도 많다. 결과 보고서를 제출해야 할 날짜는 다가오는데 아무런 성과가 없는 자책감에 빠진다.
아니 근데 이 와중에 나의 시간을 또 빼앗기게 생겼다. 애증의 행정일이 기다리고 있다.