brunch

You can make anything
by writing

C.S.Lewis

by 추보 구자룡 Oct 28. 2020

빅데이터 시대에도 변하지 않는 조사 분석의 원칙

2부. 데이터를 분석하는 습관 : 셀프서비스 데이터 분석

조사의 본질과 통찰


조사(survey)의 본질은 조사 자체가 아니라 조사를 통해 얻은 데이터를 분석하여 통찰(insight)하는 것이다. 통찰은 데이터 이면의 현실을 꿰뚫어 보는 것이다. 간혹 정책이나 중요한 결정을 하는 데 조사 결과에 따르겠다고 하는 경우들이 있다. 이는 조사의 본질을 잘못 이해한 것이다. 조사는 국민투표나 선거가 아니다. 조사 결과는 어떤 문제에 대한 의사결정을 위한 기초 자료일 뿐이다. 조사 결과를 바탕으로 통찰을 하고, 통찰한 내용에 근거하여 의사결정을 하는 것이 바람직하다.


최근 4대 강 보 해체, 2022학년도 대입개편 권고안 등 국가의 중요한 정책 결정을 설문조사의 결과로 의사결정을 하려는 시도들이 있었다. 정책 수혜자들의 의견을 수렴하고자 하는 취지는 좋았으나, 의사결정자의 데이터 리터러시가 부족한 탓에 조사는 했지만, 그 결과로 현명한 의사결정을 하지 못하는 지경에 이르렀다. 의사결정자와 실무자가 데이터에 대한 이해와 활용에 대한 리터러시 역량이 필요한 순간이다.


조사 분석의 원칙


이런 측면에서 빅데이터 시대에도 꼭 지켜야 할 기본적인 조사 분석의 원칙을 몇 가지 제시한다. 


첫째, 조사는 표본을 통해 모집단을 추정하는 것이기 때문에 당연하지만, 표본이 모집단을 대표할 수 있어야 한다. 대표한다는 것은 모집단의 특성을 대변할 수 있어야 한다는 것이다. 4대 강 보 해체와 관련된 조사의 대상자는 전 국민이었다. 전 국민을 대상으로 표본을 추출하는 것이 나쁜 게 아니다. 조사의 목적에 가장 적합한 표본을 추출하는 데 전 국민이 좋을지 아니면 다른 특성을 고려하는 게 좋을지 판단이 필요하다. 4대 강 보 해체에 대한 진짜 조사 목적은 보 해체로 인한 경제성과 환경적 영향 등 전문적인 의견을 수렴하는 것이 아닐까 생각한다. 이런 목적이라면 전문적인 의견을 제시할 수 있는 사람들과 이해관계자들이 표본으로 추출되었어야 한다. 보 해체에 대한 전문적 판단 능력보다는 유리한 여론의 근거를 만들고 싶었기 때문에 전 국민을 대상으로 표본을 추출한 것이 아닐까 의심된다. 조사 목적에 적합한 조사 설계는 아무리 강조해도 지나치지 않다.


둘째, 측정과 척도는 정확하게 사용해야 한다. 정밀한 데이터보다는 정확한 데이터가 더 좋은 데이터다. 어떤 척도를 사용하여 질문하는가에 따라 분석 기법도 달라진다. 분석과 척도는 떼려야 뗄 수 없는 밀접한 관계다. 예를 들어, 변수와 변수의 상관관계를 알고 싶다면 모두 수치형(등간이나 비율) 척도로 측정되어야 한다. 집단 간의 차이를 비교하고 싶다면, 집단은 범주형(명목) 척도가 되어야 하고, 차이를 알고 싶은 변수는 수치형 척도가 되어야 한다. 질문지를 만들 때 조사목적에 맞는 분석기법을 고려해야 원하는 결과물을 얻을 수 있다.


셋째, 유도 질문을 해서는 안 된다. 기본 중의 기본인 이 원칙이 지켜지지 않으면 조사 결과의 통계치는 진실일지 모르나 실제 내용은 사실과는 다른 결과가 나올 수 있다. 조사 자체가 왜곡되었기 때문에 신뢰성과 타당성을 논할 가치조차 없다. 데이터는 거짓말을 하지 못하지만, 사람은 얼마든지 거짓말을 할 수 있다는 점을 항상 유념해야 한다. 조사자와 의뢰자의 윤리 문제를 가볍게 생각하면 안 된다. 사회조사에는 이해관계가 있을 수 있기 때문에 특히 더 조사 윤리를 잘 지켜야 한다.


넷째, 통계분석의 결과를 해석할 때 주의가 필요하다. 가설검정에 대한 기본적인 이해도 필요하다. 예를 들어, 어떤 결과가 집단 간에 차이가 있는지 없는지 통계적 검정을 통해 파악해야 한다. 그렇지 않으면 통계적으로 아무런 차이가 없는 차이를 차이가 있는 것으로 오해할 수 있다. 평균이 가지고 있는 함정도 고려해야 한다. 표준편차와 분산을 함께 고려해야 오류를 방지할 수 있다.


다섯째, 조사 결과를 가능하면 시각적으로 표현해야 한다. 시각화하면 조사 결과를 보는 사람이 더 쉽게 내용을 이해할 수 있다. 이때 주의해야 할 점은 왜곡해서 시각화하면 안 된다. 누군가의 의도가 들어가는 순간 진실은 사라지고 거짓말이 된다. 통계치는 같을지 몰라도 시각화된 결과물은 의도가 들어간 거짓 결과물이다. 예를 들면, 막대그래프에서 Y축의 시작 값을 다르게 하여 어떤 현상을 과장하게 되면, 실제 차이가 크지 않음에도 불구하고 큰 차이가 나는 것으로 착각할 수 있다. 누군가의 의도가 현명한 의사결정을 방해하게 된다.


지금은 빅데이터의 시대다. 이 시대를 현명하게 살아가는 방법은 데이터 리터러시를 갖추는 것이다. 어떤 문제에 대해 분석적으로, 통계적으로, 전략적으로 사고하고, 데이터를 기반으로 말하고 결정하는 습관을 지니면 어느 순간 데이터 문맹에서 벗어날 수 있다. 우리가 수집하는 모든 데이터는 그냥 숫자와 문자일 뿐이다. 감정이 없는 데이터에 의도가 들어가면 왜곡이 될 가능성이 높다. 원시 데이터를 다듬어 의미 있는 통찰로 바꾸고 새로운 가치를 만들어 내는 현명한 의사결정자가 되어야 한다. 데이터를 보고 그 이면의 현실을 통찰할 수 있는 데이터 리터러시 역량을 갖출 때 가능하다.

이전 12화 텍스트 마이닝(2) 뉴스 빅 데이터 분석으로 통찰하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari