brunch

You can make anything
by writing

C.S.Lewis

by CHAIBS May 03. 2018

만들어진 통계자료 활용하기

사회과학적 연구를 수행하면서 사용하는 공식-비공식적 통계를 활용할 때의 주의점. Earl Babbie의 사회조사방법론 CH.10 비개입적 측정에서 관련 내용 정리.

국가에서 만든 통계 자료를 가지고 스토리를 만든다거나, 문제점을 찾아보려고 하면 영 마땅한 게 눈에 안 보인다. 공공 데이터 포털 같은 곳 들어가보면 아무도 관심없을 것 같은 자료만 쌓여있다. 그냥 보기에 눈에 띄는 지점이 별로 없다보니 데이터를 가지고 스토리로 활용할 때는 서너가지의 다른 방법을 쓴다. 1. 정보공개청구를 통해 국가기관이 딱히 밝히려고 하지 않는 데이터를 확보한다 2. 직접 데이터를 만들거나/긁어 확보한다 3. 시각화를 통해 자료만 봤을 때는 눈에 보이지 않는 어떤 걸 탐색해본다. 근데 요 파트를 읽다보니 재미없어 보여서 흘려보냈던 자료도 다시 한 번 봐야겠다 싶었다.

ㅎㅇ

자살 연구로 유명한 뒤르켐은 '구교도와 신교도 가운데 누가 더 자살을 많이 하나'에 관심이 있었다. 문제는 구교도와 신교도의 자살률을 비교한 자료같은 건 없었다는 거다. 통계자료는 자살률을 종교로 구분하지 않았다. 

뒤르캠은 이 문제를 어떻게 해결했을까? 자살률을 종교로 구분하는 자료는 없었지만, '지역별 자살률'과 '지역별 종교현황(말이 좀 이상한데..)' 같은 자료는 있었다. 이 두 자료를 조합하면 보고 싶었던 내용을 확인할 수 있다. '구교도가 많이 사는 지역'의 자살률 / '신교도가 많이 사는 지역'의 자살률을 볼 수 있다.


다만 이 방법으로 결론을 유도하는 것은 위험성을 내포한다. '신교도가 지배적인 지역의 자살률이 높다'라는 말은 '신교도가 자살을 (구교도에 비해) 많이 한다'는 결론으로 바로 이어지지 않는다. '집단적 수준에서의 행위가 곧 개인적 수준에서의 행위와 반드시 일치하는 것은 아니'다. 신교도가 지배적인 지역에서 기타 등등의 이유로 정작 자살을 하는 사람의 상당수는 구교도일 가능성이 있기 때문. 생태학적 오류의 위험성이다. 


생태학적 오류의 위험성은 크게 두 가지 방법으로 피해갈 수 있다. 1. 추론의 근거에 정교한 이론적 추측을 덧붙이는 것. 이론과 사실의 결합으로 반박의 가능성을 낮춘다 2. 반복을 통해 경험적 결과를 얻는 것. '전반적으로 더 높게 나타난다'면 주장에 힘을 실을 수 있다.


이에 앞서 고려해야하는 것은 '국가 통계자료의 신뢰성'. 책에서는 마리화나 단속을 예시로 든다. 마리화나는 1937년 이후에 법률에 의해 소비하는 게 불법이 됐다. 때문에 그 이전과 이후의 관련 범죄 통계가 갖는 의미는 다를 수밖에 없다. 그 이후의 통계자료라고 해서 일관성을 담보한다고 볼 수는 없는데 이런 경향성이 관찰되었기 때문이다.


시민단체가 마리화나 강력 단속을 주장 > 늘어남

매스컴의 보도 > 늘어남

경찰업무 과중 > 줄어듦

적발 시 옷차림, 공손한 태도 > 검거나 훈방에 영향

보고된 범죄 * 10 == 보고되지 않은 범죄

사법당국의 전산화 개선 > 급격하게 늘어나는 경향


접할 수 있는 상당수의 통계자료에는 분명 제한점이 존재한다. 이러한 문제를 현실적으로 아예 없앤다는 건 불가능하다. '이런 문제가 있을 수 있다'를 인지하고 접근해야하며, 아까 언급한 논리적 추론과 반복연구로 상당 부분 해소는 가능하다고 한다. 꼼꼼하게 생각하지 않을수록 내가 원하는 방향으로 숫자를 끼워맞출 수 있으니 주의해야겠다.

매거진의 이전글 파이썬으로 소수 찾기

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari