brunch

You can make anything
by writing

C.S.Lewis

by 철봉조사 이상은 Jun 03. 2024

기술하나 배웠더니, 10년 넘게 우려먹네

이것은 '양'에 대한 이야기이나, '양'만을 이야기하는 것은 아니다

10년 넘게 우려먹었다.


한 12년쯤 되었고, 앞으로 최소 10년 더 가능할 듯하다.


 자격증의 시대인데, 예전에 나도 참 많이 땄었다. 대학교 이후로 자격증 취득이 취미였던 덕분에 꽤 많이 모았다. 나름 인생의 복(福)으로서 대학교 전공인 주 자격증(사회복지사)으로 업을 가지고 살아가고 있지만, 전공이 아닌 사이드 자격증으로 잘 활용하는 것은 이것이 유일한 것 같다. 바로 '사회조사분석사 2급'이다.


 대부분 자격증을 취득할 때는 열심히 하다가, 딴 이후에는 서랍에 들어가기 마련이다. 근데 이 '사조사' 자격증은 나의 인생에 참 유용하다. 물론 자격증을 딴 것이 목적이 아니라, 내가 계속 쓰면서 알차게 활용하고 있기 때문이 원인인 듯하다. 자격증은 취득보다 실제 활용이 중요함은 정말 진리이다.


 사조사 자격증은 양적조사연구에 대한 내용을 다루고 있다. 양을 일컫는 통계분석에 있어서 다양한 소프트웨어가 있지만, 그중 SPSS 통계 패키지 프로그램을 사용한다. 이 SPSS는 통계학에 대해 본격적인 훈련이 갖춰지지 않은 이용자들을 대상으로 통계분석의 명령의 직관성과 접근성을 높이기 위해 개발된 패키지이다. 즉, 통계를 잘 모르는 사람도 익혀가며 하기가 쉽고 사회과학에서 주로 사용한다(나무위키 참고). 



 통계분석의 기본 순서와 구조는 다음과 같다. 개인적으로 8단계로 나눠봤는데, 설문지 제작부터 회귀분석까지이다. 대부분의 복지기관의 욕구조사는 교차분석 정보까지를 활용하는 듯하다. 하지만 거의(한 90프로) 통계의 세부 검증 규정을 따를 생각이 없는 듯하다. 제대로 하면 어느 분야에도 전문성이 통함은 물론, 참 있어 보이는데 말이다...


 1단계는 설문지 제작 및 배포이다(회수까지). 이건 서베이 조사라고 한다. 서베이는 매우 오래된 조사기법이다. 서베이는 분석에 유용한 정보를 이끌어 내기 위해 특별히 고안된 수단의 설문지(Questionnaire)를 사용하며, 상황에 맞는 개방형 혹은 폐쇄형 질문으로 구성되어 있다. 가장 큰 장점은 큰 표본의 조사를 가능하게 해 준다는 장점이 있으나, 단점으로는 결론에 끼워 맞추거나 인위적인 답변을 응답할 수 있다는 점이 있다.

 

 양적 조사연구에 있어서 설문지는 정말 별다른 대안이 없는 최적의 방법이다. 여러 가지 한계가 있지만, 자가응답식으로 본인의 생각을 가장 적절히 받아 낼 수 있다. 최근에는 대부분 온라인으로 한다(구*. 네**). 양식 폼(Form)이 있어서 결과도 정리해 준다. 지류가 더 맛깔나지 않느냐(효과)?라고 하는 사람도 있겠지만, 실제 너무 깊게 생각하지 않고 답변해야 하는 설문조사의 특성상 온라인이라고 해도 지류랑 효과 차이는 거의 없다고 생각한다. 예전 글에도 이야기한 적이 있지만, 불가피한 것이 아니라면 무조건 온라인이 맞다. 



  2단계는 코딩이다. 설문의 응답을 부호화로서 입력해서 통계처리 하는 방식을 일컫는다. 수기로 할 때에는 시간 소요가 어마어마했지만, 옛날 일이다. 이제는 온라인을 활용하여 엑셀 다운로드하고, 바꾸기 해버리면 5분, 10분이면 끝난다. 정확도나 시간절약이 전통적인 방식과는 차원이 다르게 좋아졌다. 역시 세상에 패배하지 않으려면 기술을 활용해야 한다.



  3단계는 빈도분석이다. 기본이지만, 어떻게 보면 쉽고 가장 보편적으로 사용된다. 이 응답이 '몇 명이 해서 (몇 개를 골랐고) 100% 중에 비율이 얼마냐'를 표시하는 방식이다. 그다음은 현장에서 잘 간과하는 부분인데, 빈도가 명목변수를 정리해 준다면 서열이상의 양적 변수를 더욱 직관적으로 설문의 특성을 정리해 주는 다음 4단계의 절차도 세트로 알고 있어 줘야 한다. 


  그 4단계는 기술통계분석이다.  일반적으로 사용하는 리커트(Likert) 5점 척도(매우 그렇지 않다 - 그렇지 않다 - 보통이다 - 그렇다 - 매우 그렇다)의 경우 기술통계로 정리하면 5점 만점에 평균치를 내준다. 표준편차는 거의 무조건 세트로 써준다. 이유는 여러 가지가 있지만, 최소부터 최대의 점수가 퍼진정도를 알게 해 주며(분산) 그를 통한 다른 값과 상대적인 비교로서의 성격도 있다. 보조적으로 최소, 최대값을 써줄 수도 있고 정규분포의 확인을 위해 첨도와 왜도를 쓰기도 한다. 사실 이 3,4단계가 기본이긴 하지만 현장에서 거의 빈도만 쓴다. 통계에 있어 빈도와 기술통계는 거의 같이 들어가는 것이 원칙이다. 통계와 양적변수에 있어서는 맥락적인 접근으로써 전체 체계에 대한 합의된 틀이 있다. 진입장벽을 만든 것이다. 불필요해 보일지라도 익숙해져야 한다. 그래야 우리 분야의 전문성을 어필할 수 있다.



  5단계는 수치들을 합쳐서 비교해 주는 교차분석이다. 이것도 현장에서 많이 쓰는 분석이다. 명목과 명목을 합쳐서 통계화해 주는 것인데, 어려운 설명은 집어치우고 간단히 설명하면 '이거에 따른 저거는 몇 명 몇 퍼센트이다'(이게 더 어려운가)로 설명할 수 있다. 통계적으로 유의한 지에 대한 검증은 카이제곱(χ2)을 쓴다. 사실 이건 크게 중요하지 않다고 본다(이름만 멋있다). 현장에서도 거의 안 쓰거니와, 통계 연구에서도 그다지 높은 수준에 취급을 받지 못한다. 포지션이 애매한 분석 수준이다. 가볍게 비교 분석을 할 때 정도 추천한다.



  6단계는 평균분석이다. 그룹의 평균을 비교해 주는 것으로서 명목과 서열변수를 합친 두 집단을 비교하는 것이다. 즉, "교육을 받지 않은 사람이 5점 만점에 몇 점, 교육을 받은 사람은 5점 만점에 몇 점인데 이 둘에 차이는? 통계적으로 같아, 달라?" 이런 식으로 비교를 해주는 통계이다(이걸 글로 설명하려니 급 현타 오네...). 연구분야에서도 기본적으로 많이 활용된다. 양적 분석을 한 학위 논문에는 꼭 들어가나, 상대적으로 압축적으로 짧게 쓰는 학술지에는 생략되는 경우도 많다. T-test와 F-test(One-way Anova) 두 개가 있는데, T는 보기가 2개를 비교한 거(남-녀, 유-무), F는 3개 이상을 비교한 것이다(20대-30대-40대, 서울-경기-인천-충청-강원...).



 7단계는 상관분석이다. 변수들에 대해서 상관관계(연관성)가 있는지를 파악하는 것이다. 교육을 많이 받는 사람은 직무성과가 높을 것이다 같이 변수(그룹)들을 비교하는 것이다. 뭔 소리야?라고 이해가 안 될 수도 있는데, 이는 상관관계와 인과관계의 차이를 알고 있어야 한다. 두 개를 비교했을 때 상관은 동생이고 인과는 형님이다. 즉 상관은 상대적으로 수준이 낮다고 할 수 있다. 


 통계의 예시로 많이 드는, 미국의 슈퍼마켓에서는 맥주를 기저귀 옆에다가 비치한다고 한다. 이유는 대체적으로 아이가 있는 30대들이 기저귀를 구입하면서 맥주를 사게 하려는 심리상태를 자극하는 것이다. 이는 어떻게 보면 전혀 상관이 없어 보이는 맥주와 기저귀를 상관성을 있게 만든 예시이다. 그런데 만약 인과관계라고 할 수 있는 원인과 결과의 측면으로 봤을 때 맥주를 사는 사람은 일반적으로 기저귀를 산다고 볼 수 있을까? 상관은 어떻게 보면 우연히 두 상황 중 하나가 높아지면 다른 하나도 높아짐을 밝혀주는 통계이다. 단순이 이게 높은데 저것도 높을까?를 알아보는 것이다. 상관분석은 통계, 양적 연구에서 가설을 검증하기 전에 가볍게 보기 위한 필수 과정이다.



 마지막 8단계는 통계의 꽃이라고 할 수 있는 회귀분석이다. 놀라운 사실은 진화론을 발표한 찰스 다윈의 사촌인 프란시스 콜턴(Frandis Galton, 1822~1911)이라는 사람이 만든 것이다. 골턴이 유전학 개량을 위한 우생학(eugenics)을 연구했는데, 아버지의 키가 크면 자식도 크 큰 유전자를 물려받을까? 그런데 또래보다 키가 크긴 하지만, 아버지만큼 크지는 않더라 작더라도 아버지만큼 작지는 않았다고 한다. 즉, "결과가 평균으로 회귀하더라"라고 골턴이 불러서 회귀분석이다. 데이터 분석에서 가장 중요한 것을 꼽는다면 회귀분석을 이야기할 정도로 중요하고 자주 사용이 된다. 비록 우생학은 개똥 같은 거였지만, 골턴은 자기가 이렇게 유명한 것을 만들지는 몰랐을 것이다.


 이 회귀분석은 모든 연구 논문의 기준이자 핵심이다. 여기서 완성되고 여기서 확대된다. 인과관계를 나타내는 것으로 연구 가설을 만들 수 있고 '이것(독립변수)으로 저것(종속변수)이 변한다.' 예시를 바꾸자면, '교육의지(척도)는 직무성과(척도)를 높여줄 것이다.'가 되는 것이다. 참고로 두 독립변수와 종속변수는 단순한 명목이나, 서열 척도 1개의 질문이 아닌 다문장의 척도로서 비교되는 것이 논문의 기준이다. 정말이지 통계는 한 개로 판단하지 않고 여러 개를 모아서 본다.



 설명이 너무 길어졌지만, 이 통계의 구조와 순서를 알면 어느 분야에도 사용이 가능하다. 영어를 하면 어느 나라에 가서도 말이 통하지 않나? 같은 원리다. 우리의 역할과 전문성을 인정받게 되는 것이다. 아쉽게도 현장의 실무자들은 이 양적 분석을 너무 싫어하는 거 같다. 이런 거를 쓰면 사회복지마인드가 떨어진다고 생각하는 듯도 싶고... 사람을 이렇게 수치화해서 평가하는 것은 안된다고까지 생각하는 것 같다. 유독 공부하려고 하지 않는다고 느낄 정도다. 안타깝다.


 통계 관련 책으로서 사이토 고타츠의 <숫자 감각의 힘>이라는 책에서는 일본의 소프트뱅크의 손정의에 대한 이야기가 나온다.

"성공확률 50%인 사업을 하는 것은 어리석은 짓이고, 성공확률 90%인 사업은 이미 늦은 것이다. 성공확률 70% 정도인 사업을 하는 것이 가장 좋다."라고 말했다고 한다.

여기 주목해야 하는 것은 30%의 실패를 처음부터 감안한 다는 것인데, 실제로 소프트뱅키는 신사업 진출도 빠르지만 철수도 빠르다고 한다. 실패 리스크를 예상하는 것이다. 그리고 역설한다. 미래나 '맞추는 것'이 아니다. '어떤 미래가 오더라도 대응할 수 있는 것'이 훨씬 중요하다고 한다. 나도 크게 동의하며, 덧붙여서 '상황도 사람도 그렇다고' 생각한다.    


 대응할 수 있게 예측하고 준비하는 것이 전문가의 영역이자 역할이다. 우리는 사회과학을 하는 사람이고 비록 사회복지가 문과 쪽이긴 하지만, 정 엄살을 부리고 싶다면 수학에만 약하다고 하자. 사회+과학까지도 약하다고 하면 되겠는가. 사회복지 현장에서 양적 연구에 대한 인력이 정말 없는 덕분에 나만 10년 넘게 잘 우려먹었다. 앞으로 최소 10년, 아니 은퇴할 때까지 우려먹을 생각이다. 나도 안주하지 않고 더 발전하면서 같이 해 먹을 사람을 찾고 싶다.


 "양이 우선이고 질이 다음이다."

 "양이 쌓이면 질적인 변화가 생긴다."

 "그러나 나의 목적은 양이나 질이 아니다."


양(量)을 통해, 질(質)을 넘어서, 격(格)과 급(級)을 만들고자 한다.


*통계의 8단계는 개인 정리를 위해 작성한 것으로 혹여나, 수정 오류가 있으면 언제든 환영합니다!

매거진의 이전글 내가 복지현장에서 조사를 해야 한다고 주장하는 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari