지금까지 우리는 통계의 역할과 중요성 그리고 통계의 잘못된 사례에 대해 알아보았습니다. 그렇다면 진짜 통계를 어떤 방식으로 사용해야 하는지 마지막으로 알아보려고 합니다. 통상적으로는 먼저 올바른 사용 가이드를 설명하고 나서 잘못된 사례를 알려주는 것이 대부분입니다. 하지만, 통계분야는 우리가 인지하지 못하면서도 잘못 이해되고 사용되는 경우가 많습니다. 따라서 먼저 통계를 잘못 사용하는 경우를 먼저 소개하였답니다.
통계의 세부 기술에 대해서는 잘 모르더라도 어떤 점들을 주의해서 보아야 하는지를 먼저 알고 시작해야 한다고 생각했기 때문입니다. 그렇다면 이제 통계를 활용하는 절차 또는 방법에 대해 이야기를 해보려고 합니다. 통계는 정량적인 데이터들로부터 유의미한 값을 뽑아내거나, 설문조사 등을 통해 단순 측량하기 어려운 것들에 대해서 가설을 검증하기 위한 도구입니다.
우리는 조금 더 현명한 의사결정을 할 수 있게 되죠
특히 제가 통계에 대해서 많은 관심을 가지게 된 이유는 통상 사람들이 측량할 수 없다고 생각하는 사회과학적인 현상에 대한 궁금증 때문입니다. 예를 들어 특정한 목적을 가지고 실시한 연수에 대해서 연수 후에 연수 효과를 분석해야 하는 것은 당연합니다. 그런데 이것이 실질적으로는 행해지지 않거나 올바르지 않은 설문지를 통해 왜곡된 정보만을 전달하는 식이었습니다.
단순히 통계에 대해서만 설명하기보다는 조금 더 확장된 개념으로 통계조사연구라는 분야를 응용하여 통계의 활용 가이드를 전달하고자 합니다. 이미 충분한 데이터가 존재하는 경우에는 설문조사 이후 절차부터는 동일하게 진행되기 때문에 확장된 개념으로 설명드리는 것이 활용도가 높을 것 같습니다. 통계 책들은 통계조사 방법에 대해 너무 자세히 설명하거나 통계분석 프로그램 매뉴얼에 대해 집중하더라고요. 먼저 통계의 전반적인 흐름을 아는 것이 먼저이고, 분석기법에 대한 부분은 전문가의 조언을 한 번 더 거치는 것이 좋다고 생각합니다.
요즘 같이 정보의 홍수 속에서 살아가는 우리는 주어진 정보들을 어떻게 활용하는지가 성과를 낼 수 있는지를 결정하는 핵심 요소라고 생각합니다. 우리에게 주어진 정보를 얼마나 효율적으로 다뤄내는지가 바로 자신의 역량으로 인정받게 될 것이며, 이것이 바로 통계를 활용하는 역량과 동일시될 수 있습니다. 통계가 굉장히 파워풀한 도구인 것은 분명합니다. 그렇다면 통계는 어떤 방식으로 활용되어야 하는 것일까요? 우리는 통상적인 통계조사연구를 크게 두 가지 단계로 나눌 수가 있습니다.
첫 번째는 데이터를 수집하는 단계이며, 두 번째는 수집된 데이터를 분석하는 단계입니다.
다시 첫 번째 단계를 세부적으로 설명하자면 ⓵연구 문제를 결정하고, ⓶가설을 형성한 후 ⓷표본을 선정하는 절차를 거쳐 ⓸데이터를 수집하는 것입니다. 두 번째 단계는 ⓹수집된 자료를 분석하고, ⓺이를 검증하여 최종적으로 ⓻통계적 의사결정을 내리는 것으로 구성됩니다. 그렇다면 이제부터 각 단계의 역할과 수행요소들을 조금 더 세부적으로 알아볼까요?
1장 통계조사 설계하기
① 문제가 진짜 문제다?
세상을 살아가다 보면 우리를 고민에 빠지게 하는 문제들은 지속적으로 발생하고, 존재합니다. 한 가지 문제가 해결되면 또 다른 문제가 발생하는 것이 인생이고요. 너무나도 당연한 말을 하고 있나요? 문제가 생기면 해결책을 찾는 것은 당연합니다. 그래서 우리는 해결책을 찾기 위해 통계를 사용하는 것이니까요. 그런데 이 문제라는 것이 생각보다 굉장히 중요합니다.
소위 말해서 첫 단추를 올바로 끼우지 못하면 옷의 단추를 제대로 끼울 수 없는 것처럼 문제를 정확히 정의하는 것은 매우 매우 중요합니다. 빌 클린턴 전 미 대통령이 선거에서 아버지 부시 대통령을 이기고 당선될 때 캐치 프라이즈가 “바보야 문제는 경제야!!”였다고 합니다. 즉 정확한 문제를 정의하는 것은 세계에서 가장 큰 영향력을 발휘하는 국가의 대통령을 결정지을 만큼 중요하다는 예시입니다.
해당 문제가 어떤 의미를 가지는 것인지 충분히 고민하고, 또한 경험적인 연구를 통해서 다루어질 수 있는 것인지 검토하는 절차를 거쳐야만 합니다. 해당 문제를 분석하고 해결책을 찾는 것이 새로운 지식을 제공할 것인지, 또한 실질적인 면에서 어떤 결과를 가져올 것인지 등을 충분히 고려해야만 합니다.
② 문제로부터 가설을 수립한다.
문제가 결정된 이후에는 가설을 수립하는 것이 그다음입니다. 통상적으로 가설이란 것은 통계 분석을 통해 밝혀내고자 하는 둘 이상의 변수들의 관계를 설명하는 명제들이라고 합니다. 기존에 존재하는 이론으로부터 가설을 수립할 수도 있고, 어떤 경험적으로 알게 된 것들로부터 가설을 수립할 수도 있습니다. 훌륭한 가설이란 변수들 간의 관계를 정확하게 설명하는 것이 첫째이며, 둘째는 가설을 통해 검증된 사실이 문제의 답을 제시해야 한다는 점입니다.
예를 들어서, 최근 사내에 새로운 교육 프로그램이 도입되었습니다. 이 프로그램이 최초 교육의 목적대로 실질적인 효과를 내고 있는지 검증은 당연히 필요한 절차입니다. 안타깝게도 실제로 회사에서는 이런 절차가 무시되고 있는 것이 현실입니다. 담당자의 의지 부족과 관련 지식 부족으로 가능하다는 것조차 모르는 것이 정말 속상할 정도입니다. 그렇다면 우리가 생각하는 문제는 ‘교육 프로그램이 직원의 실력 향상에 실질적으로 기여하는가’라고 정의할 수 있습니다.
그렇다면 여기에서 우리가 세울 수 있는 가설은 ‘신설 교육 프로그램은 직원 역량을 향상한다’라고 할 수 있습니다. 반대로 ‘신설 교육 프로그램이 직원 역량을 향상하지 못한다’고 가설을 수립할 수도 있습니다. 전자는 연수 진행 부서의 관점일 것이며, 후자는 예산 담당 부서의 관점으로 볼 수 있습니다. 그리고 제가 회사에서 갖고 있는 관점은 후자에 해당하는 것입니다.
③ 가설을 증명할 수 있도록 변수를 정의하라
문제를 정의하고, 문제로부터 가설을 수립하고 나면 우리는 이제 가설로부터 변수들을 뽑아내야만 합니다. 결국 변수들 간의 상관관계, 즉 개연성으로부터 우리는 가설의 옳고 그름을 판단해 내는 것입니다. 다소 추상적일 수 있는 문제와 가설에서 실제로 측정 가능하도록 개념을 변수로 만들어내는 작업이 필요한 것입니다. 측정이 불가능하다면 변수로 만들어 낼 수 없게 되고 우리는 개연성을 밝혀낼 수도 없는 것입니다.
추상적인 개념을 구체적인 수치로 표현할 수 있도록 하는 과정이 필요하답니다. 앞서 예로 들었던 신설 교육프로그램과 직원의 역량을 예로 들어 보겠습니다. 신설 교육 프로그램은 교육 시간, 교육 강사, 교육 장소, 교육 시점 등의 변수가 존재할 것입니다. 교육 프로그램을 구성하고 있는 요소들이라면 어떤 것들도 변수로서 작용할 수 있을 것입니다. 이중에서도 우리는 조금 더 궁금하고 중요한 요소들을 변수로 결정하게 됩니다. 만약 예산 관리자 입장에서는 추가 비용이 발생하는 강사 부분이 중요 변수로 결정되어야 할 것입니다.
한편, 직원의 역량에 대한 변수는 업무지식, 마인드 변화, 교육 만족도 등이 될 수 있습니다. 만족도는 여러 가지 의미로 표출될 수 있겠지만 만족도가 높으면 교육 몰입도 또한 높을 것이고, 교육의 효과도 자연스럽게 높지 않을까요? 다소 추상적인 개념을 구체적인 숫자로 변환하는 과정으로서 변수를 만들어내는 방법은 조금 더 공부를 해야 할 필요가 있을 것 같습니다.
변수를 구성하고 나면 실제로 이를 수치화하기 위해서는 다시 한번 수준(level)을 부여하는 과정을 거쳐야만 합니다. <커뮤니케이션 통계방법>에 보면 측정 수준을 명목 수준, 서열 수준, 등 간수 준, 비율 수준과 같이 네 가지로 분류하고 있습니다. 변수를 정의하고 나서도 측정을 통해 추상적인 개념을 구체적인 값으로 수치화하는 과정을 거쳐야만 질문에 대한 해답을 우리는 얻어낼 수가 있게 됩니다.
1. 명목 수준 : 성별, 종교, 출신 대학, 전공 등과 같은 특정한 정보를 자의적으로 부여
2. 서열 수준 : 군대 계습, 색깔, 심리적 상태 등 선택문항 간에 서열이 있으며, 선택문항 간에 차이는 동일하지 않아서 사칙연산이 불가. 대소의 값을 제공
3. 등 간수 준 : 대표적 예로 온도가 있으며 산술적 가치를 가진 데이터를 제공, 숫자 간 간격이 동일하며 0점을 갖지 않음
4. 비례 수준 : 연령, 소득, 교육연수 등과 같이 등간수준의 특성에 0점을 추가로 보유
2장 데이터 수집
④ 조사 대상 선정
어떤 사람을 통해서 우리가 원하는 정보를 얻어낼지 결정하는 것은 매우 중요합니다. 실제 업무 중에도 이 부분을 간과하는 경우가 많았습니다. 실제 데이터를 얻어내기 쉬운 사람들만을 대상으로 조사가 이루어지는 경우가 많았는데, 당연히 이는 우리가 얻고자 하는 정확한 정보를 제공할 수가 없습니다. 가장 중요한 것은 우리가 조사하려는 대상이 우리의 문제를 해결하기에 적합한 대상인지입니다. 대부분 조사에서는 우리는 경제적, 시간적 문제로 인해 전수조사보다는 표본 조사를 수행하게 됩니다.
즉, 전체를 대표하는 표본을 통해 가설을 검증하고, 유의미한 값을 얻어내고자 하는 것입니다. 실질적으로 전수조사가 표본조사보다 더 정확하다고 볼 수도 없다고 합니다. 우리가 가장 쉽게 접하는 표본조사는 선거 후 출구조사를 통한 당선자 예상 분석일 것입니다. 최근 몇 년 전부터 언론사의 출구조사는 상당한 정확도를 보이기도 하고, 몇몇 지역에서는 출구조사를 뒤엎는 결과가 연출되기도 합니다.
통계에서는 대수의 법칙이 있습니다. 대수의 법칙은 “우리가 웬만큼만 조사를 하면, 전체 대상의 수에 관계없이 전체 대상에 대해 충분히 우수한 예측이 가능하다”는 것입니다. 표본조사의 중요성을 알려주는 대표적 사례로 1936년 미국 대통령 선거의 사례가 흥미롭습니다. 당시 공화당의 랜던 후보와 민주당의 루스벨트 후보의 대결에서 모든 여론조사 기관들은 루스벨트의 승리를 점치고 있었다고 합니다.
하지만 <리터러리 다이제스트>라는 잡지사가 1천만 명의 유권자에게 설문지를 우송한 뒤 약 240만 명에게 응답을 회수했는데, 랜던 후보가 57%의 지지율로 승리할 것이라는 결론을 내렸습니다. 그러나 실제 결과는 민주당의 루스벨트 후보가 압도적인 승리를 거두었답니다.
당시 다이제스트는 설문조사 대상으로 1천만 명을 선정하기 위해 정기구독자, 자동차 등록부, 대학 동창회 등을 활용했다고 합니다. 이들의 공통점은 당시 기준으로 부유층에 해당한다는 점이었습니다. 1936년은 미국 대공황의 여파로 경제 불황이 심해 민주당은 세금을 많이 걷고자 하는 정책을 주장해 부유층으로부터 외면당하는 분위기였습니다. 따라서 다이제스트가 선정한 1천만 명에게는 루스벨트의 당선이 불편하게 느껴질 수밖에 없었습니다.
다이제스트는 당시 설문조사로 인해 폐간에 이르렀다고 합니다. 대표성이 없는 표본은 그 크기가 아무리 크더라도 모집단의 특성을 올바르게 예측할 수 없습니다. 최근 미 대선에서 여론조사에서 줄곧 앞서던 민주당의 힐러리 후보가 지금은 대통령이 된 트럼프에게 선거에서 패배한 것은 여론조사의 맹점을 보여주는 것입니다.
조사 대상을 선정하기 위해서는 반드시 사전 정보 파악이 필요합니다. 그렇지 않으면 매번 조사를 실시할 때마다 편차가 큰 결과를 얻을 확률이 매우 높습니다. 통상 우리는 주위의 아는 사람 또는 아는 사람의 사례로 정보를 얻는 경우가 많습니다. 그렇기 때문에 우리는 흔히 일반화의 오류를 범하게 되는 것입니다. 예를 들어서 은행은 업무 특성상 급여일, 세금 납부일, 월말 등이 대체로 바쁜 시기입니다.
소비자 만족도를 담당하는 부서에서 특정 업무가 정기적으로 집중되는 일자가 고객만족도에 미치는 영향을 조사하려고 합니다. 이런 조사는 응답자도 조사자도 여유가 있는 시간에 행해지는 경우가 많을 것입니다. 그렇다면 설문 결과는 업무 지연에 별 차이가 없다는 결과가 나올 확률이 높습니다.
오히려 원래 바쁜 시간대와 특정 혼잡 일의 바쁜 시간대의 만족도를 비교하는 것이 더 유의미한 정보를 줄 수 있지 않을까요? 아니면 시간대와 날짜별로 구분하여 설문을 실시하는 등 기획 단계부터 명확한 기준을 정해야만 합니다. 침묵하는 다수의 의견까지 포함하기 위해 전체를 대표하는 표본을 올바르게 선정하는 것이 중요합니다.
표본조사를 실시하는 경우는 당연히 표본이 전체의 대표성을 갖는 것이 가장 중요할 것입니다. 이를 위해서 표본조사의 규모를 결정하고, 어떤 성질을 가진 표본을 선발하는지가 매우 중요할 것입니다. 얼마 전 모 부서에서 전수조사 형태의 설문조사 결과를 가져왔습니다. 다만 조사방식은 전수조사 의뢰를 하였는데 결과는 자발적으로 설문에 응한 특정 대상의 답변을 가지고 사업 타당성을 검증받고자 하는 경우가 있었습니다.
약 8천 명의 전수조사 대상자 중 250명의 자발적 응답자가 전체를 대표한다고 볼 수 있을까요? 이 설문조사는 전수조사와 표본조사의 기본 개념조차도 모르고 실시한 것입니다. 안타깝게도 통계에 대한 지식 부족으로 사용할 수 없는 설문조사 결과였습니다. 표본이 잘못 설정되면 당연히 전체를 대표할 수 없는 왜곡된 결과가 나올 수밖에 없습니다. 콩 심으면 콩이 나고, 팥을 심으면 팥이 나는 것입니다. 그런 의미에서 표본 추출이야말로 다시 한번 강조해도 부족함이 없는 절차입니다.
⑤ 데이터 수집(설문조사 실시)
수치화할 수 있는 데이터는 문제를 정의하고, 가설을 수립한 이후에 바로 계량분석에 들어갈 수 있습니다. 하지만 사회과학적인 현상들은 별도의 절차를 거쳐 데이터를 만들어 내야 합니다. 통상적으로 이런 경우에 우리는 설문조사를 실시하게 됩니다.
대학교에서 매년 실시하는 대학 평판도 조사나 직장 내 만족도 등이 이에 해당합니다. 설문조사를 만드는 것도 상당한 수준의 전문적 지식이 필요하다는 사실을 사람들은 거의 모르고 있습니다. 실제로 설문조사를 실시했다고 가져온 결과물들을 보면 질문이 다음과 같습니다.
(Q) 해당 교육에 만족하십니까?
(1) 예 (2) 아니오
우리나라 사람들은 특히 매우 관대한 성향을 갖고 있습니다. 자신에게 직접적인 피해가 오지 않으면 싫은 말을 하는 것을 좋아하지 않습니다. 위와 같은 방식의 설문조사를 실시하면 (1)에 응답하는 비율이 과반수를 훨씬 상회하는 것입니다. 물론 설문조사 결과가 사실은 맞습니다만 우리가 원하는 의사결정에는 사용할 수 없는 결과만이 도출될 뿐입니다. 앞에서 설명했던 바와 같이 무엇이 문제인지, 가설이 필요한지 등에 대한 개념이 전혀 없는 실무자가 실시한 설문조사는 너무나도 안타깝지만 아무 쓸모가 없는 데이터입니다.
즉, 통계에서 중요한 유의미한 값을 만들어내지 못하는 데이터입니다. 설문조사는 사전에 문제의식을 기반으로 수립된 가설로부터 시작되는 것입니다. 가설에서 우리는 변수들을 추출해내고 이를 통해 콘셉트를 만들어 냅니다. 앞의 예시에 따라 교육의 변수 중 하나인 강사와 만족도 지표인 실무에 유용한 지를 문항으로 만드는 것입니다.
(Q) 교육 강사는 실무에 유용한 강의를 하였습니까?
(1) 매우 그렇다 (2) 그렇다 (3) 보통 (4) 아니다 (5) 매우 아니다
이를 통해서 우리는 강사와 실무적 용성에 대한 개연성을 검증해 낼 수 있게 되는 것입니다. 또한 설문조사는 설문 응답자의 진정성을 검증하는 문항을 만들어 내야 합니다. 예를 들어서 양의 질문을 그대로 음의 방식으로 표현해서 같은 수준의 답을 하는지 검증하는 것입니다. 설문조사는 전문가의 손길이 필요한 영역입니다. 항상 강조하고 싶은 것은 모르면 경험이 풍부한 전문가를 조언을 구해야만 합니다. 통계 조사 분야는 절차상 하나라도 잘못된다면 설문 자체를 훼손시켜 버리기 때문에 쉽게 넘어갈 수 있는 분야가 없습니다.
대부분의 사람들이 통계 전공자가 아니고, 설문을 작성해본 적이 없기 때문에 가장 많은 실수를 하는 부분이 설문 문항 작성입니다. 제가 이 장을 통해서 알려드리고 싶은 것은 설문지 작성이 전문적 지식이 필요한 부분이라는 것입니다. 그것을 모르고 설문지를 작성한다면 실수를 반복적으로 하게 됩니다. 그리고 여러분이 만든 설문지를 통해 만들어진 통계 자료는 결코 원하는 목적을 달성해줄 수 없을 것입니다. 협상 상대를 설득할 수 없으며, 올바른 의사결정을 위한 도움을 줄 수가 없습니다.
3장 통계적 의사결정
⑥ 데이터 분석
이제 우리는 맛있는 요리를 준비할 수 있도록 재료도 준비했고, 손질까지 마친 상태입니다. 이제는 잘 준비된 재료를 실제로 직접 요리할 일만 남아 있답니다. 설문조사의 데이터를 분석하는 방법에는 빈도 분석, 신뢰도 분석, 평균 비교 등 다양한 방법이 존재합니다. 먼저 신뢰도 분석이란 응답자들이 다르게 표현되었지만 동일한 의도를 가진 질문에 대해서 일관된 답변을 했는지 분석하는 것입니다.
빈도 분석, 일관성이 필요
이를 통해 응답자의 일관성을 파악하고, 설문 결과를 사용할 수 있는지 결정하게 됩니다. 빈도 분석은 말 그대로 1차적인 답변을 통해 최다빈도 응답과 최저 빈도 응답 등 응답 빈도의 크기를 통해 변수 간의 상관관계를 얻어내는 것입니다. 주어진 데이터들을 분석하는 방법은 매우 다양한데, 우리가 얻고자 하는 결과와 환경에 따라서 적합한 분석 방법을 사용하는 것이 중요합니다.
실제 데이터 분석 기법에는 교차분석, t-검정, 상관관계 분석, 회귀분석, 분산분석 등 다양한 방법들이 있다고 합니다. 여기에서 어떤 분석 기법을 선택하여 사용할 것인지는 연구주제나 변수들에 따라서 달라질 수가 있습니다. 다만, 이 책에서 해당 분석 기법들까지 설명하는 것은 책의 목적을 넘어서는 부분이기 때문에 관련 내용은 심화된 분야의 통계 책들을 통해서 학습해보시기를 권해드립니다.
신뢰도와 타당도
신뢰도와 타당도는 우리의 통계조사자료가 올바르게 사용될 수 있는지를 측정하는 두 가지 주요 방법입니다. 신뢰도는 시간의 경과에 따라 반복적으로 사용하더라도 거의 동일한 결과를 도출할 수 있는지 여부를 판단하는 값입니다. 또한, 타당도라는 것은 연구자가 측정하고자 하는 것을 실제로 정확하게 또는 적합하게 측정하는지를 정의하는 것입니다.
조금 이해하기 어려울 수도 있는데, 신뢰도가 측정의 수치적 검증을 의미하며, 타당도는 추상적인 개념을 측정도구가 논리적으로 타당하게 측정했는지를 판단하는 것입니다. 예를 들어 사 격지에 사격을 하고 난 후에는 네 가지 결과지가 발생했다고 가정해 보겠습니다.
표적지의 일부분에 넓게 분포 => 낮은 신뢰도 & 낮은 타당도
표적지의 전체에 넓게 분포 => 낮은 신뢰도 & 보통 타당도
표적지의 구석에 좁게 분포 => 높은 신뢰도 & 낮은 타당도
표적지의 중심에 좁게 분포 => 높은 신뢰도 & 높은 타당도
타당도란 것은 우리가 원하는 것을 측정하기 위해 해당 도구가 적절한 방법인가를 증명하는 것이므로, 사격의 경우는 중심부에 사격 값이 몰려 있으면 타당도가 높은 것입니다. 신뢰도란 것은 반복적인 활동에 유사한 값을 나타내야 하는 것이므로 사격 값이 한쪽으로 몰려 있어야 신뢰도가 높은 것입니다. 이렇듯이 신뢰도와 타당도를 통해 우리는 측정도구가 적절하게 측량 값을 산출해내었고, 이 정보들을 활용해도 되는지를 알 수 있게 되는 것입니다.
비교 그리고 관계
우리가 어떤 상황에 대한 해석을 내릴 때는 대조군을 활용하는 방법이 매우 유용합니다. 예를 들어서 특정 교육을 실시한 사람의 실력이 실제로 향상되었는가를 판단하려면, 해당 교육을 받은 사람과 그렇지 않은 사람들의 실력 변화를 대조해보면 되는 것입니다. 이렇듯이 인과관계를 분석하는 것이야말로 통계의 묘미라고 할 수 있습니다. 그런데 여기에는 각 변수들의 관계가 실제로 어느 정도 수준의 상관성이 있는지를 이해해야만 합니다.
예를 들어서 앞서 표현한 것처럼 최근 업무 실력이 향상한 A 계장이 최근 교육연수를 받았습니다. 그러면 이는 연수를 통해 실력이 향상되었다고 할 수 있을까요? 현재로서는 연수를 받았기 때문에 실력이 향상되었다고 단정 지을 수는 없습니다. 또한 물이 100도씨가 되어야만 끓는 것처럼 평소 99도까지 온도가 상승되듯이 노력을 한 경우에 연수는 1도씨의 온도 상승효과를 유발한 것일 수도 있습니다.
이를 임계점이라고 하는데, 특정 시점을 전후하여 효과가 급격히 달라질 수 있습니다. 또한 실력 향상에는 여러 가지 인자들이 영향을 미치게 됩니다. 그렇기 때문에 어느 한 가지 인자만이 그것의 직접적 영향인 것처럼 해석하는 것은 오류일 수 있습니다. 업무가 향상되는 것과 시험을 잘 보는 것은 다를 수 있습니다. 연수 자체는 시험성적 향상에는 도움을 줄 수 있을 것입니다. 하지만 연수가 업무 향상에 얼마나 영향을 미치게 될지에 대해서는 생각해 볼 필요가 있습니다.
두 변수 사이의 관계를 의미하는 상관관계는 지표상으로 –1에서 1 사이의 값을 갖게 됩니다. 두 변수가 반비례관계가 성립하면 음의 값이, 비례관계가 성립하면 양의 값이 나타나게 됩니다. 또한 상관계수가 0이면 둘 사이에는 아무런 관계가 없다는 것을 의미합니다. 통계학에서 상관계수를 계산하게 되는데 이 말이 둘 사이에 반드시 인과관계가 성립한다는 것은 아니기 때문에 주의해야 합니다.
예를 들어 경제상황과 치마 길이라는 지표가 언론에서 가끔 소개가 되는데요. 즉 경제상황이 어려우면 치마 길이가 짧아진다는 것입니다. 이 둘은 단시 현상일 뿐이지 반드시 한쪽이 원인이고, 다른 한쪽은 결과라고 말할 수는 없습니다. 현실적으로 두 변수가 인과관계를 가지려면, 원인이 결과보다 먼저 발생해야 하고, 서로 관련이 있으며, 결괏값은 원인 값에 의해서만 설명되어야 합니다. 영향을 미치는 다른 지표가 존재하지 않는지를 검증해보아야만 합니다. 상관관계와 인과관계의 차이를 명확히 이해하는 것이 중요합니다.
통계의 분석에는 전체적인 경향과 개별적 특성을 동시에 파악하는 것이 중요합니다. 우리가 통계를 공부하는 이유는 불확실성이 높은 상황에서도 가장 최적화된 의사결정을 하기 위해서입니다. 확률은 전략가의 필수 덕목이라고 합니다. 우리는 학창 시절 직간접적으로 통계학을 배웠지만, 실제로 일상생활이나 업무에서 이를 적절하게 활용하는 경우는 매우 드문 것이 현실입니다.
이는 우리가 기본적으로 수학을 어렵게 생각하고 거부하는 것에서 기인할 수도 있습니다. 통계학 교재를 펼치면 마음을 답답하게 하는 수많은 수학공식으로 가득 차 있는 것을 알 수 있기 때문입니다. 하지만 우리가 통계적 마인드를 갖고 살아가야 하는 것은 더 이상 피할 수 없는 일입니다. 더불어 통계적 조사연구와 이를 기반으로 한 의사결정 툴에 익숙하다면 우리는 협상에서 우위를 점할 수 있습니다.
특히 우리가 일상적으로 접하는 상황들은 복잡한 사회현상과 연관된 경우가 대부분입니다. 그렇기 때문에 통계분석의 가설 수립, 표본 설정, 데이터 수집, 통계분석의 절차를 올바로 배우고 응용할 필요가 있는 것입니다. 복잡한 통계 이론을 배우는 것은 어렵지만, 통계의 기본적 지식들과 흐름을 아는 것은 분명 투입 시간 대비 많은 것을 얻을 수 있는 것임이 분명합니다.
<통계활용 가이드>
1. 데이터를 수집하는 단계
⓵ 연구 문제를 결정 ⓶ 가설을 형성 ⓷ 표본을 선정 ⓸ 데이터를 수집
2. 수집된 데이터를 분석하는 단계
⓹ 수집된 자료를 분석 ⓺ 분석을 검증 ⓻ 통계적 의사결정