응용통계학과 멘토가 아주 쉽게 소개하는 통계학과의 모든 것!
여러분 안녕하세요. 에드캠퍼스 칼럼멘토단 멘토 이상화 입니다. 요즘 뉴스나 신문을 보면 빅데이터, 4차 산업혁명,사물인터넷, 데이터사이언티스트 등 다소 생소하지만 중요하다고 강조되는 단어들이 자주 등장하는데요, 이것들을 유심히 살펴보다 보면 이 모든단어를 관통하는 하나의 키워드가 있습니다. 바로 ‘통.계.학’ 입니다.
그렇다면 그 ‘통계학’은 대체 무엇일까요? 백과사전에 통계학이란 ‘불확실한 현상을 대상으로 자료를 수집, 정리 및 분석하여 모형을 설정하고 예측, 추정 및 검정 하는 학문’ 이라고 나와있네요. 단순히 이런 정의만 봐서는 잘 모르겠죠?
그래서 응용통계학과에 재학중인 멘토로서, 여러분께 아래3가지 일상적 예시를 통계학적으로 풀어보면서 통계학과에 진학하면 무엇을 배우고, 통계학을 전공한다면 어떤일들을 해결하는지에 대해서 간단하게 설명해 드리면서 진로선택이 고민이신 분들께 자그마한 도움이 되고자 합니다.
미국의 법원 시스템은 배심원 제도 를 근간으로 하고 있습니다. 따라서 재판과정에서 배심원의 공정성, 객관성이 매우 중요한 문제라고 할 수 있지요. 이와 관련해서 통계학의 ‘가설검정’ 이라는 개념과 관련있는 흥미로우나, 다소 우울한 예시가 하나 있습니다.
1950~60년대 미국은 흑백갈등이 매우 심한 상황이었습니다. 이 당시 배심원 제도 역시 흑백차별이 심하다는 문제점이 제기되었습니다. 이론적으로 배심원은 자격이 있는 시민중에서 ‘무작위’ 로 선정이 되는데, 인종차별이 심한 미국 남부의 경우 흑인배심원이 거의 없었다고 하네요. 그래서 일부 피고가 이에 이의를 제기하였고, 한 통계전문가가 이 문제에 대해서 논리적으로 증언했다고 합니다.
1. 자격이 있는 시민 중 약 50%가 흑인이었다.
2. 배심원 명부에 등재된 80명 중 4명만 흑인이었다.
3. “80명 중 흑인이 4명만 뽑힌 것은 우연이다” 라는 가설을 세운다.
4. 만약 배심원 명부 선정이 무작위었다면, 전체 80명 중 흑인이 뽑힐 확률은 0.5 이다.
5. 이항분포(고등학교 교육과정 ,확률과 통계)에 의거, 80명 중 흑인 4명만 배심원이 될 확률은 약 0.0000000014% 이다. 따라서 무작위 선정이라 할 때, 흑인이 4명만 뽑힐 확률은 거의 0%임으로 가설은 틀렸다고 할 수 있습니다.
어떠신가요? 추상적인 ‘인종차별’ 이라는 문제를 객관적인 숫자와 통계적 추론을 이용해서 풀어본 예시입니다.
얼마전에 대통령 선거 때문에 매일 뉴스에선 여론조사 결과를 공표했는데 혹시 기억나시나요? 그렇다면 여론조사에는 누가 응답하는 것인지 생각해 보신 적 있으신가요? 유권자 모두가 응답하는 것일까요? 당연히 그건 아니겠죠? 한국만 해도 3000만명이 넘는 유권자가 있는데 매번 여론조사때 마다 3000만을 조사할 수는 없겠죠?
그래서 많은 여론조사 기관에서 쓰는 방식이 ‘층화추출’ 이라는 통계적 툴(TOOL) 입니다. 층화추출이란 모집단, 즉 전체 유권자를 , 성질이 같은 그룹으로 분류한 다음(나이대, 지역, 소득수준, 학력 등) 각 그룹(층)에 대하여 단순 무작위 추출법으로 샘플을 추출하는 방식을 말합니다.
여론조사를 다룬 뉴스를 보면 ‘행정안전부 발표 주민등록인구통계 기준으로 가중치 부여’ 라는 문구를 보실 수 있으실 건데요. 이말은 여론조사를 할 때 행정안전부의 주민등록 인구통계 에 따라 지역별로, 나이 별로 표본수를 가중하여, 즉 층화추출을 통해 전체 유권자의 의사를 최대한 반영하고자 했다는 의미를 가지게 되는 것입니다.
간단한 예를 들어, 전체 유권자를 10^6(백만)명이라고 하고, 주민등록 상 서울에 거주하는 유권자가 2*10^5(20만)명, 그 중 20대 유권자가 3*10^4(3만)명 이라고 가정해보겠습니다.
여론조사를 할때 1000명을 추출할 계획이라면, 서울에 사는 20대 유권자의 의사를 알기 위해선 (30000/1000000 x 1000 = 30) 즉 30명의 서울거주 20대 유권자의 의견만 조사하면 모든 서울거주20대 유권자의 의사를 알 수 있다고 하는 것이죠.
만약 층화추출이라는 통계적 툴 없이 그냥 무작위로 여론조사를 한다면 유권자 전체의 의사를 반영하는 것은 불가능하겠죠?(지역이나 나이대별로 편향될 가능성이 매우 많이 때문). 혹은 정말 모두의 의사를 알기 위해서 유권자 전체를 조사한다면 그 시간과 비용은….어마무시 할 것입니다.
정확성을 유지하면서 시간과 비용을 다 절약할 수 있는 통계학, 많이 유용하죠?!
여론조사결과를 알려주는 뉴스를 보면 ‘표본오차 : 95% 신뢰수준, ±3.1%포인트’ 항상 이런 문구가 있습니다. 혹시 저 ‘신뢰수준’이라는 말과 ‘표본오차’라는 말의 의미가 어떤것인지 잘 알고 계신가요?? 우선 간단히 예를 들어 보겠습니다.
한국에 있는 모든 MARVEL 팬을 대상으로 캡틴 아메리카와 아이언맨 중 누가 더 좋은지 여론조사를 한다고 합니다. 만약 마블팬이 10만명이라면, 10만명 모두를 조사할 수는 없으니 위의 층화추출 방식을 이용하여 1000명을 뽑아 조사를 한다고 합니다.
이 여론조사에서 600명이 캡틴을 좋아한다고 대답하였습니다. 그렇다면 이 여론조사는 100% 믿을만 할까요? 층화추출을 해서 마블팬들의 분포를 최대한 반영했다고 해도, 10만명 중 단 1000명만 뽑았는데 정말 10만명의 의사를 반영했다고 할 수 있을까요??
완벽하게 반영했다고는 말할 수 없어서 도입한 것이 ‘신뢰수준’ 입니다. 10만명의 의사는 정해져 있다고 할때, 위의 “95% 신뢰수준”의 의미는 ‘여론조사가 모든 마블팬을 조사한 결과와 상응할 확률이 95%라고 통계학자들은 자신있게 이야기 할 수 있다’ 라는 것입니다. 또한 이와 같은 여론조사를 100 반복한다면, 그 결과들이 진짜 결과와 동일한 수준이 될 경우가 95번이라는 말과 같은 의미입니다.
그렇다면 표본오차는 무엇일까요? 여론조사가 모든사람의 의사를 조사하는 것이 아니라 샘플을 뽑아서 하는것이기에 완벽할 수는 없겠죠? 따라서 실제 결과와 조사한 결과사이에 약간의 오류가 발생할 수 있는데요, 그것이 표본오차라고 합니다. 즉 마블 여론조사가 “표본오차 +- 3.1%”라고 한다면, 여론조사 상 캡틴의 호감도는 60%이지만, 실제 10만명 모두의 의사는 60%에서 오차+-3.1%를 반영해서, (56.9~ 63.1%) 이렇게 나올수 도 있다는 것입니다.
만약에 여론조사에서 캡틴을 510명, 아이언맨을 490명이 좋아한다는 결과가 나왔다면 어떻게 될까요? 캡틴이 51%로 앞서긴 하지만, 표본오차를 반영하면 (47.9~54.1%), 아이언맨은 (45.9~52.1%)임으로 표본 오차 내에서 둘의 호감도는 우위를 가리기 힘들다고 할 수 있습니다. 즉 이 경우는 여론조사만으로 누가 더 좋은지를 말하기는 힘들다는 것이지요.
어떠신가요? 저런 예시들을 통해서 통계학과에 가면 어떤 것을 배우는지 약간의 감이라도 잡히셨나요? 이러한 예시들 외에도 통계학은 의학, 교육, 경제, 심리 등 매우 많은 분야에서 필수적으로 쓰이고 있는 아주 유용한 tool 입니다. 즉 본인이 관심있는 분야만 있다면 통계학을 이용해서 그 분야에서 두각을 나타낼 수 있기 때문에 학과고민이 있는 친구라면 통계학을 적극 권장합니다.
물론 수학을 매우 많이 하고, 잘해야 하며 프로그램도 잘 다루어야 합니다. 그리고 학업량도 매우 많고 전문가가 되기 위해선 기본 석사과정을 밟고 실무도 오랜기간 해야하기 때문에, 매우 힘들지만 그만큼 다양한 분야에 접목이 가능하다는 점에서 매력적인 분야인 것은 맞습니다.
지금까지 통계학과 재학생이 들려주는 통계학과의 솔직한 얘기들이었습니다. 많이 부족하고 미진하지만 여러분의 진로선택에 조금이나마 도움이 되셨으면 좋겠습니다. 감사합니다.
본 칼럼은 ©TENDOM Inc.과 한국청소년재단이 함께 운영하는 '애드캠퍼스 온라인 칼럼멘토단' 소속 대학생 멘토가 대한민국의 청소년들을 위해 들려주고 싶은 이야기를 담은 글입니다. 글의 내용은 운영기관의 공식의견이 아니며, 일부 내용은 운영기관의 의견과 다를 수도 있음을 밝힙니다. 칼럼은 출처를 밝히는 한 자유롭게 스크랩 및 공유가 가능합니다. 다만 게재내용의 상업적 재배포는 금합니다, 감사합니다.