가설 검증을 직관적으로 이해하기
학위논문의 주요한 한 형태는 가설을 세운 뒤 이를 높은 확률로 기각하여 새로운 지식을 생산하는 것이다. 사실 가설을 세워 지식을 정리해 가는 방식은 단순히 학문적인 영역 뿐만이 아니라 사업 등 현실적인 영역에서도 상당히 강력한 도구로 사용할 수 있다. 따라서 학위 전이나 후에도 이런 과학적 도구에 대해 지속적으로 관심을 주고 적용을 한다면 학위 과정을 효율적으로 완수할 수 있을 뿐만 아니라, 반드시 연구직에 종사하지 않는다고 하더라도 학위 취득을 통해 습득한 역량의 정수를 잘 활용하여 높을 성과를 낼 수 있으리라 생각한다. 이번 글에서는 직관적인 이해가 가능하도록 예를들어 한 번 설명을 해 보겠다.
한 부모가 있어 멀리 떨어져 살고 있는 딸이 평균 시속 100킬로미터로 운전해서 귀향하겠다고 전화가 왔다고 가정하자. 마침 집이 정확하게 100킬로미터 거리여서 예상 소요시간이 1시간이 되는 상황이다. 또한, 그 부모는 워낙 해당 길을 잘 알고 우연히 통계 천재라서 이런저런 돌발적인 상황을 고려해 직관적으로 소요시간의 표준편차를 계산할 수 있다고 가정하자. 예를들어 길이 막히는 구간이 있어 다른 길을 선택한다던가 한다면 아무리 평균 100킬로미터로 운전해도 절대거리가 늘어날테니깐 말이다. 이렇게 평균과 표준편차를 알고 대충 정규분포 비슷하다고 가정하면 다음과 같은 그림이 나올 것이다 (아이폰으로 글 쓰면서 손가락으로 간단하게 그림).
이러한 정보들을 바탕으로 부모는 다음과 같은 가설을 세울 수 있다 - 우리 딸이 시속 100킬로미터로 운전해서 온다면 여러 돌발상황이 벌어지더라도 95%의 확률로 50분에서 70분 뒤에는 도착할 것이다. 표준편차를 알기 때문에 대충의 분포를 알 수 있고 분포에서 면적이 95%가 되는 구간이 바로 그 구간이 되는 것이다 (위 그림 참조). 부모는 계속 기다렸고 결국 딸은 75분이 지난 시점에 도착했다. 즉, 예상했던 소요시간 60분에서 15분 늦었고 95% 확률로 기대했던 구간의 오른쪽 끝 70분에서 5분 더 늦게 되었다. 부모는 어떤 결론을 내릴 것인가? 우선 가장 논리적인 결론은 딸이 시속 100킬로미터로 오지 않았다는 것이다. 적어도 95%의 확률로 그렇게 믿을 것이다.
그렇게 믿지 않으려면 본인의 기존 지식이나 가정이 틀렸다고 생각해야 한다. 실제로, 본인이 생각한 표준편차가 직접 운전 당시에 관찰된 것이 아니기 때문에 생각 못한 변이가 발생했을 수 있다. 중간에 평소에 없던 공사가 있었을 수도 있고, 다른 차량에 차사고가 나서 아예 정지된 채 한참을 서 있었을 수도 있다. 심지어 가벼운 접촉사고가 나서 명함 주고 받느라 지체 되었을 수도 있다. 이렇게 부모 입장에서는 걱정될 만한 일이 발생했을 수도 있을터라, 딸에게 오는 길에 별 일은 없었는지 물어 볼 만한 일이다. 별 일이 없었다고 답한다면 애초에 내렸던 결론에 대한 확신은 더 굳어질 것이다. ‘평균 시속 100킬로미터로 운전해 오지는 않은 것이다’ 라고.
반면에 저런 사고는 아니더라도 그 사이에 큰 쇼핑몰이 오는 길 가에 생겨 수시로 교통체증이 생기게 되었다면 딸은 “오늘 길에 큰 쇼핑몰이 들어서서 없던 교통체증이 생겼더라고요. 그래서 네비게이션 시키는대로 약간 돌아서 왔어요” 할 것이다. 그렇다면 부모는 머리속으로 정체에 따라서 실제 운전거리가 늘어나는 등의 영향으로 인해 평균과 표준편차를 더 크게 잡아 앞서 제시한 구간을 좀 더 넓게, 예를들어 50에서 80으로 조정할 수도 있는 것이다. 이와같이 가설 검증의 방식이란 직관적으로 누구나 평소 사고에 적용할 만한 것이며, 위의 일상적인 예에서는 주요 통계 개념을 명시적으로 사용하여 그 적용성을 부각하고자 하였다. 다음 글에서 좀 더 일반화된 설명을 해 보겠다.