brunch

You can make anything
by writing

C.S.Lewis

by JinSeok Kim Aug 31. 2018

실무에서 통계에 대한 생각

그냥 주저리주저리

 비즈니스 환경에서 통계학의 주요 활용 목적은 크게 다음의 두 가지라고 생각한다. 첫 번째는 전체 데이터를 요약하는 것, 두 번째는 부분으로 전체를 추정하는 것. (실생활에서 / 특히 확률론의 활용을 제외하고 본다면)

첫 번째 목적을 위해서 평균, 중간값, 분산 등의 개념과 시각화가 주로 사용 되고, 두 번째 목적을 위해서 모집단,표본,분포, 신뢰 구간 등의 개념들이 주로 사용된다. (통계 전문가가 아닌 이상) 실무에서 필요한 통계적인 사고 방식이란 결국 이 두 가지 목적을 잘 구분하고, 어떠한 맥락으로 통계가 사용되고 있는지를 센싱하는 사고 방식이 아닐까?  


최근에는 상대적으로 첫 번째 영역에의 관심도가 큰 것 같다. “빅데이터” 수집과 처리가 가능해지면서 (적어도 회사 내의 모집단) 전체를 관측할 수 있게됨에 따라 이 데이터를 어떻게 요약할 것인가가 화두가 되었다. 이렇게 거대해서 어쩔줄 모르겠는 데이터를 요약해서 인사이트를 뽑아내는데 가장 효과적인 방법인 시각화에 대한 관심도 높고..


 통계학에 대한 불신도 이 요약 부분에서 많이 나온다. 요약이라는 것은 결국 데이터를 어떤 관점으로 바라볼 것이냐에 따라 달라지기 때문에 의도가 개입될 여지가 충분히 있다. 괜히 “Figures don't lie, but liars can figure” 와 같은 말이 있는 것은 아닐 것이다. 


 때문에 통계적인 요약을 볼 때는 데이터를 어떤 맥락에서 어떻게 쪼개서 보느냐에 따라 전혀 다른 요약이 나올 수 있음을 충분히 감안해야 한다. (예능에서 악마의 편집이란 것이 존재함을 생각해보면 쉽게 이해될 것이다)


 이에 반해 상대적으로 부분으로 전체를 추정하는 기능에 대해서는 사회적인 관심도가 상대적으로 적은 것은 같다. 워낙 복잡한 개념들이 동원되기도 하고, 실생활에서 접할 수 있는 사례래봐야 투표 출구 조사 정도라서가 아닐까 싶다. 


 역으로 그렇기때문에 이 기능에 사회적 관심이 쏠렸을 때는 더 혼란이 가중되는 것 같다. 가끔 인터넷에서의 통계적 논쟁을 보면 모집단과 분포에 대해 이해가 전혀 없이 주장하는 것을 쉽게 볼 수 있는데, 이러한 이해 없이 논지를 전개하는 사람일수록 더욱 강력하게 얘기하는 경향이 있다. 


 하지만 부분을 통해 전체를 추정해야하기 때문에 통계학은 “오차”를 인정하는 학문이기도 하다. 부분으로 전체를 추정할 때는 모집단과 분포에 대한 가설이 필수적이고, 통계적인 추정에서는 신뢰 구간이 들어간다. 적어도 이러한 부분은 감안하고 표본과 모집단에 대해 얘기를 하는 것이 통계를 두고하는 건전한 토론의 기본 자세가 아닐까 싶다.


쓰다보니 내가 무슨 소리를 하고 싶은지 나도 모르겠다. 여튼 통계청장 교체로 인해 “통계”라는 단어가 다시 한번 이슈인데 이러한 내용을 감안하고 이슈를 바라보면 조금 더 상황을 흥미롭게 바라볼 수 있지 않을까싶다.


작가의 이전글 크로아티아에서 만난 올드카들

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari