과연 (빅)데이터는 객관적인 사실을 뒷받침 할 수 있는가?
요즘 여러가지 잡일들을 하다보니 정신이 좀 없었는데, 몇일전 페친께서 흥미로운 기사를 공유해주셨다. 얼마전에 식약청에서 치약에 관련된 기사인데, 지금 검색을 해봐도 나온다.
[조선일보] 식약처, '가습기 살균제 성분 포함' 치약 11종 긴급 회수
[연합신문] 식약처, 가습기살균제 성분 치약·화장품 제조사 현장조사(종합)
이 기사에 나온 본론을 갈무리하면,
요약하자면, 관련 제품에 가습기 살균제의 성분이 해외 기준치보다 1/10,000이나 낮음에도 불구 하고, 해당 제품들에 대한 회수를 조치했다는 거다. 1/100도 아니다. 자그마치 1/10,000 이다! 보다 결정적으로, 같은 물질이라고 하더라도 어느 경로로 흡수되느냐에 따라서 그 위험도는 훨씬더 떨어 질수 있다. 가습기 살균제의 성분이 적은 성분임에도 불구하고, (가습기에서) 치명적인 이유는 흡수경로가 호흡기이기 때문이다. 만약, 위에서 말한것 처럼 가습기 살균제 성분의 치약이 위험하다면, 여러분은 치약 자체를 사용해서는 안된다. 왜냐하면,
치약의 주성분인 불소를 기체화(혹은 분자화)해서 흡입하면, 극소량이라도 사람이 죽는다.
역설적으로, (위의 조사가 정확했다는 전제하에) 사실상 문제가 있다고 언급된 치약들을 사용해도 문제가 되지 않는다. 하지만, 정부에서는 해당치약들을 회수 조치를 취했다. 이럴때는 정부가 민심을 정말 잘 듣는 것같다. 왜 이런 말도 안되는 황당한 일들이 발생하는 걸까?
사람들(특히, 문과계)은 수치나 테이블 사용하기를 좋아한다. 자신의 주장을 열마디 하는것 보다 수치화 되어 있는 무언가(테이블이라든지, 그래프라든지 등등)를 보여주면, 자신의 주장을 "객관적"으로 뒷받침할 수 있다고 생각하기 때문이다. 그리고, 이러한 뒷받침은 애석하게(?) 듣는 사람들을 혹하게 한다. 하지만, 이건 데이터(혹은 통계)의 속성을 전혀 모르는 무식자의 이야기이다. 여기서 다시 한번 말하지만.
(빅)데이터는 주장이나 사실을 "객관적"으로 뒷받침 할수 없다.
그 이유는 간단하다. 데이터를 수집하는데 있어서 한계가 존재하기 때문이다. 데이터 수집에 있어서 한계라는 의미는
모집단의 수가 클수록 전수를 하는 것이 사실 상 불가능
하다는 거다. 예를 들어, 대한민국의 인구의 남녀성비를 구한다고 하자. "우리나라"의 남녀성비를 구하기로 했으니, 모집단(Mother Set)은 "우리나라 인구 전체"이고, 정확한 계산을 하기 위해서는 우리나라 인구 전체를 전수(조사)해야 한다. 하지만, 우리나라의 남녀 성비를 구별하기 위해서 우리나라 인구 전체를 조사하는 것은 어리석다 하겠다. 그래서 나온 방법이 바로 표본(Sampling)이다. 즉, 모집단을 대표할수 있다고 생각되어지는 표본을 추줄하여, 그 데이터를 이용해 통계지표를 구하는 것이다. 이러한 샘플링기법이 상당히 유용하긴 하지만, 추가적인 문제를 야기하게 되는데, 그것이 바로
데이터"수집"의 객관성
이다. 즉, 그리고, 데이터 수집의 객관성은 데이터의 자체의 객관성과는 차이가 있는데, 데이터 자체의 객관성은 "데이터를 조작하지 않는다"는 것을 의미하고, 데이터 수집의 객관성은 (데이터는 객관적이지만) 샘플링 하는 데이터가 (모집단을 잘표현할수 있도록) 객관적이라는 것을 의미한다.
자신의 주장이 혹은 어떤 사실이 맞다는 것을 뒷받침하기 위해서 데이터자체를 조작하는 경우는 엄연한 범죄행위이며, 이러한 조작사실이 발각되었을때 사람들(언론의 경우는 독자나 시청자)의 반감은 엄청나기 때문에 최근 들어서는 언론에서 조차도 잘 사용하지 않는 방법이다. 하지만,
샘플링을 객관화 하지 않는 것에 대해서는 사람들이 받아들이는 것이 훨씬 관대한 편
이다. 특히, 많은 양의 데이터를 수집하고, 처리하기가 어려웠던 그 시절(80년~90년대)엔 그러한 한계가 일반적이었고, 통계/데이터를 배웠던 사람들도 넘어설수 없는 이러한 한계들을 인지하고 있었다. 심지어는 단순히 많은 양의 데이터를 사용했다는 사실 하나만으로 해외 정상급 저널에 논문을 실을수 있을 정도였으니 말이다. 하지만, 정보통신 기술의 발전으로 소위 "빅데이터"가 실제 생활에 활용될수 있는 가시권에 들어오면서, 태생적인 한계로 느껴졌던 표본수집이 보다 많은 양을, 보다 객관적인 표본추출을 할수 있는 시대가 된다.
빅데이터의 출현은 많은 (통계적 지식이 없는) 전산계통을 전공하는 사람들에게 많은 꿈을 심어주었다. 빅데이터의 출현으로
정확한 미래를 예측 할수 있을 것 같고,
모집단자체를 직접 분석 할수 있을 것 같았을 것이다.
물론, 통계를 전공해본 사람은 알겠지만, 위의 두가지는 빅데이터가 아니라 빅데이터의 할아버지라도 실현 불가능한 것이다 (지금도 불가능하고, 앞으로도 불가능한 꿈일 뿐이다). 하지만, 빅데이터의 출현으로 과거에 비해서 보다 정밀하고, 정확한 데이터 분석이 가능해졌다. 그래서, 자신의 주장이나 사실을 뒷받침할때, 데이터자체를 조작한다거나, 자기 주장에 맞게 샘플링 편엽하게 한다거나 하는 꼼수(?)는 점점 줄어 들고 있다. 요즘은 좀더 지능적인(?) 방법으로 꼼수를 쓴다. 예를 들자면 이런거다. 당신은 회사 사장으로 하청업체를 선정해야 한다. A사와 B사 최종 후보인데, A사의 세일즈 매니저가 당신을 설득하기 위해 다음과 같이 이야기한다.
저희 회사(A)의 전분기 매출성장이 B사 대비 5배나 월등합니다!!
이때, 과연 위의 주장을 뒷받침 하는 데이터의 객관성을 따져보자. 우선, 샘플링(샘플링의 객관성)에 관해서는 의문의 여지가 적다. 오직 자사(A)와 경쟁사(B) 데이터만 있으면 되니까 말이다 (물론, 가능성이 없는 것은 아니다). 하지만, A사 매니저가 매니저가 거짓(데이터자체의 조작)을 말했을 수는 있다. 즉, 실제로 5배가 안되는데, 5배라고 말하는걸 의미한다. 자, 여기까지는 다들 아는 내용일 것이다. 충분히 조작 가능성도 있고, 확인을 해봐야 할문제라는 것에 동의 할 것이다. 그런데, 위의 주장을 증명하는 데이터가 모두 객관적이라면,
여러분은 위의 주장을 신뢰할 것인가?
(다음 문단을 읽기 전에 한번 고민해 보시라).
만약. 회사 A와 회사 B의 상황이 아래와 같다면 어떨까?
A사: 전분기 매출 5백만, 회사규모 100억
B사 전분기 매출 1천만, 회사규모 1000억
위의 경우를 보면, A사 매니저의 주장을 뒷받침하는 데이터(혹은 정보)는 사실이다.
A사의 매출성장은 회사규모 대비: 0.005% (B사 대비 5배)
B사의 매출성장은 회사규모 대비: 0.001%
사실상, 당신은 두 회사중 누구도 선택을 해서는 안된다 (이게 왜 둘다 선택하면 안되는지 모른다면, 경영관련 서적을 참고하시라). 물론, A사 매니저는 거짓말을 하지 않았으며, 데이터를 조작하지도 않았고, 샘플 수집도 제대로 했다 (틀림없이 매출성장은 A가 B사보다 5배 높다).
이 글을 읽으시는 분들께서도 짐작했겠지만, 처음 이야기를 시작했던 치약 회수에 관련한 것과 A사 매니저의 매출발표 예제는 모두 데이터의 비객관성에 대해서 이야기하고 있다. 즉, 데이터가 거짓없이 사실을 기반으로 하고 객관적으로 수집이 되있다 하더라도,말하는 사람에 따라, 혹은 듣는 사람의 타성(이라 쓰고 "느낌"이라 읽는다)에 따라 얼마든지 의미가 달라질 수 있다. 이는 어쩌면, 데이터 자체의 문제라기 보다는 데이터를 사용하고 받아들이는
사람들 감성의 문제이다.
요즘 세상은 감성을 중요시 하고, 인문학적 소양을 강조한다. 하지만, 세상을 올바르게 이해하는데 있어서 필요한 것은 감성을 자극하는 공감 능력(인문학적 소양)이 아니라, 논리적으로 세상을 바라보는 능력(물리학적 소양)과 그렇게 바라본 세상을 논리에 맞게 풀어가는 능력(수학적 소양)이다 (통상적으로 "과학적 소양"이라 칭하기도 한다). 이러한 과학적 소양의 바탕이 없는 인문학적 소양은 (많을수록) 개인을 합리적이고 똑똑한 존재로 "착각"하게 만든다. 단순히, 가습기 살균제 성분이 포함되었다는 이유로 전량 회수를 결정하고, 이것도 모자라 국민들은 극도의 공포를 느끼는 이러한 사태를 보면서, 이게 뭔가 싶다.
정말 마지막으로, 과학적소양의 바탕없이 인문학적 소양만 풍부한, 공감능력이 뛰어난 사람들만 모이면 어떻게 되는지 궁금한 분들은 다음 유튜브 비디오를 참고 하시라 (자막이 있으니, 너무 걱정하지 마시고).
https://www.youtube.com/watch?v=iKcWu0tsiZM
진짜끝.
-= Amang =-