brunch

You can make anything
by writing

C.S.Lewis

by 랜덤초이 Feb 23. 2023

빅데이터 유감

인문계 고등학교의 문과(文科)를 나와 대학에서 통계학(統計學)을 전공했던 나는
학과 선택에 대해 한동안 심각하게 후회했다.

통계학과에 수학(數學) 수업이 그렇게나 많다는 것을 대학에 진학한 후에야 알았기 때문이었다.


당시 고등학교 문과 학생의 경우 미적분(微積分) 심화 과정을 배울 일이 없었고,

대학에 입학하면 '수학하고는 영원히 안녕'이라고 생각했던 터라, 통계학 수업에서 미적분을 활용해 각종 정리를 증명해야 하는 걸 경험하고는 '이게 무슨 무지(無知)의 업보(業報)인가...' 싶은 마음이 들었다.


오죽하면 군복무 중 병장이 되었을 무렵, 복학 후에 수업을 따라갈 걱정에 '수학의 정석Ⅱ-2 ' 책을 사서 내무반에서 공부해야 했을 정도이니 그 스트레스가 상당했었다.


잘 모르고 선택했던 전공 수업을 쫓아가려 기를 쓰고 애썼던 노력에도 불구하고,

당시에 배우고 풀었던 통계학 관련 수학 정리(定理)들은 지금 하나도 머릿속에 남아있지 않다.

하지만 통계학과 수업 중에 들었던 내용 중에 아직까지 머릿속에 생생히 남아 내가 일할 때의 태도에 영향을 주는 내용도 분명히 존재한다.


가장 기억에 남는 수업 내용은 GIGO (Garbage In, Garbage Out)란 문장과 관련 있다.

"쓰레기가 들어가면 쓰레기가 나온다."란 뜻인데, 컴퓨터는 논리 프로세스에 의해 운영되기 때문에 결함이 있거나 터무니없는 데이터를 입력(쓰레기가 들어감)하더라도 의심을 품지 않고 처리해서 터무니없는 출력(쓰레기가 나옴) 값을 내어준다는 사실을 가리킨다.


주로 컴퓨터 과학이나 정보통신기술 분야에서 쓰이는 오래된 말이라지만, '데이터'를 취급하는 대부분 학문 분야에서도 가리지 않고 사용되는 격언이라고 한다.


수업 중 그런 말씀을 해주신 교수님의 경우, 통계 분석을 하는 데 있어 표본을 추출하는 과정이 왜 중요한 지를 설명해 주시면서 'GIGO'를 알려주셨다.


'통계학과 학생들의 평균키를 추정하기 위해 표본을 추출하는데 여학생들만 뽑아서 평균을 내면 제대로 된 대푯값이라고 볼 수 있겠느냐?'

이런 예의 경우처럼 말이다.




통계와 관련해 자주 회자(膾炙)되는 유명한 얘기가 있다.


"세상엔 세 가지 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계다."라는 말이다.


이처럼 통계가 거짓말과 동급(同級)의 취급을 받는 이유는 통계를 조작(造作)하거나 왜곡(歪曲)하는 방법으로 대중의 눈을 속이는 경우가 워낙 자주 일어나기 때문이다.


그래서 내가 통계학과를 나온 게 유용하다고 느끼는 이유는 다른 사람이 제시하는 통계적 주장을 액면 그대로 신뢰하지 않는 습관이 생겼기 때문이다.  

누군가 특정한 주장을 하면서 통계적 근거를 내밀면, 결과로 제시된 수치뿐 아니라 해당 통계가 작성된 기준, 산출 로직에까지 관심을 가지게 된 것이다.


이렇게 합리적인 의심(reasonable doubt)을 갖고 일하는 습관은 대부분의 경우 환영받을 일이고 필요한 역량이지만, 때로는 회사에서 이런 시각(視角)을 갖고 생활하는 건 꽤나 피곤한 일이 되는 경우도 있다.


회사에서 누군가는 자신의 성과를 부풀리기 위해, 또 어떤 이는 자신의 책임을 감추기 위해 통계를 가지고 장난치는 경우가 종종 있기 때문이다. 만약 그런 사람이 내 통제가 가능한 경우라면 관계없지만 다른 조직에서 그렇게 일하거나 내 상사가 그렇게 일하는 사람이라면 그로 인한 답답함은 이루 말할 수 없다.


예를 들어

종이 신문을 구독해 집으로 배달받아 보는 사람들이 줄어들면서 신문사의 구독료 매출은 줄고 있다.

그래서 기존 신문 구독자에게 일주일에 한 번 '영자(英字) 신문'을 무료로 끼워서 배달해 주는 경우를 생각해 보자.  


그런 상황에서 신문사의 경영진이 '신문 구독 시장의 위축 현황을 타개하기 위해 영자 신문을 발간하여 연중 1만 부의 발행 실적을 달성했다.'라고 얘기한다면 어떻게 이해해야 할까?


아마도 본질적인 시장의 환경은 달라진 게 없는데 뭐라도 하고 있어 보이는 효과는 어필할 수 있을 것이다.


뭐든 새롭게 시작하면 초기 성장률은 크게 보인다.

그러니 성장에 대한 실적 압박을 회피하고자 시장이나 상품을 세분화해 그 작은 영역에서 높은 성장을 이뤘다고 포장하는 것이다.


소위 잘 나가는 회사는 항상 시장을 크게 보고 그런 큰 시장 안에서 자신들은 더 가져갈 게 많다고 한다. 하지만 그저 그런 부류의 회사들은 시장을 작게 나눠 조그만 단위 안에서의 성공을 주장하는 경향을 보인다. 회사 밖의 대부분 사람들은 크게 관심도 갖지 않는 곳에서 말이다.


원하는 결과를 얻어내기 위해선 그 결과를 위해 필요한 노력을 하는 게 당연하다.

뭔가를 보여주기 위한 과정에만 천착(穿鑿)하고, 결과에 대해서는 적당히 의미를 부여하는 정도로는 제대로 된 결과가 만들어질 수 없다.  


원하는 결과와 필요한 노력 사이의 인과관계(因果關係)가 잘못된 상태로 무의미한 활동을 강요받는다면 이만큼 괴로운 일이 또 있으랴 싶다.


극단적으로 비유하자면 '밑 빠진 독에 물을 채우라면서 독을 수리할 생각은 못하게 하는 그런 기분'이지 않을까. 

혹자(或者)는 새어 나가는 물보다 빠르게 물을 채우면 된다고도 하지만, 그렇게 채운 독은 가만 놔두면 물을 담아 놓을 수 없지 않은가.




GIGO(Garbage In Garbage Out)란 말은 우리나라의 오랜 속담과도 똑 닮아 있다.


"콩 심은 데 콩 나고, 팥 심은 데 팥 난다."는 속담이 그것이다. 즉 모든 일은 원인에 따라서 그에 맞는 결과가 생긴다는 말이다.


동서양을 막론하고 사람들이 세상을 경계하는 격언들은 참 한결같이 인간사를 관통하는 공통된 지혜가 담겨있는 듯하다.

저런 짧은 경구(警句)가 전해주는 지혜가 아직도 세상 사람들의 무릎을 치게 만드는 것은 저런 당연한 이치에도 불구하고 그렇지 못한 세태 (世態)가 여전하기 때문이 아닐까?


몇 년 전 불어닥친 빅데이터 열풍으로 통계학 전공자에 대한 수요가 증가했다고 한다.

IT기술이 발달하면서 과거에 불가능했던 커다란 데이터셋을 바탕으로 자료를 처리하고 정보를 해석해 낼 수 있게 되었기 때문이다.


기술의 진보로 인해 자료 분석과 정보화, 의사결정 등에 대한 가능성이 확장되는 것은 두 손 들어 환영할 만한 일이다.

하지만 통계가 거짓말로 활용되기도 하는 현실을 고려하면 데이터의 홍수 속에서도 그 사이에서의 적합(適合)한 인과 관계를 고민하는 합리적 추론의 영역도 더욱더 정성 들일 필요가 커지고 있다는 점은 함께 생각되면 좋겠다.


데이터가 아무리 커지더라도 그것을 해석해 활용하기 위한 사람의 노력은 더 정교해져야 한다는 점도.

작가의 이전글 침묵과 간섭
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari