보고싶은 데이터만 보려는 사람들
대한민국 성장기를 이끈 여러 기업인들의 성공 스토리는 모두 일맥상통한다. '카리스마 있는 리더가 불가능은 없다는 신념과 강력한 의지로 밀여붙여 끝내 성공을 이룬다.'라는 이야기이다.
이런 성공신화들 때문일까, 우리나라 사회에는 리더에 절대복종 해야한다는 사회적 분위기가 형성되어 있다. 부하직원들은 리더가 무엇인가를 지시하면 무슨 수를 써서라도 해야한다고 생각하고, 리더 역시 그렇게 생각하곤 한다.
하지만 이런 '리더 절대주의'는 데이터기반의 의사결정이 중요한 현대 사회에서 큰 걸림돌이 되는 것 같다.
물론 모든 리더는 데이터 기반의 의사결정이 중요하다고 말할 것이다. 하지만 그 데이터가 '자기가 보고 싶은 데이터'만을 의미하는 것이 문제이다.
빅데이터와 AI가 뜨거운감자가 되면서, 회사에도 그 열풍이 몰아닥쳤다. 많은 리더들이 빅데이터와 AI가 무엇인지 잘 모르면서 일단 관련된 성과를 내고 싶어했다.
우리부서 역시 마찬가지였다. 리더는 자신이 생각하는 몇 가지 독립변수를 활용해서 내게 머신러닝을 활용해 예측모델을 만들어보라고 지시했다. 하지만 얼핏봐도 그 변수들 모두 상관관계가 있는 변수들이었고, 다중공선성이 있어보였다.
* 다중공선성 : 독립변수들 간의 상관관계를 나타내는 것, 다중공선성이 있으면 좋지 않은 모델이다.
내 생각과 실제 결과는 다를 수도 있다고 생각하며 선형회귀 모델을 만들었지만 결과는 예상한 그대로였다.
모든 변수들간의 다중공선성이 나타났다. 다중공선성의 대표적인 특징은 독립변수 계수의 부호가 일정하지 않다는 것이다. 어떤 모델에서는 계수가 +가 나왔던 독립변수가, 어떤 모델에서는 -가 나오기도 한다. 리더에게 결과에 대해 설명했지만 리더는 자신이 원하는 부호를 가지는 독립변수를 가지고 있는 모델을 만들어 오라고 했다. 어떻게든 자신이 원하는 결과를 보겠다는 것이었다.
가슴이 답답했다. 통계란 사람의 주관을 배제하고 객관적인 평가를 하기 위해 만들어진 도구가 아닌가. 왜 그 결과를 받아들이는게 아니라 입맞에 맞게 바꾸려고 하는 것인지, 이럴거면 왜 통계라는 도구를 사용했는지 이해가 가지 않았다.
내가 회사를 다니며 느낀점 중 하나는, 과연 우리나라 회사에서 데이터기반의 의사결정이 가능한가 였다. 회사에서는 몇 프로의 현실적인 수치보다, 몇 십프로라는 비현실적인 수치만 조명을 받는다. 물론 개선된 수치가 높다면 칭찬받아야하는 것이 맞다.
하지만 문제는 그 수치만 보고 그 수치가 나온 배경에 어떤 데이터가 있는지 들여다보지 않는다는 것이다.
데이터를 제대로 수집한 건 맞는지, 수치가 잘 나오도록 데이터를 선택적으로 활용한 건 아닌지에 대한 확인은 이루어지지 않는다. 결국 데이터를 정직하게 활용하는 사람만 바보가 된다.
참 답답한 일이다.