1부. 데이터를 읽고 쓰는 습관 : 데이터 리터러시
누가 거짓말을 할까?
이미 디지털화된 세계에 살고 있는 우리들의 일상은 온라인에 연결되어 있고 그 순간 모든 데이터가 수집되고 축적된다. 이와 같은 원시 데이터에는 거짓이 있기 어렵다. 물론 기계도 오류를 일으킬 수 있기 때문에 무조건 거짓이 없다고 할 수는 없다. 그런데 이런 데이터뿐만 아니라 우리 주변에서는 수많은 데이터를 다양한 목적을 위해 수집하고 가공하고 분석한다. 기계의 도움을 받기 이전에 사람에 의한 의도된 수집 과정이 많이 있다. 한때 조사과정에서 발생하는 오류의 95%는 사람에 의한 것이라 게 정설이었다. 하지만 컴퓨터의 발전과 더불어 많은 부분들이 기계적인 처리 과정으로 변하면서 사람에 의한 실수와 오류는 현저히 줄어들었다. 그런 줄 알았다. 데이터가 넘쳐나는 빅 데이터의 시대에 역설적이게도 사람에 의한 의도된 혹은 무지에 의한 오류들이 여전하다는 데 놀라움을 금할 수 없다.
우연한 기회에 유제품 회사의 신제품 개발 관련 설문지를 본 적이 있다. ‘000 제품을 구입하게 된 동기는 무엇입니까?’의 응답 보기에 ‘지인의 권유로', '광고를 보고’ 등이 있었다. 이 보기들은 과연 구입 동기에 해당하는 것일까? 구입하게 된 동기가 아니라 ‘구입에 영향을 미친 요소’라고 해야 보기 중의 하나에 응답할 수 있지 않을까?. 그리고 바로 다음 문항에는 ‘000 제품을 음용하는 이유는 무엇입니까?’에 대해 응답 보기로 ‘건강 때문에’, ‘맛있기 때문에’ 등이 있었다. 이 질문은 음용하는 이유가 아니라 구매하게 된 동기 아닌가? 응답자들은 질문에 보기가 있으니 그냥 응답했을 것이다. 응답 데이터를 분석해서 통계표나 그래프로 멋지게 시각화해서 보여주면 멋진 자료가 되었을까?
데이터는 거짓말을 하지 않는다
데이터는 거짓말을 하지 않았지만 질문과 보기가 서로 맞지 않은 결과를 해석하는 과정에 의도치 않게 거짓말을 한 것이 된다. 전형적인 내용 타당성에 문제가 있는 것이다. 몸무게를 측정하는 데 줄자를 사용한다면 바로 잘못된 도구라고 생각하지만, 구매 동기를 측정하는데 영향 요소를 사용하고도 잘못된 것임을 파악하지 못하고 있다는 점이 현실이고 이는 다름 아닌 데이터 리터러시(문해력)의 문제인 것이다.
이외에도 척도의 문제, 평균의 문제, 집단 간 차이의 문제, 비교의 문제, 판단 기준치의 문제 등 실로 다양한 문제들이 있었다. 비단 이 기업만의 문제는 아니다. 모 반도체 기업은 업무담당자마다 설문의 척도 방향이 달랐다. 어떤 설문은 동의 정도가 왼쪽에서 오른쪽으로 갈수록 긍정으로 되어 있는 반면 다른 어떤 설문은 반대 방향이었다. 한 회사 같은 부서에서 조차 통일성을 이루지 못한 설문조사의 데이터를 가지고 상호 비교하는 결과표를 의심 없이 받아보고 의사결정을 하고 있다고 생각하면 아찔하다. 일반적으로 등간 척도인 경우에 왼쪽에서 오른쪽으로 갈수록 긍정적이 되도록 작성하며 비교하고자 한다면 당연히 같은 방향이어야 한다. 일부 만족도 같은 조사에서 만족하는 비중을 높일 의도로 왼쪽에 매우 긍정을 배치하는 경우가 있는데 이런 경우 해석을 할 때 주의를 해야 한다.
바로 앞에 있는 데이터를 보고도 제대로 읽어내지 못하고 의미를 파악하지 못한다면 이는 직무유기에 해당하지 않을까 생각해 본다. 모두가 데이터 분석 도구(R, 파이썬, 엑셀 등)를 사용할 필요는 없다. 사용할 수 만 있다면 좋겠지만 이는 현실적으로 적합하다고 할 수 없다. 모든 직원들이 데이터 과학자가 될 필요가 없다는 뜻이다. 데이터 분석가가 될 필요도 없다. 직무와 관계없이 데이터와 통계 자료를 보고도 무엇이 왜곡되었고, 무엇이 잘못되었는지 그 의미를 읽어내지 못한다면 이는 큰 문제가 아닐 수 없다.
기업에서 직원들의 교육훈련을 담당하는 HRD 관계자들은 일반 직원들이 직무를 수행하는데 필요한 데이터 리터러시에 대해 심도 있는 고민을 해볼 때다. 데이터 과학자도 리서치 전문가도 아닌 일반 직원들도 데이터를 읽고 이해하고 의사결정을 할 수 있어야 진정한 데이터 활용 기업이 될 것이다. 빅 데이터 시대를 살아가는 아니 생존하는 현명한 방법은 나의 데이터 리터러시 역량을 높이는 것이다. 데이터는 거짓말을 하지 않지만 사람은 거짓말을 자기도 모르게 할 수 있다. 이제 데이터도 사람도 거짓말이 아닌 사실에 근거해서 트렌드를 읽고 의사결정을 할 수 있는 그런 시대가 되고 있다.