흔히들 좋은 프로그래밍 스킬과 데이터 셋, 그리고 통계나 머신러닝 지식만 있으면 데이터 분석은 끝이라도 생각한다. 물론 이런 요소들은 데이터 분석을 완결 짓는 요소이기는 하지만 이들만 가지고 있다면 시작도 하지 못할 가능성이 크다. 사실 데이터 분석을 시작하기 위해서는 위와 다른 좋은 자질, 혹은 능력이 필요하며 이는 종종 간과되고 있다고 생각한다. 바로 질문과 질문의 답을 유추해 내는 능력이다.
질문하는 능력에 대해서 먼저 생각해 보자. 우리가 데이터 분석에 대해서 배울 때 사실 어떤 문제를 풀지 질문하는 경우가 거의 없다. 보통 학생에게 질문이란 주어진 것이기 때문이다. 캐글에서 컴피티션에 참가한다 해도 마찬가지이다. 질문과 데이터셋이 주어지고 그 질문에 맞추어 문제를 풀면 된다. 하지만 현실로 돌아와 보자. 현실은 컴피티션이나 문제집과 다르게 질문이 주어지지 않는다. 우리 회사의 매출을 올리기 위해 어떤 질문을 해야 하는지, 단순히 스킬만 터득했다면 쉽지 않은 문제이다.
사실 (개인적인 의견이지만) 그렇기 때문에 데이터 분석가의 좋은 자질 중 하나가 호기심과 관찰력이라 생각한다. 좋은 질문이란 주변에 대하여 왜 그렇지 하는 호기심과 이렇게 주변을 바라볼 수 있는 관찰력에서 비롯된다고 생각하기 때문이다.
답을 유추해 내는 능력은 무엇인가? 우리가 질문을 한다고 해도 세상은 우리에게 옛다 질문에 대한 답이다 하고 정답을 던져 주지 않는다. 아니 반응도 없다. 사실 질문에 대한 직선적인 답은 세상에 없다고 생각한다. 예를 들어 우리가 주식이 저평가 상태인지 아닌지 질문했다면 이에 대한 대답을 에스나 노로 듣지 못한다. PBR이라던지 PER이라던지 여러 데이터로 우회해서 유추해 듣는다.
개인적으로 데이터 분석 수업을 하면 항상 드는 사례들이 있다. 내가 생각하는 질문과 유추가 명확하고 결과가 재밌는 분석들인데 대표적인 것이 버거 지수이다. 아래 링크를 참조해 보자.
여기서 질문은 '각 지역의 도시화 정도를 어떻게 비교할 것인가' 정도로 표현할 수 있을 것이다. 여기서도 물론 이에 대한 대답을 직선 도로로 받기보다는 우회해서 받았다 할 수 있다. 바로 햄버거 매장들을 비교하여 도시화 정도를 유추한 것이다.
도구가 발달이 되고 여러 가지 편리한 모듈이나 프로그램이 나오면서 점점 분석 스킬 자체의 중요성은 떨어지고 있는 거 같다. (물론 이런 아주 기본적인 것들도 비전공자들은 어려워하는데 개인적으로 언덕 하나만 넘으면 된다고 생각한다) 심지어 머신러닝이나 딥러닝 같은 고급 기법들도 이제는 고등학생도 '쓸 수'는 있는 환경이다. 여기서 우리가 데이터 분석을 통해서 남들보다 유의미한 결과를 도출하기 위해서는 '시작'으로 돌아가야 하지 않나 싶다. 바로 좋은 질문과 질문의 답 유추라는 첫 단추를 잘 꿰는 일 말이다.