써먹는 데이터 이상 써먹을 데이터를
데이터 분석을 하면서 가장 필요한 것이라고 생각한다면 적합한 목적을 달성하기 위해 적합한 데이터를 적합한 방법으로 하는 것이라고 말하고 싶습니다. 세 가지 조건인 목적, 데이터, 방법 중 한 가지 이상이라도 궤를 다르게 하면 억지가 되면서 원하는 결과를 얻지 못하는 경우가 많이 생깁니다.
보통은 적합한 목적을 정의하는 단계에서 어려움을 겪습니다. 뭐든 새로운 것을, 뭐든 인사이트를 가져오라는 식은 잘 몰라서인지 진정성이 없어서인지 혼란을 줄 때가 있습니다. 뭐 좋게 생각해서 모른다고 생각하고 얼마간 열심히 설명합니다. 무엇을 할 수 있는지, 보통 다른 곳에서는 어떤 일을 하는지, 그래서 지금 뭐가 필요한지 얼마 간의 기간을 거쳐 조직에 겨우 뭔가를 만들어 놓습니다. 하지만 이런 노력은 말한 사람 스스로에게 부메랑처럼 더 큰 어려움이 되어 돌아오곤 합니다. 이제 눈이 높아진 내부 고객은 우리 집 냉장고에 어떤 재료가 있고 냄비나 칼이 어떻게 있는지 관심이 없습니다. 다른 집에서 만든 요리가 먹고 싶을 뿐입니다.
설명할 변수가 없어서 시계열 분석을 어쩔 수 없이 한 적이 있었습니다. 얻고자 하는 결과는 있는데 그걸 설명할 다른 변수가 내부에 적재되어 있지 않고 당장 구할 수도 없는 상황인 것이죠. 하지만 예측하고자 하는 값은 꼭 구해야 하는 상황. 할 수 없이 하나의 변수로 시간적 예측을 하기 위해 시계열 분석을 써야 했습니다.
시계열 분석
시간의 흐름에 따라 관찰된 자료를 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성을 파악하여 활용하는 분석 방법입니다. 주가 지수, 부동산 가격 등이 보통 시계열 분석 사례로 많이 알려지지만 사실 최근 논문들을 보면 이 분야 조차 시계열 분석보다는 설명 변수를 생성하여 딥러닝 등을 활용하여 인과의 영역으로 기존의 예측력을 넘어서는 결과를 내놓고 있습니다.
하지만 시계열 분석을 모든 것에 적용할 수는 없습니다. 시계열 분석에서 쓰이는 알고리즘 중에서는 데이터의 분포가 일정 조건을 만족해야 쓸 수 있는 것도 있습니다. 하지만 보통 그렇게 평균과 분산이 일정하고 시간이 흐를수록 안정적인, 패턴이 분명하고 아름다운 충분한 데이터 일리가 없지 않습니까? 당연히 쓸 수 있는 방법론도 한정적이죠. 그렇게 되면 결국 적합한 목적만 남고 적합한 데이터나 방법은 포기하고 말죠.
시계열 분석은 평균과 분산이 일정하고 특정한 시차의 길이를 갖는 자기 공분산이 동일한 정상성이 있는 시계열 자료에서 높은 품질을 보입니다.
대표적인 시계열 모형인 ARIMA(autoregressive integrated moving average model)은 정상성을 만족하는 데이터로 분석을 하고 최초 데이터가 정상성을 만족하지 않을 때는 차분 등의 방법을 활용합니다.
하지만 자료의 수가 적고 어떻게 해도 패턴이 안정적이지 않으면 사실 이 방법을 신뢰하기 어렵습니다.
이건 분석가의 의지가 아닙니다. 상황이 그런 것이죠. 마감은 정해져 있고 자원은 없고. 문제는 이걸 설명해야 하는 역할 역시 분석가가 해야 한다는 점입니다. 물론 사기를 칠 수는 없으니 현재 방법의 한계와 향후 더 정확한 방법을 위한 제언, 그것을 하기 위한 보완 방법들이 붙습니다. 하지만 대부분은 처음에 이 분석 과제의 결과 정도만 관심 있게 듣고 나머지는 나는 잘 모르겠다는 식의 표정을 짓고 그 무거운 후속 조치는 분석가 혼자 오롯이 안고 돌아가는 일도 있습니다. 이런 조직이 없을 것 같지만 종종 이런 일이 있습니다.
조직 전체의 일이 되어야 합니다. 우리가 정말 데이터 드리븐 의사결정을 하는 곳이라면 지금 당장의 결과만 놓고 이야기하는 것이 아니라 앞으로 적합한 목적을 달성할 적합한 방법을 적용할 적합한 데이터를 어떻게 쌓아갈 것인지 모두의 관심과 참여가 필요합니다. 재무 이슈는 모든 부서가 돈으로 평가받는 것으로 전사적 이슈가 되지만 모든 부서에 흐르고 있는 데이터는 재무 이슈처럼 다뤄지지 않은 것이 이상하다고 생각하고 같은 거버넌스로 접근하는 것이 좋겠습니다.