한 해를 정리하면서 저에게 일어났던 여러 가지 일들을 돌이켜봤습니다. 좋았는지, 충분했는지, 만족했는지 등을 살펴보았죠. 반대편에서도 떠올려 봅니다. 나빴는지, 부족했는지, 불만스러웠는지 등등. 개중에서 주의 깊게 보는 항목은 '부족한 게 무엇이었나'입니다. 부족한 건 채우고 메워둬야 다음에 잘 대응할 수 있으니까요.
과연 부족했던 게 뭘까. 확실한 믿음(확신)이었습니다. 의심이 과했던 기억이 났거든요.
데이터 분석가에게 의심병은 감기만큼 흔한 질병이다
데이터 분석가에게 확신은 단순한 믿음이나 숫자나 통계에 대한 이해를 넘어서는 복합적인 개념입니다. 분석 과정 전반에 걸쳐 요구됩니다. 문제의 인식부터 정의, 접근과 다룸의 과정, 결과 도출, 그리고 스스로에 대한 믿음까지를 포함합니다. 확신은 저에게 무엇을 말했을까요. 어느 단계에서 부족했고 아쉬웠을까요. 문제 정의, 과정, 해석, 그리고 저 스스로, 네 가지 측면에서 한 번 정리해 봤습니다.
누구의 시선에서 바라봐야하나
분석의 첫 발은 문제를 인지하고 정확히 정의하는 것입니다. 문제 정의 단계에서의 확신은 방향을 결정짓죠. 이 단계에서 확신이 결여되면 문제 정의가 끝난 이후에도 흔들리게 됩니다. 긴가민가하거든요. 예를 들어, 여러분의 기업에서 '재구매가 떨어진다'라는 문제를 인식했다고 가정해 봅시다. 재구매율 자료를 비롯해, 고객 행동 패턴, 제품 만족도, 경쟁사 분석 등 다양한 데이터가 필요할 겁니다. 여러 데이터를 비교해 보고 검토하면서 '어떻게 하면 재구매율을 높일 것인가'를 고민하겠죠.
여기에서 '재구매율이 떨어진다'라는 문장에서 의문이 듭니다. 이게 괜찮은 정의일까. '어떻게 하면 재구매율을 높일 것인가'라는 질문도 마찬가지죠. 어디까지나 판매자 혹은 공급자의 시선에서 바라보고 구성된 문제거든요. '누구의 시선으로 문제를 정의하느냐'에 대한 부분인데 소비자의 시선에서는 "지갑을 다시 열만큼 매력적이지 못하다"는 문장이 더 적절한 문제 정의가 될 수 있습니다. 저는 이 지점에서 고민이 많았습니다.
가끔 이런 반응을 접할때도 있다
이 지점이든 저 지점이든 문제가 정의되면, 그에 맞는 접근법을 선택해야 합니다. 세상에 차고 넘치는 분석 기법 중 가장 적합한 것을 골라야 합니다. 이 단계에선 다소 큰 틀에서 결정이 됩니다. 시계열을 쓸 거냐, 아니면 회귀 모델을 쓸 거냐 뭐 이런 결정들이죠. 여기에서도 고민은 있었지만 앞서 언급한 지점의 그것보단 크지 않았습니다. 그나마 다행이었군요.
세상에서 가장 믿지 못할 존재
분석 과정에서도 확신은 필요합니다. 데이터의 품질, 분석 방법의 적절성, 그리고 결과의 신뢰성을 지속적으로 모니터링하고 평가해야 하거든요. 이 세 요소는 각각 독립되어 있는 것처럼 보이지만 실제로는 하나로 이어지는 유기적 관계입니다. 품질 확보하고 적절히 가공하면 결과는 보나 마나죠.
첫 단추가 중요합니다. 신뢰할 수 있는 분석 결과를 얻기 위해서는 좋은 데이터가 필수니까요. 책이나 강의자료에서는 데이터의 정확성, 완전성, 일관성을 확인하고, 필요한 경우 데이터 클렌징 작업을 수행해야 한다 그러는데 필드에선 조금 양상이 다릅니다. 지루하고 반복되다 보니 기준 자체를 낮춰버리기 쉽거든요. '이만하면 되겠지?' 같은 유혹에 빠지지 않는 게 지상과제입니다. 이 순간 바로 여기에서 가장 믿지 못할, 믿으면 안 되는 사람은 바로 '나'입니다.
가장 믿으면 안 되는 사람은 바로 '나'다
여기에서도 접근법을 골라야 합니다. 앞서 선택이 큰 틀에서 골랐다면 이번 선택은 더 잘고 세밀하게 들어갑니다. 시계열 데이터를 분석한다고 할 때, 통상 쓰는 선형 회귀 모델을 쓸 거냐, 미래 예측치까지 포함하는 ARIMA 모델을 쓸 거냐, 딥러닝 모델을 쓸 거냐 이런 선택을 하는 단계입니다. 물론 여기에서도 '나'는 믿으면 안 됩니다.
확신은 필요하지만 그 대상에 '나'는 포함되지 않습니다.
해석은 분석자의 깡
그렇게 얻어낸 결과를 해석하고 그 의미를 파악하는 작업은 분석 작업의 꽃입니다. 중요하고 긴장되는 단계다 보니 따져야 할게 많습니다. 통계적 유의성과 실제적 중요성 둘 다 균형 있게 고려해야 합니다. 그래야 보고 듣는 이가 해석 결과에 대한 믿음을 갖습니다.
개중 통계적 유의성은 사정이 낫습니다. 절차대로만 하되 몇몇 포인트만 조심하면 되거든요. 예를 들어, 도출된 p-value가 0.05 미만이라고 해서 반드시 의미 있는 결과라고 할 수는 없습니다. p-value 자체가 주어진 가설이 옳다는 전제로 설정된 값이긴 하나 현실에선 영향을 미치는 변수가 무척 많거든요. 샘플수만 조절해도 달라지는 게 p-value입니다. 절대 지표는 아닌 셈이지요.
실제적 중요성은 얘기가 다릅니다. 여기에선 실제 환경에서 맥락 중요성을 고려해야 합니다. 새로운 광고 캠페인이 통계적으로 유의미한 매출 증가를 가져왔다는 결과를 받았다고 합시다. 대신 매출 증가폭이 비용을 상쇄할 만큼 크지 않았다면 이 광고가 가치 있다 말할 수 있을까요. 판단하기 어려운 문제입니다.
그렇다. 해석은 말 그대로 분석자의 '깡'이다
분석에는 한계가 있습니다. 데이터는 항상 부족하고 비용은 매번 모자라며 인력은 들고나기를 반복하죠. 주어진 한계를 명확히 인지하고 해석에 임해야 합니다. 그 누구도 정확한 길이나 답을 알려주지 않습니다.문제 정의와 과정에 이렇다 할 오류가 없었다면 믿고 가는 수밖에요.
해석은 말 그대로 분석자의 강단, '깡'입니다.
누적된 세월을 믿어야 한다
마지막으로, 자신의 능력과 판단에 대한 확신이 필요합니다. 단순히 자신감을 가지라는 얘기가 아닙니다. 지속적인 학습과 실무 경험을 통해 오랜기간 누적된 세월, 해결능력에 대한 믿음입니다.
새로운 기술과 방법론은 계속해서 등장합니다. 끊임없이 배우고 활용하며 내재화해야 합니다. 산더미처럼 쌓여가는 작업량, 놓칠 수 없는 효율성과 정확성을 생각한다면 잠깐의 여유도 때론 사치처럼 여겨집니다. 특히 데이터 분야의 눈부신 발전 속도를 고려할 때, 스스로를 새로운 기술과 기법에 의도적으로 노출시키는 건 선택이 아닌 필수입니다.
여기에 실무 경험이 쌓이면 오히려 강한 확신을 얻을 수 있습니다. 더 복잡한 문제에 도전할 수 있으며 더 나은 해결책을 찾을 수 있다는 그런 믿음이죠. 제 흑역사처럼 때로는 예상과 다른 결과가 나오거나, 분석 과정에서 실수를 해보는 것도 괜찮습니다. 당장은 아찔하지만 지나고 나면 많이 남거든요. 너무 빈번하거나 많으면 곤란하겠지만 적절한 실패 경험도 필요한 덕목 중 하나입니다.
저는 살짝 줄여도 괜찮을 거 같지만요.
분석하는 인간(Homo analyticus)에게 필요하다는 능력들
쓰고 보니 넘치기도 부족하기도 했던 한 해였단 생각이 듭니다.내년엔 호모 아날리티쿠스(Homo analyticus : 분석하는 인간)로 거듭날 수 있을까요.