분석 결과를 공유하기 전에
어느 날 회사 동료가 두 집단의 성과가 역(-)의 관계에 있다면서 두 집단 성과에 대한 사전 조율이 필요하다고 말합니다.
"이거 보세요. 두 집단의 지금까지 같은 기간 성과를 두 축으로 그래프를 만들었더니 추세선이 negative로 나왔어요. 그러니까 한쪽이 커지면 다른 쪽이 작아지는 건데 이러면 최적의 성과 합계를 위해 사전 조율이 필요할 것 같습니다"
하지만 제 눈엔 그냥 흩뿌려진 점들만 보였습니다. 그리고 추세선이라고 엑셀 기능을 이용해 그은 선은 수평에서 아슬아슬하게 기울어져 있는 수준이었습니다. 그냥 두 집단의 성과가 역의 관계에 있을 거라고 생각하고 싶고 사전 조율이란 단계를 만들고 싶었던 게 아닐까 하는 생각이 들었죠. 그리고는 문득 생각이 들었습니다.
주니어에게 필요한 분석 결과 공유의 기본은 무엇일까?
혹은
이제 분석을 적용해서 일하고 싶은 분이 유의해야 할 것이 무엇일까?
방금 사례에서 두 집단의 성과를 회귀 모델을 만들어서 규명했다고 하면 몇 가지 함께 공유되었어야 할 것이 있습니다. 회귀식이 전체 결과를 얼마나 설명해 주는지에 대한 '조정된 결정 계수'와 '유의한 F값' 등이죠. 조정된 결정 계수는 회귀식이 전체 데이터를 얼마나 설명해 줄 수 있는 식인지에 대한 비중 값이며, 유의한 F값은 회귀 식이 유의한 수준인지 판단해 주는 값입니다. 조정된 결정 계수가 0.2이면 이 회귀식 결과는 회귀식을 만드는 데 활용한 데이터에서 20% 정도만 설명할 수 있다는 말입니다. 0.8이면 이 회귀식이 데이터 세트에서 80%를 설명할 수 있는 것이라고 볼 수 있습니다. 더 좋은 모델은 당연히 설명력이 더 높은 모델이므로 이왕이면 조정된 결정 계수가 1에 가까운 것이 좋습니다. 유의한 F값의 경우는 통상적으로 0.05 미만일 경우 이 회귀식이 통계적으로 유의미하다고 평가합니다. 복잡하고 애매한 부분들이 있지만 이 정도만 일단 설명하겠습니다.
단순히 'y = a + b*x에요.'는 의미가 없습니다. 이런 일차적인 회귀식을 그어서 전체 데이터에서 설명력이 어떤지, 통계적으로 유의미한지 알 수 없으니까요. 회귀 분석뿐 아니라 모든 모델에는 평가 지표가 있고 기존 방식 대비 얼마나 개선된 방식인지 비교할 수 있는 지표들이 있습니다. 이 부분을 함께 리뷰하지 않는다면 신뢰가 생명인 분석 결과는 인정받기 어렵습니다.
분석한 데이터를 설명하는 과정도 꼭 필요합니다. 전체 데이터가 얼마나 많았는지도 함께 공유되어야 합니다. 분석은 분석 결과 외에도 모델을 만든 데이터 세트에 대한 정의와 분석 과정 및 이런 주요 평가 지표도 함께 공유해야 오류를 막고 정확하게 적합하게 실무에 활용할 수 있습니다. 데이터 분석은 재료인 데이터가 조금 달라도 큰 차이의 결과가 나오기 때문이죠. 다음과 같은 부분이 분석 결과와 함께 소개되어야 신뢰할 수 있는 결과로 공유받을 수 있습니다.
기간은 언제부터 언제까지로 왜 그렇게 정의했는지
제외 조건은 무엇이었고 왜 그렇게 정의했는지
타깃이 있다면 타깃과 타깃이 아닌 종속변수는 왜 그렇게 정의했는지
설명 변수는 왜 그것으로 했고 각각의 정의는 무엇인지
전처리 과정에서 이슈는 없었는지
분석 과정에서 한 가지 모델이나 샘플링만 했는지, 여러 횟수로 다른 것을 시도해서 나온 차이가 있었는지도 공유할 수 있다면 데이터 분석을 함께 하는 동료들과 더 좋은 대안을 찾을 수 있습니다. 단순히 '내가 분석한 결과가 딱 이거니까 이렇게만 하자'는 근거 없는 주장과 다르지 않습니다.
물론 급해서 시간이 없어서 이런 것까지 공유해야 하나 싶기도 할 것입니다. 그러면 각주나 링크를 걸어서 적어도 자료라도 공유해야 합니다. 뉴스에서 설문 조사 결과 보도가 나가면서 항상 마지막에 빠른 속도로 표본이 몇 명이고 조사 방법은 무엇이고 오차 범위는 어떤지 공개하는 것처럼 분석 결과에는 이런 정보가 필요합니다.
데이터 분석은 오용하면 가설을 맞추는 솜씨 좋은 도구에 불과합니다. 그렇게 넘어간다면 장기적으로는 분석가 스스로의 경쟁력을 잃게 됩니다. 부디 분석을 분석답게 객관적으로 활용한다면 더 정확한 방향성이 나올 것으로 확신합니다.