우리가 잘못 알고 있는 데이터 관련 상식들
"더 정확한 분석을 하려면 A가 필요하고 B가 필요하고 C가 필요해!"
데이터 분석가로서 일하면서 평소에 자주 하는 생각이다. 데이터 분석가는 너무나 당연하게도 "더 정확한" 데이터를 알아내고 전달하려고 노력한다. 예를 들어, 데이터 분석가에게 상관관계와 인과관계의 구분은 너무나 중요하고 항상 염두에 두고 정확히 전달하려고 노력한다. 그렇게 더 정확한 분석 결과를 만들어서 전달해본 결과... 더 적은 사람의 행동을 만들어냈다. 왜 그런걸까?
창업 초기를 생각해보면 대부분의 분석이라는 것은 "부정확"하고 "너무 단순"했을 것이다. 예를 들어, 기능을 출시하고 데이터베이스의 양을 통해 사용량을 유추했을 것이다. 눈으로 봐서 지표의 큰 차이가 생기면 성공적이라고 생각하곤 했다. 또한 CS를 통해 부정적 효과를 확인했다.
통계적으로 봤을 때, 이런 방식의 분석을 통해서는 "정확한 사실"을 알아내는 것은 어렵다. 오히려 수많은 편향을 낳을 수 있고 잘못된 해석이 가능하기 때문에 더 나은 방식을 선택해야 하는 것이 맞다. 그래서 통계적으로 정확한 사실을 알기 위해서 실험 플랫폼을 만들고 통계적으로 더 정확한 사실을 볼 수 있도록 제공했다. 하지만 결과를 해석하기가 점점 더 어려워지면서 사용자들은 점점 더 적은 정보를 받고 있다고 느낀다.
또한 실험이 아닌 분석을 할 때도 상관관계와 인과관계를 명확히 하며 여러 통계 기법과 머신러닝을 사용해서 분석을 했다. 이전에 비해 더 정확한 분석 결과를 제공했다. 하지만, 신기해하는 분들이 많아졌지만 실질적으로 행동으로는 이어지지 않았다. 사실 생각해보면 더 정확해진다는 것은 더 복잡해지는 것을 의미하고 더 복잡해지면 더 이해하기 어렵고 그러면 더 높은 전문성이 필요하다. 더 높은 전문성이 필요하면 더 적은 사람이 신뢰하게 되고 그로 인해 더 적은 활용이 된다.
분석가로서 더 정확한 사실을 알아내고 제공해야 하는 것이 맞다. 하지만 한 번쯤 생각해보면 좋은 질문은 "분석이 더 정확하지 못해서 분석을 신뢰하지 못하는 것인가?"이다. 더 정확한 사실을 제공하는 것보다 더 중요한 것은 "더 정확한 사실이라고 느끼게 하는 것"이지 않을까? 분석은 물론 정확해야 하지만, "더 정확해지는 것"이 중요한 것이 아니라 "더 신뢰할 수 있는 것"이 중요할지도 모른다. 예를 들면, 이 결과가 왜 더 정확한지를 설명하는 것보다 3명의 다른 분석가가 리뷰해서 문제가 없다는 것을 확인했다는 것을 말하는 것이 더 신뢰하기 좋을 것이다.
사람은 무엇인가를 신뢰할 때, 있는 사실 그대로의 신뢰성을 본다기보다 그것이 생성된 과정을 신뢰할 수 있는지를 본다. 우리가 과학을 신뢰하는 것은 과학 논문 하나하나의 실험 방법을 이해해서라기 보다는 사실을 발견해내고 그것이 사실이라고 확인하는 과정을 이해하고 있기 때문에 신뢰하는 것이 아닐까? 어쩌면 기법이 핵심이 아닐 수 있다. 우리가 함께 어떤 것이 사실이라는 것을 신뢰할만한 환경과 시스템을 구축하는 것이 중요한 것이 아닐까?