유저를 분석하기 위해 머신러닝을 사용한다는 것, 그리고 데이터 분석을 한다는 것은 단지 알고리즘을 사용하거나 수치를 생산하는 것이 아니다. 대부분의 경우, 상상력과 이해력이 동원되지 않으면, 분석은 단순 수치로, 알고리즘은 단순 코드 조합으로 남게 된다.
내가 일을 하면서 가장 많이 느낀 것은, 내가 무언가를 알고자 할 때 혹은 다른 사람이 나에게 무언가를 알고자 요청을 할 때 가장 중요한 것은, 그 "무언가"가 무엇인지 구체화시켜 나아가는 것이다. 예를 들어, 누군가 나에게 "우리 서비스를 사용하는 유저들이 어떤 유저인지 인사이트를 얻고 싶어요"라고 한다면, 나는 조용히 회의실을 나가서 돌아오지 않을 것이다. 개인적으로 내가 가장 업무적으로 싫어하는 단어들 중 하나다 "빅 데이터"이고, 그만큼 싫어하는 단어가 "인사이트"이다.
사람들은 자신이 알고자 하는 것에 대해 모호한 개념만 존재하거나, 정말로 무엇을 알고자 하는지 모르는 경우가 많다. 심지어 가끔은, 그 사람이 물어보는 질문과 실제 의도가 정 반대인 경우도 굉장히 많다. 질문이 질문으로 끝나는 경우, 이러한 것은 문제가 되지 않는다. 하지만, 그 질문을 통해 실증적인 데이터를 참조하고 분석하려는 사람들에게는 모호하고 정확하지 않은 질문은 마치 망망대해에 버려진 느낌을 들도록 강요한다. 예를 들어 "유저에 대한 인사이트"라는 질문이 있다고 해보자. 그러면, 도대체 유저의 어떤 부분에 대해서 알고 싶은 것인가? 상품 구매? 조회? 재방문율? 유저를 해석하는 방법도 다양하고, 그 해석의 받침이 되는 수치들도 정말로 다양하게 만들 수 있기 때문에 이러한 질문들은 두통과 치통, 그리고 복통을 일으킨다
보통의 경우, 위에서 설명한 모호한 질문들을 더 구체화시키지 않고 데이터에 대한 분석이나 머신러닝 알고리즘을 만든다면, 끝에 가서는 누구에게도 쓰이지 않는 단순 문서로만 기록되고 버려진다. 그렇기에, 우리는 원 질문자의 반항과 의구심에도 불구하고(알아서 하는 것이 당신의 해야 하는 것 아닙니까?라는 말을 들을 수도 있다) 우리는 대화를 통해 그 질문이 무엇을 목표로 하고, 그렇기에 어떤 방향을 진행하는 것이 좋은지 좁혀 나아가는 것이 필요하다.
어디선가 들어본 소리가 아닌가? 바로 "기획의 정석"이라는 책에서 들어본 소리일 것이다
기획을 할 때는, 상상력이 필요하다
질문을 조금 좁혔다면, 이제 당신의 상상력을 발휘할 시간이다. "유저들을 브런치 글 취향 기준으로 나누고 싶어요"라는 질문이 있다고 해보자. 우리가 유저에 대해서 알 수 있는 정보는 무엇일까? 어떤 글을 보았는지, 라이킷 했는지, 누구를 구독했는지를 알 수 있다. 그렇다면, 이것들을 어떻게 조합해야 유저의 취향 정보를 얻을 수 있을까? LDA라는 방법을 써서, 글들의 특징적인 단어들을 추출하여 그룹 지을 수도 있고, Collaboratory Filtering을 통해 비슷한 유저들을 먼저 그룹 짓고, 그 후에 각 그룹의 특성들을 파악해볼 수도 있다. 분석을 할 수 있는 방향은 수 없이 많고, 그 방법들 중 무엇이 가장 좋은지는 당신의 서비스에 대한 이해와 상상력에 달려 있다.
방향을 정했다면, 우리는 다시 "왜?"라는 질문들을 우리 자신에게 던져야 한다. 왜 나는 이런 방식으로 분석을 하기록 결정했는가? 왜 이런 질문들을 물어보는가? 왜 이 알고리즘은 이러한 방식으로 유저를 분석한는가? 왜 나는 이 질문을 가치 있다고 여기는가? 등등 말이다.
이렇게 "왜?"라는 질문들을 자신에게 던져보다 보면, 질문과 해결 방법의 본질에 다가갈 수 있다
이제는 숫자로 구체화를 해보자
우리는 어떤 질문에 답해야 하는지도 알고, 어떤 방법을 사용해서 문제를 해결할 지도 결정하였다. 그렇다면 이제는 숫자의 더미 속에 들어가 그 누구도 찾기를 거부하였던(보통은 귀찮아서) 사실들을 찾아내고 탐구할 시간이다. 보통, 유저들에 대해서 분석을 하다 보면 내가 원래 답 하려고 했던 것들보다 많은 부분들에 대해서 찾아보게 된다. 그렇게 추가적으로 찾아낸 사실들, 혹은 수치들은 내가 분석하고자 하는 유저에 대한 맥락을 제공해준다. 그리고, 이런 맥락과 데이터는 내가 원래 사용하려고 했던 방법, 혹은 데이터보다 더 좋은 방법과 수치가 무엇인지 알려주는 힌트들이 되어 돌아온다.
단순이 유저 PV(page view)와 UV(independent visitor)만 보더라도, 이것을 나눌지, 더할지, 뺄지, 아니면 그냥 변화 트렌드를 볼 것이지 다양하게 쓸 수 있다. 이 수치들을 내가 질문하고자 하는 방향에 맞게 다양하게 해체하고 변형시켜 보다 보면은 더 필요한 데이터가 무엇이고, 또 내가 해결할 수 있는 것의 한계치를 알게 되기 때문이다 (PV와 UV를 가지고 서비스의 모든 것을 알 수는 없지 않은가?)
공유해보도록 하자
이렇게 많은 고찰과 삽질, 그리고 대화를 통한 분석 결과와 알고리즘은 잘 문서화되어 공유되지 않을 경우 방구석 먼지와 다를 바 없어진다. 왜냐하면, 결국에 이 결과물을 사용하여 서비스에 실질적인 변화를 주는 것은 데이터 분석가나 사이언티스트가 아니라 Product Manager 이기 때문이다. 설령 표준편차를 모르는 사람이 있다고 하더라도, 우리는 그 사람에게 이 분석 결과가 얼마나 리스크를 가지고 있는지, 그리고 이 알고리즘이 어떠한 오류를 가질 수 있는지 잘 설명해야만 우리의 일이 실질적 서비스로 변환이 된다. 그리고 그것이 월급의 상승으로 이어진다