데이터의 중요성이 강조되면서 최근 화두가 된 단어들이 있다. 데이터 기반(data-driven) 의사 결정, 데이터 리터러시(data-literacy) 등이 그것이다. 데이터에서 파생되는 각종 단어들이 여러 매체에서 자주 언급될 정도로, 이제 사회 그 어느 층도 데이터의 중요도에 대해서 간과하지 않게 되었다.
서비스 기획자 입장에서도 데이터 리터러시(데이터 문해력)는 무척이나 중요하다. 특히나 IT 서비스를 기획하는 사람이라면 데이터를 잘 활용할 수 있어야 한다.
일반적으로 데이터 리터러시는 데이터를 활용해서 문제를 해결할 수 있는 능력으로 정의한다. '문제를 해결할 수 있는 능력'이라는 범위는 너무도 방대하니까, 조금 더 상세하게 나누어보자.
· 데이터를 통해 문제를 해결하기 위해서는 수많은 데이터 중에서 문제를 해결할 수 있는 데이터를 탐색할 수 있어야 한다.
· 문제 해결에 필요한 데이터를 탐색하기 위해서는, 문제 해결에 필요한 데이터가 무엇인지 정의할 수 있어야 한다.
· 문제 해결에 필요한 데이터가 무엇인지 정의하기 위해서는 데이터를 둘러싼 주변 환경을 이해하고 있어야 한다.
데이터는 둘러싼 주변 환경에 대한 이해가 없다면, 단순한 숫자의 나열에 불과하다. 이 말은 즉, 데이터를 잘 보기 위해서는 데이터가 생성된 배경을 잘 이해할 수 있어야 한다는 것이다. 그래야 데이터를 오독하지 않을 수 있고, 데이터를 활용해서 문제 해결을 위한 의사결정을 수행할 수 있다.
이제는 너무나도 잘 알려져서 식상한 예시지만, '데이터 리터러시(데이터 문해력)'을 논할 때 빠질 수 없는 사례가 있다. 데이터에 관심 있는 사람들이라면 이미 여러 매체를 통해서 수 차례 보았을 2차 세계 대전 전투기 피격 데이터이다.
이 이미지는 이제는 너무나도 잘 알려진 생존자 편향의 오류(Survivorship Bias) 사례이다. 2차 세계대전 당시 미국은 전투기가 적군의 사격에 의해서 격추되는 것을 줄이기 위해서 전장에서 돌아온 전투기의 피격 부분을 분석하여 취약 부분을 보강하고자 했다. 분석 결과 적의 총탄은 주로 날개 및 몸통 부분에 집중되어 있었다.
현대 사회에서 서비스 기획자로서 살아가는, 혹은 서비스 기획자를 꿈꾸는 우리는 이 문제의 답을 익히 들어 잘 알고 있다. 전쟁에 대한 배경 지식이 충분하지 않다면, 이러한 데이터를 보았을 때 '주로 피격되는 부분'인 날개와 몸통 부분이 보강한다고 판단하는 것이 옳다. 주로 피격되는 부분을 보강하는 것이 당연하기 때문이다. 하지만, 전장에 대한 배경 지식을 갖고 종합적인 사고를 해보면 이 데이터는 읽는 방법을 바꾸어야 한다는 사실을 쉽게 깨달을 수 있다.
이 데이터를 남긴 전투기는 전쟁터에서 총탄을 맞고 '생환한' 전투기이다. 전쟁터에서 적군이 아군 전투기에 총탄을 퍼붓는 이유는 전투기를 격추시키기 위해서이다. 생환한 전투기들을 관측한 결과 날개와 몸통 부분에 총탄이 집중되어 있다는 사실은, 날개와 몸통의 피격은 생환율에 상대적으로 적은 영향을 준다는 의미이다. 이는 바꾸어 말하면 그 외 위치에 피격당한 전투기는 돌아오지 못했다는 것을 말하며, 돌아오지 못한 전투기의 피격 데이터는 검토 시점에서 누락될 수밖에 없다는 사실까지 떠올릴 수 있어야 한다.
생존자 편향의 오류(Survivorship Bias)는 데이터가 수집된 환경에 따라서 해석의 방법을 능동적으로 변경해야 한다는 사실을 이야기해준다.
생존자 편향의 오류 사례가 너무나도 식상하다면, 잘 알려져 있지 않은 다른 사례를 확인해보자.
배달의민족, 요기요, 배달통 등 음식 배달 앱이 약동하던 시기인 2017년의 일이다. 당시 나는 데이터 사이언티스트로 일하던 회사를 그만두려고 생각하고 있었는데, 친구 하나에게 데이터 해석을 부탁받았다. 2017년 10월 엄청난 약진을 반복하던 배달 앱들의 건강 상태에 '빨간 불'이 켜졌다. 나날이 올라가던 DAU가 90% 정도 감소한 것이다.
처음 데이터를 확인한 데이터 관리자는 처음에 이 현상을 오류라고 인지했다. DAU가 10% 감소해서 90%가 된 것이 아니라, 90% 가깝게 감소한 것이었기 때문이다. 만약 여러분이 이 감소한 DAU의 원인을 탐색하기 위해서 무제한으로 데이터를 요청할 수 있는 권한이 있다면 어떠한 데이터를 요청할 것인가?
이 질문에 대한 친구의 답은 이랬다:
· 로그인 기능에 오류가 발생한 것일 수도 있으니, 로그인 화면에 진입한 사용자를 본다.
· DAU를 측정하기 위해 설계한 로그 시스템의 오류일 수도 있으니 로그 시스템의 데이터가 정상인지 확인한다.
· 광고 효율이 안 좋아진 것일 수도 있으니, 광고 비용이 제대로 집행되고 있는지 그리고 얼마큼 노출이 일어나고 있는지 확인한다.
하지만, 문제를 받아 들었던 나는 그 어떠한 데이터도 요청하지 않았다. 나는 이 문제의 답이 '데이터'가 아닌 '문화'에 숨어있다고 생각했기 때문이다.
2017년 10월은 '황금연휴'라고 불렸다. 2017년 10월 황금연휴에 대한 기대는 내가 아직 학생이던 시절부터 만연해있었는데. '2017년까지 살아있어야 하는 이유'라는 제목으로 여러 게시글을 보았기 때문이다. 10월 2일 휴가 하루를 사용하면 최장 10일을 연속하여 쉴 수 있었기에, 휴가 신청자가 몰렸고 많은 기업들이 10월 2일을 임시 휴일로 지정하기도 했었다. 그 결과 2017년 추석 연휴 인천 공항 이용객은 206만 명, 여객 수 1일 최대 11만 6천 명으로 역대 최다 해외 여행자를 기록했다.
그리고 이 연휴의 원인은 '추석'이다. 추석 하면 떠올릴 수 있는 것은 무엇인가? 명절 음식이다. 역대급으로 길었던 연휴, 해외로 떠난 사람들, 냉장고에 가득했을 명절 음식들. 그리고 DAU가 하락한 것이 '음식 배달' 앱이라는 사실 또한 문화적 힌트다. 음식 배달 서비스의 수요가 급감할 조건은 충분히 갖추어졌으니, 해당되는 음식 배달앱의 DAU가 자연스럽게 줄어든 것이다.
이처럼 데이터에 기반한 의사 결정을 수행하기 위해서, 데이터만 들여다보는 것은 무척이나 위험할 수 있다. 정말 유명한 미국의 데이터 사이언티스트가 있다고 가정해보자. 그 사람을 모셔다가 2017년 10월 한국 배달앱 시장이 겪었던 DAU 감소 현상 데이터를 보여주면서 원인을 찾아달라고 요청해도, 그 데이터 사이언티스트가 한국 문화에 대한 배경 지식이 없다면 답을 찾아낼 수 없다.
데이터는 현상을 정량적인 결과로 확인할 수 있게 해 주지만, 원인은 알려주지 않는다. 정량적인 지표의 상징과도 같은 데이터를 이해하기 위해서는 역설적이게도 정성적인 지표, 현상들을 반드시 함께 고려해야 한다. 2차 세계 대전의 생존자 편향 사례, 2017년 추석 배달 앱 사례는 아주 특이한 예시들이 아니다.
회원 수, 회원 당 평균 결제액, 회원 재방문율, 회원당 제품 평균 구매 수량, 최근 3개월 신규 회원 수 등은 우리가 데이터로 일을 할 때 흔하게 확인할 수 있는 데이터들이다. 일반적으로 우리가 열람할 수 있는 데이터는 이처럼 정량적인 수치로 존재한다. 그렇기 때문에 원한다면 쉽게 열람하고, 가공해볼 수 있다.
그렇다면 정성적인 지표는 도대체 어떻게 확인해야 할까? 정성적인 지표를 확인하기 위해서는 일단 우리가 속해있는 시장에 대한 전반적인 이해가 선행되어야 한다. 시장에 대한 전반적인 이해를 갖추고 나서야 어떠한 지표를 확인하면 좋을지 선별할 수 있다. 하지만, 전쟁에 대한 이해, 한국 사회와 문화에 대한 이해 등 어떠한 문화적 특징을 단기간 내에 학습하기란 결코 쉬운 일이 아니다.
그런데, 이 어려운 학습 과정을 단숨에 해결해줄 수 있는 방법이 존재한다. 그 방법은 단순하다. 잘 아는 사람에게 질문하는 것이다. 많은 기업들은 시장에 대한 이해를 제고하기 위해서 적절한 대상을 찾아서 인터뷰를 수행한다. 인터뷰를 통해서 현상에 대한 배경을 이해한다. 배경 이해를 통해서 자신들이 확보한 많은 데이터 중에서 어떤 데이터를 중심에 둘지, 그리고 어떻게 해석할지 판단한다.
만약 인터뷰이를 잘 만났다면, 인터뷰는 아마도 세상에서 가장 효과적인 배경 이해 방법일 것이다. 하지만, 인터뷰이를 잘못 선정했다면 역으로 배경에 대해 잘못된 편향을 갖게 될 가능성이 있다. 인터뷰이가 갖고 있는 편향 혹은 잘못된 상식이 인터뷰어에게 고스란히 전달되는 것이다. 혹은 인터뷰이가 의도를 갖고 고의로 잘못된 정보를 전달하기도 한다.
이처럼 때론 배경 지식을 학습하기 위해 '인터뷰'를 활용하는 것은 위험할 수도 있다. 그렇다면, 어떻게 해야 안전하게 시장 배경을 이해할 수 있을까? 답은 단순하다. 한 명의 인터뷰이가 편향을 줄 수 있으니, 많은 수의 인터뷰를 수행해서 다수의 의견을 확인하면 된다. 이렇게 하면 한 명이 줄 수 있는 편향이 다수의 의견을 통해서 희석될 수 있다.
만약 여러 명의 인터뷰를 수행하기 여의치 않다면, 때론 사람들이 어떻게 하는지 그냥 관측하는 것도 굉장히 좋은 방법 중 하나다. 문화인류학에서는 이러한 관측 방법을 '에스노그라피(ethnography)'라고 정의하고 있다. 에스노그라피적 관측 방법은 직접적인 질문을 통해서 답변을 이끌어내는 인터뷰와 달리 존재하는 현상을 있는 그대로 관측한다. 개입을 최소화하고, 사람들이 평소에 문제에 대해서 어떻게 인지하고 있는지, 얼마나 불편하게 느끼는지, 어떻게 대응하는지, 또 어떠한 경로를 통해서 문제와 마주하게 되는지 등을 시간을 들여 관찰하고 기록한다. 이러한 기법을 활용하면 편향 없이 현상에 대한 배경을 이해할 수 있다. 에스노그라피적 관측을 통해 이해를 얻으면, 문제를 정의하고 해결하기 위해서 어떤 데이터를 보는 것이 좋을지 알 수 있으며, 혹은 현상을 더 깊이 이해하기 위해서 어떤 사람을 인터뷰해야 할지 판단할 수 있다.
이러한 에스노그라피는 현상을 이해하기 위한 정성적 조사 방법 중에서도 가장 전통적인 조사 방법이다. 1767년 서적에서도 에스노그라피라는 용어가 등장했을 정도로 인류 문화의 발전과 함께해온 방법이라고 할 수 있다. 대면 인터뷰, 그룹 인터뷰, 아케이드 조사, 설문 조사 등 조사 방법은 사회 문화의 발전과 함께 형성되고 개발되어 왔다. 또한 이러한 조사는 인터넷 기술의 발전과 보급으로 디저털 사회에 맞추어 변화되었다. 과거 직접 만나서 수행하던 인터뷰는 화상 전화 인터뷰로 일부 대체되었으며, 현장에 나가서 의견을 묻던 아케이드 조사는 인터넷 투표로, 종이로 받던 설문 조사는 온라인 양식으로 대체되었다. 에스노그라피 방법 역시 인터넷 기술을 통해서 디지털화되었다. 과거 사람들이 활동하는 공간에서 참여 관찰하던 것에서 사람들이 온라인상에 자유의지를 갖고 작성한 글들을 관찰하는 형태로 말이다.
어떤 사람들이 어떤 주제에 대해서 이야기하고 있는지, 어느 시점에 작성되었는지, 어떠한 성향을 가진 인터넷 플랫폼을 통해서 이야기하는지, 얼마나 많은 사람들이 공감하는지, 혹은 반대하는지 등을 관측할 수 있다. 이러한 온라인 관측 데이터는 현상의 배경을 이해하는데 아주 큰 도움을 준다. 그리고 이러한 이해는 다시 데이터 리터러시를 강화하는데 도움을 주는 구조다.
· 사람들의 의견을 통해서 현상과 배경을 둘러싼 주변 환경을 이해할 수 있다. 이를 통해서 문제 해결에 필요한 데이터가 무엇인지 정의할 수 있다.
· 문제 해결에 필요한 데이터가 무엇인지 정의했으니, 더 이상 데이터를 탐색할 필요가 없다. 필요한 데이터를 추출하면 된다.
· 전반적인 배경을 이해하고 있으니, 문재 해결 방법 및 그에 따른 데이터 변화 가설을 수립할 수 있다.
데이터 리터러시(데이터 문해력)는 서비스 기획자가 올바른 가치 판단을 하기 위해서, 그리고 정량적인 목표를 제시하기 위해서 반드시 필요한 역량이다. 조금은 절망적인 사실이지만, 설명한 것처럼 데이터는 생성된 배경에 따라 해석하는 방법이 달라질 수밖에 없기 때문에 데이터 리터러시를 강화하기 위한 '데이터 리터러시의 정석'과 같은 교과서는 존재하지 않는다. 데이터를 잘 읽으려면 데이터를 읽어내는 능력보다 주변 환경에 대한 이해가 선행되어야 한다. 그래도 다행인 것은 주변 환경에 대한 이해는 누구나 관심을 기울이면 언젠가 해낼 수 있다는 것이다. 직접 공부를 하던, 인터뷰를 하던, 에스노그라피적 관찰을 수행하던 자신에게 익숙한 방법으로 주변 환경을 이해하고 나면 조금 더 유연하게 데이터를 볼 수 있게 된다.