데이터 중심의 서비스 기획자에게 유용한 콘텐츠
이번 글은 Pamela Pavliscak의 Six miths about data-driven design라는 글을 요약하고 생각을 정리하였습니다.
데이터 기반 디자인의 목표는 알고리즘, 자동화, A/B 테스트, 분석을 넘어서 일상 경험에 대한 더 나은 이해를 하기 위한 것입니다.
데이터 분석을 기반으로 기획을 하면서 ‘데이터’에 관점에 대해서 고민을 할 때가 많은데요. 그러던 중에 예전에 읽었던 Change Science의 Pamela Pavliscak의 Six miths about data-driven design라는 글을 다시 보게 되었습니다. 저에게는 제가 하고 있는 데이터 분석에 대해 다시 생각해 볼 수 있는 글이었습니다.
그리고 데이터 분야가 낯선 분들에게는 최근에 너무 자주 듣고 있는 4차 산업혁명, 빅 데이터, 인공지능 등과 같은 유행어로 인해 데이터가 복잡하거나 쉽게 접근하기 어렵다는 생각을 할 수도 있을 것다는 생각이 들었습니다. 그래서 이번 글을 통해 데이터에 대한 잘못된 통념을 깨고 관점을 넓힐 수 있다고 생각해서 공유를 하게 되었습니다. (번역을 해볼까 하다가 검색해보니 브런치에 연구원케이님이 번역해주신 글이 있었습니다. 번역 글을 원하시는 분은 링크를 참고해주세요.)
번역 글이 있어서 저는 간단(?)하게 요약하고 제 생각을 정리해보려고 합니다.
데이터 분석을 하다 보면 서비스의 수많은 로그 기록에 파묻혀서 의미 있는 인사이트를 찾기 위해 시간을 보낼 때가 많은데요. 예를 들면, 특정 버튼에서 클릭 수, 웹 사이트에 방문자 수, 이전 기간 대비 증감률, 평균 거래액 등 수많은 숫자를 보게 됩니다. 그리고 이러한 수치를 바탕으로 새로운 기획을 하게 됩니다.
하지만 데이터는 숫자만을 의미하지 않습니다. 굉장히 학문적이진 하지만 제가 처음 배운 데이터 수업에서는 데이터의 정의에 대해서 배울 때 어떠한 의미를 가지기 전까지는 ‘데이터’는 어떠한 신호, 상징 등을 나타낼 수 있는 모든 것이라고 배웠습니다. 그래서 숫자로 표시할 수 있는 정량적인 수치는 물론 텍스트와 같이 정성적인 데이터도 있을 수 있습니다.
최근에 데이터의 양이 많아지고 이를 처리할 수 있는 기술이 나오기 시작하면서 ‘빅 데이터’의 중요성이 커졌습니다. 여기서 말하는 데이터는 로그 데이터와 같이 컴퓨터를 통해 쌓이고 있는 데이터를 의미합니다. 그래서 대부분 데이터라고 하면 복잡한 숫자로 표시된 것만을 떠올릴 때가 많습니다.
하지만, 산업과 시장에서 Big Data가 중요해지는 만큼 다른 특성을 가지고 있는 Thick Data의 중요성도 다시 부각되고 있습니다.(Thick Data는 초기 단계의 연구 방법으로 설문조사, 포커스 그룹 인터뷰, 관찰 등을 통해 얻는 데이터를 의미합니다.) 로그 데이터만으로는 사용자의 행동을 설명하는 데 한계가 있습니다.
특히 우리가 찾아야 하는 '왜(Why)'라는 질문에 있어서는 숫자는 일부분만 설명합니다. 따라서 이러한 간극을 메울 수 있는 것이 바로 Thick Data와 같은 방법입니다. 물론, 이러한 방법은 시간이 오래 걸릴 수 있다는 단점도 있지만 균형 잡힌 접근이 필요하다는 점에서 의미가 있는 것 같습니다.
최근에 제가 가장 많이 느끼고 있는 부분입니다. 기획을 하기 위해서는 DB에 차곡차곡 쌓인 데이터를 통해 사용자의 행동을 분석합니다. 그리고 여러 가지 결과를 바탕으로 기획을 위한 의사결정을 하게 됩니다.
예를 들어 A라는 채널에 하루 동안 공유된 콘텐츠의 클릭 수가 5만입니다. 그리고 공유된 콘텐츠로 다시 새로운 사용자가 100명이 생깁니다. 전환율을 계산해보니 0.2% 밖에 공유의 효과가 없다고 판단하게 됩니다. 그리고 A채널의 버튼의 노출 우선순위를 낮추게 됩니다. 이것은 올바른 결정일까요?
정답은 그럴 수도 있고 아닐 수도 있습니다. 모든 데이터는 사람에 의해서 만들어지고 사람에 의해서 해석되기 때문에 컴퓨터를 통한 데이터라고 하더라도 오류가 있을 수 있습니다. 원문에서는 이런 것을 편향(Bias)이라고 이야기하는데요. 편향(Bias)을 발생시키는 원인으로 누락, 중복, 강조 등이 있을 수 있습니다. 따라서, 아무리 데이터가 많은 '빅 데이터'라고 하더라도 분명 이러한 편향(Bias)이 존재하기 때문에 데이터 분석의 결과가 ‘사실’이 아닐 수 있습니다.
원문에서는 또 다른 편향(Bias)의 원인으로 하이젠베르크의 ‘불확정의 원리’를 예로 들었는데요. 이는 물리학 중 양자 역학에서 나온 원리입니다. 간단하게 설명하면 계속 변화하는 물질을 측정(관찰)하게 되면 측정된 물질은 이미 변화해버렸으므로 항상 관찰된 결과는 정확할 수 없다는 의미입니다.(자세히 설명은 위의 나무위키 설명 링크로 대신합니다.) 이를 서비스에 적용하면 ‘사람’에 대해 측정된 데이터는 정적인 대상이 아니기 때문에 과거의 데이터가 현재 대상을 설명하기에는 항상 오류가 존재할 수밖에 없습니다.
앞에서 예로 든 것에 오류를 가정하면, 실제 공유 수가 5만이 아닐 수 있습니다. 로그가 중복해서 찍혔기 때문에 실제 공유로 인한 신규 유저 전환율이 더 높을 수 있습니다. 이러한 오류를 발견하지 못했다면 공유를 통해서 새로운 유저를 불러올 수 있는 좋은 기회를 놓치게 됩니다. 그렇기 때문에 이러한 데이터를 볼 때는 오류가 없는지 항상 의심(?) 해야 합니다. 그리고 항상 결과는 '사실'이 아니므로 최대한 '사실'에 가깝게 접근하고 항상 오류가 존재할 수 있다는 자세로 의사결정을 해야 합니다.
원문에서 저자의 말이 위의 설명을 함축해서 설명하는 것 같습니다.
"데이터가 크던, 작던 완벽한 데이터는 없다. 모든 데이터에서 한계와 편향이 존재한다. 좋은 데이터는 이러한 편향들을 나타내고 항상 맥락(Context) 제공하는 데이터이다."
앞에서 설명했던 내용과 일부 중복되는 부분일 수 있습니다. 여기서 말하는 것은 데이터의 양 보다는 질이 중요하며, 특히 질을 높이기 위해서는 다양한 데이터를 기반으로 의사결정을 해야 한다고 말하고 있습니다.
이제 빅 데이터의 중요성은 누구나 알고 있는 사실이 되었습니다. 그리고 데이터의 양은 많으면 많을수록 좋다는 사실도 분명합니다. 하지만 데이터의 중요성은 빅 데이터의 3가지 속성처럼 데이터의 양(Volume)만을 의미하지 않습니다. 속도(Volume)와 함께 다양성(Variety)도 빅 데이터의 속성입니다.
사용자의 데이터는 한 가지 원인으로만 나타나지 않습니다. 우리가 보고 있는 데이터는 다른 여러 가지 원인의 결합을 통해 발생되는 데이터입니다. 따라서 우리가 집중해야 할 것은 데이터의 다양성입니다. 다양한 데이터를 기반으로 사람들의 행동을 보다 정확하게 분석하고 결정하도록 돕는 것이 원문에서 말하는 데이터 기반의 디자인입니다.
원문이 작성된 시기가 2016년이라서 최근의 트렌드와는 조금은 거리가 있다고 생각된 부분입니다. 저만 그렇게 생각할지는 모르겠지만 이제는 모두에게 데이터가 필요하다는 인식이 많이 퍼졌다고 생각합니다. 그렇기 때문에 조직 내에서 데이터는 관리자만이 아니라 구성원 모두에게 중요하게 생각되고 있습니다.
원문에서는 조직 내에서 데이터를 사용할 때 주의해야 할 점에 대해서 말하고 있습니다. 바로 '사일로 효과'인데요. 사일로 효과란 조직 내의 부서 간에 담을 쌓은 것처럼 교류가 없이 자신만의 이익을 얻으려고 할 때 발생되는 문제를 말합니다.
스타트업에서도 개발자, 디자이너, 기획, 사업부서 등 다양한 팀이 존재합니다. 그리고 각 팀에서 바라보는 데이터가 서로 다르기 때문에 의사결정에서 충돌이 발생할 수 있습니다. 그리고 심하면 서로 교류가 없는 사일로 효과의 문제가 있을 수 있습니다.
그래서 이럴 때 필요한 것이 바로 소통입니다. 그리고 개인적으로 데이터 기반의 소통을 잘하기 위해서는 조직은 구성원들에게 데이터를 공개하고 접근할 수 있도록 하고 구성원은 이러한 데이터를 해석할 수 있는 데이터 독해력(Data Literacy)을 갖추는 것이 필요하다고 생각합니다.
또한 원문에서 데이터를 디자인에서 활용할 때 세 가지 측면이 있다고 이야기합니다. 개선, 발견, 증명입니다. 여기서 주의해야 할 점이 바로 '증명'입니다. 보통 사람들은 자신의 성과나 결정의 증명을 위해 데이터를 많이 사용합니다. 하지만 우리는 바로 서비스를 '개선'하고 성장시킬 수 있는 '발견'을 하기 위해 데이터를 활용해야 합니다. 이 부분은 현업에서 일하면서 제가 분석하고 있는 데이터가 저의 작업 결과의 증명을 위한 것은 아닌지 항상 주의하게 하는 부분이었습니다.
처음에 원문을 읽으면서 이건 무슨 말인지 한참 생각을 했어야 했습니다. 데이터를 중요하게 생각하는 저에게는 혁신을 위해서는 데이터가 필요하다고 생각했기 때문입니다. 원문에서는 세 가지 대표적인 사례를 통해 데이터가 혁신의 장애물일 수 있다고 설명합니다.
- 데이터는 사용자의 과거를 담고 있으므로 미래를 바꿀 혁신을 만들기 어렵다.
- 데이터는 전략보다 전술이다. UX의 유명한 사례로 구글의 41가지 파란색 테스트에 대한 예를 보면 데이터를 통해 디자인을 하는 것이 굉장히 표면적인 의사결정을 돕기 때문에 혁신을 만들기 어렵다.
- 데이터 분석이 사용자의 클릭이나 스크롤 시간 등 피상적인 것만을 다루기 때문에 사용자의 동기, 인식, 기대, 감정 등에 기반한 큰 변화를 만들기 어렵다.
위의 예를 보면 왜 데이터가 혁신의 걸림돌이라는 의견이 있는지 이해가 됩니다. 원문에서도 말하고 있지만 데이터를 어떻게 활용하는지에 따라 혁신의 걸림돌이 될 수도 있고 혁신의 원동력이 될 수도 있습니다.
사람들이 사는 세상의 문제는 단순하지가 않습니다. 당시에는 가장 적합한 해결방법이라고 하더라도 시간이 지나면서 아닐 수 있는 것처럼 항상 동일한 효과를 나타내는 데이터 활용 방법은 존재하지 않습니다. 다만, 참고할 수 있는 가이드라인이 있을 뿐입니다.
원문에서 이야기하고 있는 가이드를 그대로 아래와 같이 정리하였습니다.
- 디자인에 분석, A/B 테스트, 소셜 미디어 감정 분석, 사용자 로그, 판매 데이터, 설문조사, 인터뷰, 사용성 테스트, 리서치 등과 같은 다양한 자료로부터 나온 데이터를 사용하라.
- 숫자와 맥락(Context)을 포함하라. 이런 것들이 정성적과 정량적, 조사와 비 조사, 빅 데이터와 Thick Data라고 부르든지 상관없이 실제 이야기를 설명할 수 있는 숫자와 맥락(Context)이 필요하다.
- 데이터는 사용자 경험의 복잡성에 대해 영향받기 쉽다는 것을 확실히 알아야 한다. 평균값 사용을 자제하고 추측을 주의하며 증명하는데 편견을 갖지 말고 하라.
- 단지 옳고 그름을 증명하는 것이 아니라 시간의 변화를 추적하고, 새로운 패턴을 발견하고 문제를 깊게 파고들기 위해 데이터를 사용하라.
- 당신이 데이터를 이해할 수 있고 경험에 대한 설명할 수 있는 분야를 선택하라.
- 조직 내에서 데이터에 대해 논의하고 공유할 수 있는 방법을 개발하고 다 함께 기본을 명확히 하는 것부터 시작하라.
위의 내용이 충분해서 더이상 부연설명은 필요 없을 것 같습니다. 데이터를 다루는 많은 스킬들이 있지만 이러한 방법은 참고사항일 뿐입니다. 가장 중요한 것은 항상 왜(Why)라는 질문을 놓지 않고 다양한 데이터를 통해 사용자를 이해하도록 노력하는 것입니다.
이번 글의 마지막은 서두에 소개했던 원문에서 저자의 메시지로 대신하겠습니다.
데이터 기반 디자인의 목표는 알고리즘, 자동화, A/B 테스트, 분석을 넘어서 일상 경험에 대한 더 나은 이해를 하기 위한 것입니다.