데이터 관련 기술을 공부하기에 앞서 데이터 습관을 가져야 하는 이유
연재 순서
데이터를 삶과 업무에 활용하기 위해서 기술보다 먼저 갖추어야 하는 것이 데이터 마인드라고 밝혔다. 여기서 데이터 마인드는 생활 속에서 데이터와 문제를 발견하는 수집 마인드, 주어진 데이터를 다양한 관점에서 바라보고 적절한 결론을 유도하는 분석 마인드, 데이터를 통해 얻은 결론을 받아들이고 행동에 옮기는 실천 마인드, 마지막으로 분석 및 실천의 결과를 소통하고 이를 통해 배우는 공유 마인드로 나누어 생각해볼 수 있다.
데이터 마인드를 갖기 위한 방법으로 '데이터 습관'을 이야기했다. 데이터 습관은 데이터 마인드를 함양하기 위한 행동 양식이다. 습관이 제 2의 천성이라는 말처럼 일상과 업무 속에서 꾸준히 데이터 습관을 기르는 것이 데이터 마인드를 갖는 유일한 방법이라는 생각이다. 수집 마인드와 분석 마인드를 다루었던 지난 글에 이어, 오늘은 실천 마인드와 공유 마인드를 키우는 데이터 습관에 알아보자.
데이터 수집과 분석이 데이터로부터 결론을 이끌어내는 과정이라면 실천은 그 결론을 실제로 행동에 옮겨 가치를 얻어내는 과정이다. 말은 해야 맛이고, 고기는 씹어야 맛이라는 말처럼 데이터를 아무리 열심히 분석했어도 그 결과를 행동에 옮기지 않는다면 무의미한 일이다. 어찌 보면 당연해 보이는 실천을 강조하는 이유는 데이터를 통해 얻은 결론을 행동에 옮기는 과정이 생각만큼 간단치 않기 때문이다.
우선 데이터를 바탕으로 내린 결론을 있는 그대로 받아들이는 것부터가 쉬운 일이 아니다. 보통 데이터 수집 및 분석은 문제에 대한 특정한 관점에서 가설을 세우는 것에서 시작한다. 이런 가설은 데이터 분석에 초점을 부여하여 시간을 절약할 수 있게 해주지만, 자신이 기대하지 (혹은 원하지) 않는 결과가 나왔을 때에는 이를 받아들이는 것을 힘들게 한다. 따라서 관점을 갖되, 관점이 편견으로 작용하는 것을 경계하는 태도가 필요하다.
또한 조직 차원의 문제 해결 상황에서 분석 결과를 이해 당사자들과 소통하는 것도 또 다른 도전이다. 문제와 관련된 모든 사람에게는 각자의 관점과 이해관계가 있게 마련이기에, 데이터로부터 내린 결론이 모든 사람의 마음에 드는 경우는 예외에 가깝다. 다른 사람들의, 특히 자신의 상사나 고객의 생각을 바꾸는 것이 쉽지 않기에 분석가들은 때로 분석 결과를 관계자들이 원하는 쪽으로 맞추고자 하는 유혹을 받기도 한다. 이런 유혹에서 벗어나 진실을 지키려는 노력이 필요하다.
요약하면 편견과 이해관계로 오염되지 않은 마음으로 데이터가 알려주는 결론에 귀를 기울이는 것이 실천 마인드의 출발점이다. 이런 순수성을 지켜내지 못하는 개인이나 조직에게 데이터는 모두를 진실과는 다른 방향으로 인도하는 독약과 같은 역할을 할 것이다. 그리고 최근에 세상을 떠들썩하게 했던 논문 조작 사건에서처럼 진실은 언젠가 밝혀지게 마련이고, 진실을 호도하는 주체는 결국 응분의 대가를 치르게 된다. 적어도 데이터를 다루는 사람에게는 이런 신념이 필요하다.
실천 마인드의 두 번째 요소는 결론을 실천하는 과정이 문제 해결의 끝이 아니라 시작이라는 점을 인식하는 것이다. 데이터에 기반한 문제 해결은 대부분 표본 추출 및 측정 과정에서 불확실성을 갖는다. 따라서 일단 내려진 결론이라도 항상 오류의 가능성을 내포하고 있다. 따라서 데이터에서 얻은 결론을 실천하는 개인이나 조직은 항상 이를 염두에 두고 실천 과정에서도 꾸준히 결론을 검증하는 습관을 가져야 한다.
이를 달성하는 가장 좋은 방법은 실천 단계에서도 꾸준히 데이터를 수집하고 분석하며 과연 기대한 결과를 얻었는지를 점검하는 것이다. 즉, 데이터 수집이 일회성이 아닌 삶과 비즈니스의 자연스러운 일부로 정착되어야 하는 것이다. 실제로 필자가 근무하는 마이크로소프트를 포함한 온라인 서비스 기업들은 의사결정을 내리기 위해서뿐만 아니라, 일단 결정된 사안이 실무에 정착되는 과정에서도 데이터 수집 및 분석을 실천하고 있다.
최근 스타트업 성장의 공식처럼 여겨지는 린 스타트업의 핵심에도 이런 '실천'의 단계가 빠질 수 없다. 아래 그림에서는 아이디어를 구체화하여 제품을 만들고, 이를 론칭 하여 얻은 데이터에서 다음 단계로 나아가기 위한 아이디어를 얻고, 이 과정을 반복하는 린 사이클(Lean Cycle)을 설명하고 있다. 여기서의 핵심은 제품을 만드는 실천 단계와 데이터를 수집하는 측정 단계가 작은 단위로 반복된다는 것이다.
지금까지 수집, 분석, 그리고 실천 마인드를 키우는 데이터 습관에 대해 알아보았다. 마지막으로 공유 마인드에 대해 생각해보자. 문제를 잘 풀면 됐지 왜 이를 공유해야 하느냐고 생각하는 독자들이 있을 것이다. 하지만 이는 데이터에 기반한 문제 해결의 본질을 이해하면 풀리는 의문이다. 데이터의 개념에 대한 필자의 글에서 밝혔듯 데이터는 본질적으로 현상의 불완전한 반영이다. 현상의 단편 가운데 데이터화할 속성을 선택해야 하고, 많은 경우 전체가 아닌 표본추출을 통해 데이터를 수집해야 하기 때문이다.
따라서 데이터 기반의 문제 해결이 제대로 이루어지기 위해서는 이런 불완전성에 대한 인식과, 이를 극복하기 위한 노력이 필수적이다. 그리고 문제 해결의 과정 및 결과를 공유하는 것은 이를 달성하는 가장 효과적인 방법이다. 필자가 말하는 공유 마인드는 단순히 분석 결과를 발표하는 것이 아니라 문제 해결의 전 과정을 끊임없이 이해당사자와 소통하는 투명한 프로세스를 지향하는 것이다. 데이터 수집, 준비, 분석 등 문제 해결의 전 과정에서 개인의 한계를 집단 지성의 힘으로 극복할 수 있기 때문이다.
이해를 돕기 위해 울창한 정글 속에서 길을 찾는 상황을 떠올려보자. 정글에서는 자신이 어디 있는지, 그리고 어디로 가고 있는지를 파악하기가 어렵다. 이런 상황에서 혼자 길을 찾아야 한다면 방향감각을 잃고 헤매기 십상이다. 하지만 여러 명이 힘을 합치면 왔던 길을 기억하기도, 그리고 나아가야 할 방향을 결정하기도 수월할 것이다. 그래서 데이터 과학이라는 이름을 만들었으며, 링크드인 등을 거쳐 지금은 미국 백악관의 수석 데이터 과학자인 DJ Patil은 데이터 과학자는 팀 스포츠라는 말을 남겼는지도 모른다.
문제 해결 과정에서의 공유가 더 나은 결론에 기여한다면, 그 결과를 공유하는 일은 문제 해결 과정에서의 배움을 정리하고, 문제 해결에 직접 참여하지 않은 다른 사람들에게도 그 배움이 전파되는 것을 가능케한다. 특히 데이터를 통해 얻은 결론은 이와 비슷한 다른 문제에도 적용할 수 있다는 장점이 있다. 문제를 한 번만 풀어 놓으면 결과를 폭넓게 사용할 수 있는 것이다. 객관적인 관찰과 실험에 근거하는 과학 논문이 전 세계적으로 읽히는 것은 이런 이유에서다.
선도적인 온라인 기업들은 이미 자사의 데이터 처리 인프라, 그리고 실험 방식 및 결과 등 다양한 노하우를 오픈소스 소프트웨어, 블로그 및 논문의 형태로 공유하고 있다. 물론 모든 내부자료가 다 공개되는 것은 아니겠지만, 회사의 비즈니스 과정에서 얻어진 노하우와 배움을 선별적으로 공유함으로써 기술 선도 기업으로서의 위치를 공고히 하고 관련 커뮤니티에 기업 이미지를 제고할 수 있다. 오늘날처럼 지식이 가치 창출의 원천이 되는 세상에서 이런 노력은 기업의 재무 및 인적 자원 유치에 도움을 줄 것이다.
최근에는 거대 기업이 아니라도 데이터 분석의 결과를 공유하는 다양한 장이 생겨나고 있다. 개인 블로그 및 SNS등에 이를 공개하는 사람들도 많고, Quantified Self와 같은 커뮤니티는 개인이 자신의 데이터를 직접 분석한다는 주제로 다양한 모임과 컨퍼런스를 개최하고 있다. 필자도 보스턴 및 시애틀 지역의 Quantified Self 모임에 참석하여 필자의 개인 데이터 분석 프로젝트를 발표한 경험이 있는데, 온라인에 공유되는 비디오를 보면 대단한 발견은 아니더라도 이를 공유함으로써 서로 배움의 기회로 삼는 많은 사람들을 만날 수 있다.
이번 글에서는 지난번에 이어 분석 결과의 실천과 공유를 중심으로 데이터 마인드를 키울 수 있는 습관에 대해 알아보았다. 분석 결과를 실천하는 과정에는 다양한 장벽이 존재하며, 이 과정에서도 데이터를 수집해서 다음 단계를 준비해야 한다는 점을 강조했다. 현실을 100% 담을 수 없는 데이터의 본질적인 불완전성과 이를 극복하기 위한 소통의 중요성, 그리고 문제 해결 과정에서의 배움을 공유하여 더 큰 가치를 창출할 수 있는 가능성을 언급했다.
지금까지 2회에 거쳐 수집, 분석, 실천 및 공유 마인드를 키우는 습관에 대해 알아보았다. 요약하면 데이터 마인드를 키우기 위해서는 일상에서 끊임없이 데이터화 할 수 있는 문제와 데이터로 해결 가능한 현상을 찾고 (수집 습관), 자기 주변의 데이터를 분석해보거나 다른 사람의 분석 결과를 비평해보고 (분석 습관), 분석 결과를 꼭 실천하면서 검증하고 이를 통해 현상을 좀 더 개선하기 위해 노력하고 (실천 습관), 마지막으로 사소한 배움이라도 꼭 주변과 나누는 습관이 필요하다. (공유 습관)
필자의 경험에 따르면 이런 습관을 갖다 보면 몇 가지 깨달음을 얻게 된다. 우선 주변에 생각보다 데이터로 해결할 수 있는 문제가 많다는 것, 그리고 데이터 수집 및 분석의 효과를 보기까지 생각만큼 큰 데이터가 필요하지도 않고 많은 노력이 들지도 않는다는 것, 하지만 데이터의 가능성을 최대한 활용하기 위해서는 좀 더 배워야 한다는 것 등이다. 이런 생각이 든다면 데이터 관련 지식과 기술을 본격적으로 익혀야 할 때다.
그렇다면 어떤 지식과 기술을 익혀야 하는가? 이런 질문을 받으면 필자는 '그때 그때 다르다'고 대답한다. 데이터의 유형 및 크기, 그리고 이루고자 하는 목표에 따라 어떤 도구 및 분석 방법을 써야 할지가 달라지기 때문이다. 예전에 소개한 대로 종이와 펜으로도 충분한 데이터 분석도 존재하며, 혹은 고도의 통계 모델이나 빅데이터가 필요한 경우도 있을 것이다.
결론적으로 데이터 마인드를 기르면서 틈틈히 자신이 풀고자 하는 문제와 데이터의 성격을 고민하다 보면 자신에게 맞는 도구와 방법을 찾을 수 있을 것이다. 반면에 덮어놓고 도구나 지식부터 익히려는 접근 방법은 동기부여도 쉽지 않을 뿐더러 문제 해결에 도움이 되지 않는 공부를 위한 공부가 되기 쉽다는 것을 명심하자.
추신: 여러분의 데이터 습관은 무엇인가요? 이 글에 내용에 대한 의견 및 궁금증이 있으시다면 댓글로 알려주세요. 데이터 활용에 관한 더 많은 이야기를 블로그와페이스북, 트위터에서만나실 수 있습니다. 그리고 독자그룹에 가입하시면 제 글을 우선적으로 받아보실 수 있습니다.