생활 데이터 활용을 시작하는 네 가지 방법: 문제, 데이터, 도구, 분석
지난 글에서 생활 데이터라는 트렌드, 그리고 그 중요성과 가치를 알아보았다. 많은 분들이 생활 데이터의 필요성에 대해 공감하셨는지 필자의 글에 좋은 반응을 보이셨고, 페이스북의 생활데이터 그룹에는 벌써 많은 분들이 활발히 활동하고 있다. 지난주에는 아파트 매매량 분석에 관한 전희원 님의 발표로 2차 정모를 성황리에 마쳤다. 우리나라에도 데이터를 실천으로 배우고자 하는 분들이 많다는 것을 새삼 느낄 수 있었다.
하지만 생활 속 데이터 활용이 누구에게나, 혹은 처음부터 쉬운 것은 아니다. '데이터는 남의 이야기'라고 생각하다가 갑자기 뭔가 해보려면 막막할 것이다. 무슨 문제를 어떻게 풀어야 할지, 데이터는 어디서 구할 수 있는지 막막할 것이다. 지난번 글을 올린 이후에 '생활 데이터는 도대체 어떻게 시작하는 것이 좋을까요?'가 필자가 가장 많이 받았던 질문이다.
본 글에서는 이처럼 생활 데이터 활용을 시작해보려는 분들에게 도움이 될만한 지침을 제공하려고 한다. 여기서 데이터에 관심을 갖게 된 계기는 사람마다 다를 것이며, 각 상황에 따라 어떤 방법이 적합한지도 달라질 것이다. 따라서 이 글에서는 다음 네 가지 상황으로 나누어 데이터 활용을 시작하는 방법을 설명하고자 한다.
1. 데이터로 직접 풀어보고 싶은 문제가 주변에 있다.
2. 관심이 가는 데이터로 뭔가 유용한 것을 해보고 싶다.
3. 뭔가 배워 활용해보고 싶은 데이터 수집 및 분석 도구가 있다.
4. 어딘가에서 흥미 있는 사례를 읽고 따라 해보고 싶다.
최근 빅데이터 열풍으로 사람들이 데이터 자체에 관심을 갖는 트렌드가 생겨났지만, 데이터는 본질적으로 어떤 현상에 대한 문제 해결을 위한 수단이다. 이런 의미에서 생활 속 데이터 활용의 가장 자연스러운 출발점은 자기 주변의 문제에서 시작하는 것이다. 이는 필자 스스로가 대부분의 생활 데이터 프로젝트를 시작한 방법이기도 하다. 문제 정의를 통해 자신의 고민을 데이터 문제로 바꾸는 것이다.
한번 생각해보자. 내가 최근에, 혹은 지속적으로 가장 관심을 갖는 문제는 무엇일까? 그 문제에 관련된 현상을 어떻게 데이터화할 수 있을 것인가? 관련된 데이터가 이미 어딘가에 존재하는가? 아니라면 어떻게 수집할 수 있을까? 그 데이터를 분석하기 위한 최선의 방법은 무엇일까? 이런 질문에 대한 답을 생각하는 과정에서 문제의 세부사항 및 필요한 데이터의 모습이 구체화될 것이다.
데이터 수집에 관한 필자의 글에서 밝힌 대로 세상에 존재하는 모든 현상은 어떤 형태로든 흔적을 남긴다. 그리고 이런 흔적을 포착해 데이터화하기 위한 다양한 방법이 존재한다. 자동화된 측정도구가 없다면 수동으로, 그리고 눈에 보이지 않는 주관적이고 심리적인 현상이라면 직접 관련된 사람에게 물어보는 서베이 등의 방법을 사용하면 된다. 데이터 수집의 한계는 자신의 상상력이다.
필자가 처음 데이터 과학 입문서 집필을 위한 본격적인 글쓰기를 시작했을 때, 매일 쓰는 글의 양과 질을 데이터화하여 개선한 방법을 간단히 소개한다. 글의 양은 단어 수로 쉽게 측정할 수 있었지만, 좀 더 편리한 데이터 수집을 위해 텍스트 문서에서 단어 개수를 계산하여 통계화하는 간단한 프로그램을 작성하였다. 그리고 글의 질을 데이터화하기 위해서는 독자그룹 분들에게 피드백을 요청하는 양식을 만들어 활용하였다.
생활데이터 그룹의 강한별 님께서는 어떻게 나를 소개하는 것이 좋을까?라는 글에서 데이터 분야에서 일하는 자신을 표현하기에 가장 적당한 방법을 데이터를 기반으로 찾는 방법을 소개하였다. 데이터 과학자, 데이터 분석가, 그로스 해커 등 널리 쓰이는 직업명의 검색 추이와 연관 검색어를 분석한 결과 아래와 같은 연관어 맵을 그릴 수 있었다. 데이터 분석가와 과학자는 비슷한 의미를, 그로스 해커는 좀 더 마케팅과 연관된 단어라는 사실을 알 수 있다. 이처럼 데이터는 생활 속 작은 궁금증을 해결하는 데도 유용하게 쓰인다.
최근 여러 분야에서 다양한 데이터가 공개되고 있다. 데이터 공유에 따른 투명성의 확보 및 열린 혁신에 대한 인식이 높아졌기 때문일 것이다. 이런 공개 데이터는 데이터를 공부하는 모든 사람들에게 축복이다. 직접 데이터를 수집하는 수고를 덜고, 데이터 준비 및 분석 등 다음 단계에 집중할 수 있기 때문이다. 독자분들 가운데서도 공개 데이터를 보고 뭔가 해보고 싶다고 생각한 분이 있을 것이다. 혹은 핏빗이나 미밴드와 같은 데이터 수집 도구를 장만한 경우도 있을 것이다.
하지만 데이터가 있다고 바로 제대로 된 분석이 가능한 것은 아니다. 데이터를 가지고 어떤 문제를 풀고 싶은지 답할 수 있어야 한다. 만약 OECD에서 제공하는 회원국의 다양한 통계자료를 가졌다고 하자. 내가 관심을 갖는 현상 중에 해당 데이터로 알아볼 수 있는 것은 무엇인가? 그리고 본격적인 분석에 착수하기 이전에 해당 문제를 이해하고 자신의 관점을 갖는 것은 데이터를 해석하는데 큰 도움이 된다. 이런 고민 없이 데이터를 보는 것은 시간낭비에 그칠 공산이 크다.
어느 정도 문제가 정해진 뒤에는 주어진 데이터를 어떻게 문제 해결에 활용할 것인지도 생각해봐야 한다. 데이터는 어떤 형태이며, 분석에 필요한 형태로 가공하기 위해서는 어떤 단계를 거쳐야 하는가? 문제 해결을 위해 추가적인 데이터 수집이 필요하지 않은가? 분석을 위해 사용 가능한 도구와 기법은 무엇이며, 그중 내게 친숙한 것은 무엇인가? 어떤 도구 및 기법을 추가적으로 학습해야 할 것인가? 이런 고민이 주어진 데이터에서 최대한의 가치를 끌어내는데 도움을 줄 것이다.
필자의 글 가운데 가장 많은 공유 횟수를 기록했던 우리나라 자살률 분석을 예로 들어보자. 필자는 처음 우리나라의 자살률 관련 기사를 접하고 좀 더 추가적인 분석을 하고 싶은 욕심에 OECD 홈페이지에서 공개된 데이터를 살펴보았다. 하지만 OECD 데이터는 국가별 통계만을 제공할 뿐, 좀 더 세부적인 분석을 위해서는 세분화된 데이터를 찾아야 했다. 결국 관련된 논문 및 통계청 홈페이지에서 성별 나이별 자살률 통계를 발견하여 분석을 완성할 수 있었다. 이처럼 데이터를 구한 이후에도 결과를 내기까지는 여러 단계가 필요하다.
생활데이터의 김영웅 님은 지하철 유동인구 데이터를 살펴보다가 크리스마스이브에 잠실역 승하차 인원이 급증하는 것을 발견하였다. 김영웅 님은 이 데이터를 통해 평일보다 휴일에 유동인구가 줄어드는 장소를 찾으면 붐비지 않는 곳에서 데이트를 할 수 있겠다는 생각을 하게 된다. 그 결과물이 '슬로 데이트' 프로젝트로, 크리스마스에는 어디를 가야 할까? (슬로 데이터를 위한 데이터 스팟)라는 글에서 좀 더 자세히 만날 수 있다. (슬라이드 링크)
데이터에 대한 관심 만큼이나 데이터를 다루는 도구 및 기법도 넘쳐나는 시대다. 데이터를 공부하는 사람이라면 자신의 '주 무기' 하나쯤은 필요하니, 데이터 공부에 있어서 자신에게 맞는 도구를 하나 배우는데 투자를 하는 것도 나쁘지 않다. 필자는 보통 엑셀과 R을 용도에 따라 나누어 쓰는 것을 권한다. 필자의 예전 글에서 소개한 대로 간단한 일회성 분석에 엑셀, 그리고 좀 더 복잡하고 반복되는 분석에 R을 활용하는 식이다.
하지만 도구 학습에서 데이터 공부가 끝나는 경우를 주변에서 많이 본다. 예컨대 R을 공부하는 것이 데이터 과학을 공부하는 전부인양 생각하거나, 통계책을 읽는 것으로 데이터 공부가 끝난다고 생각하는 것이다. 하지만, 이는 톱 사용법만 배우면 솜씨 좋은 목수가 될 수 있을 것이라고 생각하는 것과 같다. 좋은 목수라면 주어진 물건을 만들기 위해 적당한 나무를 고르는 방법, 그리고 나무를 어떻게 가공할지에 대한 계획, 그리고 실제 가공을 거쳐 물건을 완성하는 단계에까지 정통해야 할 것이다.
데이터로 주어진 문제를 해결하는 과정에서도 데이터 수집, 가공, 분석 및 결과 소통에 이르기까지 여러 단계가 반복되는 것이 보통이다. 따라서 자신이 익히고 싶은 도구 혹은 분석 기법이 있다면 그냥 책만 볼 것이 아니라, 해당 기법으로 해결하기 적합한 문제 및 데이터를 찾아보아야 한다. 그리고 기본적인 도구 사용법을 익힌 후에는 실제 데이터를 문제 활용에 끊임없이 적용해 가면서 도구 사용법을 같이 익혀야 할 것이다. 이렇게 학습한 도구는 목수의 손에 익숙한 연장처럼 문제 해결에 바로 사용할 수 있을 것이다.
또한 자신이 해당 도구를 가지고 무엇을 하고자 하는지 정확히 안다면, 웹검색 등을 통해 이와 비슷한 사례를 찾을 수도 있다. 정보 시각화 분야에 잘 알려진 D3라는 라이브러리가 있다. 필자의 개인 행복도 측정 프로젝트에서 웹상으로 볼 수 있는 달력 형태의 시각화를 구현할 필요가 생겨 D3를 공부하기로 마음을 먹었다. 하지만 기본 개념을 공부하고 나서 필자가 만들고자 하는 달력 기능을 이미 제공하는 예제를 발견했다. 그래서 필자는 별 노력을 들이지 않고 결과를 얻을 수 있었다. 비슷한 기능을 맨땅에 구현하려고 했다면 훨씬 오랜 시간이 걸렸을 것이다.
지금까지 데이터 문제 해결의 3요소라고 할 수 있는 문제, 데이터, 그리고 도구에서 각각 출발하여 데이터 활용을 시작하는 세 가지 방법을 살펴보았다. 이는 자신이 가진 요소에서 출발하여 다른 요소를 채워가는 접근 방법이다. 하지만 세상에는 이미 날고 기는 고수들이 공개해놓은 수많은 데이터 분석 및 활용 사례가 존재한다. 맨땅에서 시작하는 대신 관련된 주제에 대한 다른 사람들의 분석에서 출발하는 방법은 어떨까?
자신이 하려는 분석과 비슷한 사례가 있다면 더할 나위 없겠지만, 그렇지 않더라도 다른 사람의 분석 결과를 살펴보는 것은 데이터 공부를 위해 필수적인 과정이다. 일단 데이터 수집 및 분석, 그리고 결과의 전달 방식에 이르기까지 어떤 기법과 도구를 사용했는지 꼼꼼하게 살펴보자. 또한 대부분의 분석 리포트의 말미에는 이번 분석에서는 다루지 못했지만 흥미 있는 미해결 과제를 다루는 것이 보통이다. 분석 리포트와 함께 분석에 사용된 데이터셋을 공개하는 트렌드도 점자 확산되고 있다.
필자가 데이터 공부를 시작한 이후에 자주 방문하는 사이트 중 FiveThirtyEight이 있다. FiveThirtyEight은 정치, 사회, 스포츠에 이르기까지 각 분야의 깊이 있는 데이터 저널리즘을 접할 수 있는 좋은 학습 자료다. 더 멋진 것은 상당수의 기사에 사용된 데이터를 FiveThirtyEight의 GitHub페이지에서 구할 수 있다는 점이다. 깊이 있는 분석에 멋진 인포그래픽, 그리고 원하면 데이터로 추가적인 분석까지 해볼 수 있는 FiveThirtyEight을 꼭 추천한다. (주: 개인 데이터 분석에 관심이 있다면 Quantified Self의 발표 자료 역시 빼놓을 수 없다.)
지금까지 생활 속 데이터 활용을 시작하기 위한 네 가지 방법을 소개했다. 독자 여러분의 상황에 따라 문제, 데이터, 혹은 도구에서 출발하여 나머지 요소를 채워가는 것이 생활 데이터를 시작하는 기본적인 방법이며, 이 과정에서 비슷한 영역의 잘 된 분석 결과를 참고하면 많은 도움을 받을 수 있다는 것을 알아보았다.
이 방법 중 무엇이 최선의 방법일까? 필자는 생활 속 데이터 활용의 배우는 데 있어서 '정도'는 없다고 생각한다. 단, 순서야 어떻든 간에 뚜렷하고 강력한 동기 (문제), 뭔가 해볼 수 있는 재료 (데이터), 재료를 다루기 위한 준비가 (도구) 모두 갖추어져야 제대로 데이터를 공부할 수 있다. 데이터 공부의 필수 3요소로서 문제, 데이터, 도구 중 한 가지도 빼먹지 않도록 하자.
또한 데이터는 가급적 혼자 공부하지 않는 것이 좋다. 복잡한 현상에 대한 해석이 사람마다 다를 수 있듯, 주어진 데이터에서 결론을 도출하는 과정도 사람마다 다르며, 이처럼 서로 다른 관점을 가진 상대와 의논하는 과정에서 많은 것을 배울 수 있기 때문이다. 데이터 과학의 아버지라고 할만한 DJ Patil이 데이터 과학은 팀 스포츠라고 말한 데는 다 이유가 있다.
추신: 저의 책 '헬로 데이터 과학'이 지금 YES24에서 예약판매 중입니다. 데이터 공부를 함께하실 분들은 생활 데이터 그룹에 가입하시면 됩니다. 데이터 활용에 관한 더 많은 이야기를 제 블로그와 페이스북, 트위터에서 만나실 수 있습니다.