내가 '빅데이터'라는 말을 싫어하는 이유
여러분이 '데이터'에 대해 생각할 때 떠오르는 것은 무엇인가? 아마도 많은 사람들은 컴퓨터와 같은 정보 기기와 이를 귀신같이 다루는 프로그래머, 혹은 가운을 입은 과학자를 떠올릴 것이다. 최근에는 '빅데이터'가 유행이니 거기에 대형 기업용 컴퓨터 및 서버 팜(farm)을 떠올리는 사람이 있을지도 모르겠다. 이쯤 되면 대부분의 사람들이 데이터를 자신과 별 관계없는 먼나라 이야기로 생각하는 것도 무리는 아니다.
하지만 데이터의 본질은 무엇인가? 데이터는 어떤 현상의 단편을 포착하여 수치화 혹은 기호화한 것이다. 예컨데 국민투표는 어떤 사안에 대한 국민의 의견을 선택항으로 만들어 수집하는 과정이다. 학생의 성적은 어떤 과목에 대한 학생의 학업 성취도를 시험이라는 수단을 통해 측정하고 기록하는 것이다. 매일 아침 체중계가 말해주는 몸무게를 보고 울고 웃는 사람도, 일기예보를 보고 내일 일정을 계획하는 사람도 이미 데이터를 만들거나 소비하고 있는 것이다.
하지만 우리는 데이터의 가능성을 최대한 활용하고 있을까? '데이터=기술'이라는 편견에 사로잡혀 지레 겁을 먹고 있지는 않은가? 필자는 기술로서의 데이터가 아니라 마인드, 혹은 관점으로서의 데이터를 이야기하고 싶다. 관점으로서의 데이터는 세상을 데이터의 관점에서 바라보고, 이를 통해 세상을 변화시킬 수 있다고 믿는 것이다. 데이터 기반의 사고방식을 체화한다는 의미에서 이를 '데이터 본능'이라고 불러도 좋을 것이다.
필자는 그동안 데이터를 삶과 업무에서 활용하기 위해 다방면으로 노력해 왔다. 학생 때는 성적을 올리기 위해, 일을 시작하고 나서는 생산성과 행복도를 높이기 위해 데이터를 활용했다. 데이터 혁명의 진원지라고 할 수 있는 정보 검색을 공부하고 최근 3년동안은 검색회사의 데이터 과학자로 일하고 있다. 그 과정에서 빅데이터, 스몰 데이터 할것 없이 다양한 데이터와 장비, 분석 기법을 원없이 다루어 보았다. 이런 경험 끝에 필자가 내린 결론은 '데이터 마인드가 데이터 기술보다 먼저다'라는 것이다.
그렇다면 '데이터 마인드'는 무엇인가? 필자가 생각하는 데이터 마인드는 1) 현상에서 데이터를 발견하고, 2) 이를 통해 현상을 제대로 이해하고, 3) 나아가서는 현상을 개선하려는 마인드다. 다시 말하면, 데이터라는 렌즈를 통해 복잡다단한 현상에 대한 바르고 정확한 지식을 얻고, 이를 지렛대 삼아 주어진 문제를 해결하려는 사고방식이다. 데이터를 제대로 활용하기 위해서는 이런 데이터 마인드를 기르는 것이 복잡하고 난해한 프로그래밍 언어를 배우고 수학 공식을 이해하는 것보다 우선이라는 것이 필자의 생각이다.
현대적인 컴퓨터와 통계 이론이 등장하기 훨씬 전부터 데이터를 통해 다양한 문제를 해결했던 역사속 위인들의 이야기를 통해 데이터가 기술이 아니라 마인드라는 명제의 의미를 구체적으로 알아보자. 많은 사람들이 간호사로 알고 있는 플로렌스 나이팅게일은 19세기 말 크림전쟁 당시 전선에서와 후방의 병원에서 훨씬 많은 환자들이 죽어간다는 사실을 발견했다. 그녀는 자신의 발견을 다른 사람에게 알리기 위해 오늘날의 파이 차트와 유사한 당시에는 새로운 데이터 시각화 기법 등을 고안했고, 이런 그녀의 노력으로 후방 의료시설의 위생 상태가 개선되면서 후방에서의 사망률을 1/10로 낮출 수 있었다.
19세기 유럽 전역을 공포에 떨게 했던 콜레라의 원인이 밝혀진 것도 존 스노우라는 의사의 데이터 분석이 결정적인 역할을 했다. 같은 도시 내에서도 특정 지역에 거주하는 사람들의 콜레라 발병률이 훨씬 높다는 점에 착안한 그는 아래와 같이 지도에 콜레라 사망자의 수를 막대 그래프 형식으로 덧붙인 정보 시각화를 사용하여 특정 거리의 콜레라 발병률이 월등히 높다는 사실을 밝혀냈다. 본격적인 조사에 착수한 끝에 해당 거리의 식수 공급원이 콜레라 사망자들의 유품 등으로 오염되어 있다는 사실이 밝혀지고 식수원에 대한 관리를 통해 콜레라 사망률을 기록적으로 낮출 수 있었다.
사회 문제가 아닌 개인의 수양을 위해 데이터를 사용한 사례도 있다. 피뢰침 등 수많은 발명품과 함께 미국의 국부로 추앙받는 벤자민 프랭클린은 20대에 자신이 매일 지키고자 하는 13가지 덕목을 정하고 이를 지켰는지를 아래 왼쪽과 같은 표에 매일 기록하며 자신의 인격을 완성시키려 평생 애썼다. 또한 이 과정에서 자신을 다잡기 위해 아래 오른쪽과 같은 일상의 기록을 남겼다. 시스템 다이어리의 대명사가 된 프랭클린 다이어리는 여기서 기원하는 이름이다.
지금까지 살펴본 위인들의 사례에서 우리는 무엇을 배울 수 있을까? 그들은 주어진 현상의 본질을 포착할 수 있는 데이터를 수집하고, 간단한 분석 및 시각화를 통해 데이터에서 유용한 패턴을 찾아냈다. 그리고 그 가르침을 실천에 옮겨 중요한 사회 문제 혹은 자신의 삶의 문제를 해결하는 바탕으로 삼았다. 이들의 업적과 성취에는 어떤 고급 통계나 프로그래밍 기술도 필요하지 않았다. 이들에게는 단지 뛰어난 '데이터 마인드'가 있었을 뿐이다.
그렇다면 데이터 마인드는 구체적으로 무엇을 의미하는가? 우선은 자신의 주변에서 어떤 현상을 데이터화 할 수 있을지 항상 고민하는 자세가 데이터 마인드의 출발점이다. 현상을 데이터화 한다는 것은 결국 측정의 문제인데, 세상에는 온도와 체중과 같이 측정 방법이 잘 알려진 경우도 있지만, 그렇지 않은 경우에도 잘 생각해보면 측정 방법을 고안할 수 있다.
컨설턴트이자 경영 통계의 권위자인 더글러스 허버드(Dugg Hubbard)는 'How to Measure Anything'이라는 저서에서 이렇게 말한다.
자신에게 중요한 모든 현상은 어떤 식으로든 흔적을 남긴다.
따라서 그 흔적을 찾으면 어떤 현상도 측정될 수 있다.
일단 수집된 데이터는 자신이 원래 생각하던 현상을 제대로 반영하고 있는지 철저히 검증해야 한다. 데이터 수집에서 어떤 편향(bias)이 생겼을 수도 있고, 현상의 중요한 단편이 누락되었거나 측정값에 노이즈가 심할 수도 있다. 이런 데이터 문제는 그 종류에 따라 다양한 방식으로 해결할 수 있지만, 그 출발점은 자신이 이해하고 있는 현상과 데이터가 일치하는지, 일치하지 않는다면 그 원인은 무엇인지 끊임없이 고민하는 사고방식이다.
검증된 데이터는 문제와 데이터의 특성에 따라 다양한 방식으로 분석할 수 있다. 여기는 실제로 데이터를 다루는 기술이 유용한 부분이다. 하지만 역사적 위인들의 사례에서 살펴보았듯이 데이터 분석이 꼭 복잡한 프로그래밍이나 통계 지식을 요하는 것은 아니다. 많은 경우 평균이나 중간값과 같은 기본적인 통계 지표 및 데이터에 맞는 시각화를 이용해도 의미있는 결론을 도출할 수 있다. 특히 주어진 현상에 대한 데이터를 처음 분석하는 것이라면 원본 데이터를 꼼꼼히 들여다보기만 해도 다양한 통찰을 얻을 수 있다.
분석을 통해 얻은 결과가 항상 자신의 희망이나 예측과 일치하는 것은 아니다. 하지만 데이터를 자신의 주장을 관철하거나 자신이 옳다는 증거를 찾기 위한 수단 정도로 생각하지 않는다면 데이터가 알려주는 진실에 귀를 기울여야 할 것이다. 데이터 분석의 진정한 가치는 자신의 기대와는 다른 놀라운 결과를 얻고, 이를 통해 더 큰 오류나 문제를 피할 수 있는데서 찾을 수 있기 때문이다. 이렇게 자신의 직관보다 데이터에 귀를 기울일 수 있는 개방적인 태도도 데이터 마인드의 중요한 부분이다.
검색엔진에서 일하는 데이터 과학자로서 '빅데이터'의 열풍은 어찌 보면 반가운 일이다. 하지만 더 많은 사람들이 데이터의 가치와 가능성을 느끼고 활용하기를 바라는 개인의 입장에서 빅데이터라는 말을 별로 좋아하지는 않는다. 데이터를 모으고 활용하는 일이 어떤 특수한 기술이나 장비가 있어야 가능한 것이라는 인상을 강하게 풍기기 때문이다. 그래서 필자는 데이터 과학은 스몰 데이터로 시작해야 한다는 주장을 꾸준히 펼쳐왔다.
이 글을 마치며 필자는 기술로서의 데이터가 아닌 마인드로서의 데이터를 다시 한번 강조하고 싶다. 데이터를 활용하기 위해서는 우선 자기 주변의 현상에서 끊임없이 데이터를 수집하고, 이를 통해 현상을 이해하고, 나아가 개선하는 사고방식을 체화해야 한다는 것이다. 이런 데이터 마인드를 기른 사람이라면 데이터를 활용하는데 대단한 기술나 지식이 필요한 것이 아니라는 점을 깨달을 수 있을 것이다. 또한 기술이나 지식은 필요할 때 필요한 만큼 배우면 된다.
마지막으로 커버로 사용한 그림에 대한 설명을 덧붙이고자 한다. 이 그림은 자기 삶에서의 데이터 활용 사례를 공유하는 커뮤니티인 Quantified Self의 암스테르담 모임에서 스테판 호베너라는 사람이 발표한 비디오에서 따온 것이다. 스테판의 아버지는 당뇨병 환자로서, 자신의 병력을 아래와 같은 모눈종이에 수십년간 기록해 왔다. 자신의 식사 및 투약 기록을 꾸준히 기록함으로써 큰 탈 없이 자신의 질병을 관리하며 비교적 건강한 삶을 살아올 수 있었던 것이다.
여기까지 읽은 독자라면 스스로에게 물어보자.
내 주변의 문제를 데이터로 해결하기 위해 진정 필요한 것은 무엇인가?
추신: 저의 책 '헬로 데이터 과학'이 지금 YES24에서 예약판매 중입니다. 데이터에 관한 더 많은 이야기를 블로그와 트위터, 페이스북에서 만나실 수 있습니다.