brunch

You can make anything
by writing

C.S.Lewis

by 해건 Apr 01. 2016

데이터 분석의 세계로

데이터 분석 공부를 처음 시작하며

 빅데이터라는 용어가 유행한지도 어느덧 상당한 시간이 흐른 것 같다. 빅데이터라는 단어가 우리 사회에서 갖는 상징성은 아직도 유효한 것 같긴 하지만(특히 정책 입안에 있어서는) 과연 언론을 통해 전파된 빅데이터에 대한 예찬만큼 빅데이터가 우리에 삶을 개선하는데 실제적으로 사용되고 있는가 하는 문제는 다시한번 곰곰히 생각 해 볼만하다. 

 약 4년 전 빅데이터라는 말에 처음 관심을 갖게 되었다. <빅데이터 승리의 과학>이라는 책을 통해서 였는데, 데이터 분석이 어떻게 미국 대선의 선거 캠페인에 영향을 주었는가에 대한 Case study 성격이 강한 책이었던 것으로 기억한다. 사실 책 내용에 설명된 구체적 방법론에 대한 이해가 없었기 때문에 막연하게 빅데이터를 활용하여 미래를 예측한다는 것을 그냥 Cool하게 받아들이기만 했었다. 그리고 지금도 많은 사람들이 그 시절의 필자처럼 "빅데이터 = 신기술" 혹은 "빅데이터 = 미래"와 같은 방식으로 객관식 문제의 답안처럼 빅데이터를 받아들이고 있다고 본다.

 


필자는 올해부터 한양대학교 비지니스 인포매틱스 석사과정 공부를 시작했다. 무슨 공부를 하는 학과인지 묻는 사람들의 질문에 사실 "빅데이터 분석을 공부하는 학과입니다."라고 대답하면 아주 명료하게 상대방을 만족시킬 수 있지만, 빅데이터 분석이라는 말 자체에는 사실 아무 의미도 없다. 모르는 사람 100명의 이름과 집 주소를 준다면 당신은 그것으로 무엇을 유추할 수 있는가? 만약 아무것도 유추할 수 없다면 60억명의 이름과 집 주소를 가지게 되더라도 할 수 있는 것은 없다. 사실 빅데이터라는 것은 정말 대단한 기회 일 수도 있지만 아무것도 아닌 것 일수도 있다. 그래서 빅데이터는 하나의 Object이기 보다는 Phenomenon에 가까운 것 일수도 있겠다 라는 생각을 한다.


데이터 그리고 사고하는 방법

 사실 데이터 분석 방법론은 과학의 발전과 함께 꾸준히 발전해 온 분야이다. 어느날 빅데이터의 등장과 함께 데이터 분석의 새로운 지형도가 만들어 졌다거나 하는 일은 없었다. 과거에도 데이터는 존재하였고 지금도 존재한다. 흔히들 말하는 3V(양(Volume), 속도(Velocity), 다양성(Variety))의 특성을 가지고 있는 데이터가 빅데이터인 것이 아니고 요즘은 우리가 3V의 특성을 가지고 있는 데이터들을 손에 넣기가 더 쉽다보니 지금을 빅데이터의 시대라고 부르는 것이다.

 필자는 지난 2년간 게임업계에서 일했다. 온라인 게임에서는 모든 유저의 행동 하나하나가 기록으로 남는다. 유저가 한 말, 유저가 사용한 스킬, 유저가 갔던 장소, 유저가 구매한 아이템 등 모든 것들이 데이터로 축적된다. 하지만 필자는 이러한 데이터를 사용할 방법을 알지 못했다. (물론 직무가 데이터 분석과 관련된 직무는 아니었지만, 데이터를 잘 이용했다면 사업에서 더 나은 성과를 냈을지도 모르겠다) 나에게 정말 가치 있을지도 모르는 정보들에 접근할 수 있는데, 그 정보들을 이해하고 활용하는 방법을 알지 못했다, 그래서 뭔가 무기력함을 느꼈던 것 같다. 문제는 엄청난 양과 속도와 다양성으로 생성되는 데이터 자체의 복잡성이 아니라 데이터를 이용하여 사고하는 방법에 익숙하지 못한 나였다. 그리고 점점 더 많은 데이터들이 빠르게 쌓여가는 것은 비단 게임세계만의 일은 아닐 것이라고 생각했다.

디아블로3의 게임화면


빅데이터 그리고 기회

 디지털화, 스마트폰, IOT 같은 산업영역의 변혁이 방대한 데이터를 발생시키고, 분산 컴퓨팅 같은 기술을 통해 엄청난 양의 데이터를 처리하고 연산하는 것이 가능해졌다. 그리고 딥 러닝 같은 컴퓨터의 연산 기능을 최대한 활용한 데이터 분석 방법론들도 점점 더 발전 해 가고 있다. 데이터를 수집하고 분석하고 결과를 표현해 내는 일련의 작업들이 과거와는 비교할 수 없을만큼 복잡하고 힘들어졌다. 그래서 Data Science라는 학문도 새롭게 등장했다. 하지만 이 모든 도구들이 아무리 복잡하고 거대해 지더라도 데이터 분석가의 일은 여전히 "일련의 데이터를 가지고 의미를 찾아내는 것" 그 뿐일 것이다. 물론 기회인 것은 분명하다. 하지만 빅데이터가 데이터 분석가들에게 의미하는 것은 결국 많은 레코드 수, 다양한 필드, 다양한 시계 그 이상 그 이하도 아닐 것이다. 필자가 공부하는 학과의 이름은 Business Informatics 학과이다, 그 이름은 Bio Informatics에서 가져온 것으로 알고있다. 과연 데이터가 비지니스의 영역에서도 Bio영역에서 만큼 가치있게 활용될 수 있을지는 잘 모르겠다. 그래도 학과 이름이 "빅데이터학과"가 아니라 Business Informatics학과인 것이 다행이다. 필자는 앞으로 브런치 글을 통해 데이터의 의미와 데이터를 이용한 사고의 과정을 조금씩 소개 해 보고자 한다. "모든 독자 여러분들께 많은 관심과 논리적 비평을 부탁드립니다! :)"

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari