brunch

You can make anything
by writing

C.S.Lewis

by Amang Kim Jun 27. 2017

21. 데이터과학을 시작 할때 도움이 되는 것들 (하)

데이터과학, 빅데이터, 그리고, 소오강호

[전하는 말]

이 글은 이전에 적었던 글 "20. 데이터과학을 시작 할때 도움이 되는 것들 (상)"에 이어서 쓰는 글입니다. 원활한 이해를 위해서는 이전 글을 보시고, 이 글을 보시면 좋을 것 같습니다.

-= Amang =-


"4. 데이터로 문제를 해결하려는 사람"은 데이터분석을 통해서 나온 정보를 이용하여, 자신의 영역에서의 문제를 해결하고자 하는 사람들 이다. 요즘 언급되고 있는 데이터과학의 활용은 전부 이 부류에 해당 한다고 해도 과언이 아니다. 데이터과학과 연관되어 있는 사람들의 대부분을 차지하는 이 부류에 대한 이야기를 좀 더 하려고 한다.

 

"데이터로 문제를 해결하려는 사람"에게 필요한 것 

데이터로 해결할 수 있다고 생각되는 문제들을 해결하고자 함에 있어서 데이터 분석의 목적은 크게 두가지로 나눌수 있는데, 하나는 “분석(혹은 측정)”자체가 목적인 경우이고, 또 하나는 (분석을 기반으로 한) 문제를 “해결”하는 것이 목적인 경우이다. 


예를 들어, 어떤 자연적 현상이나, 사회적 현상을 확인을 하려는 목적이라던지, 거시적인 경제현상을 파악하려고 한다던지 하는 것들은 분석자체가 목적인 경우에 해당한다. 물론, 여기서 얻은 분석 결과를 어떤 문제의 해결에 이용할 수는 있겠지만, 1차 목적은 분석 그 자체이다. 인구를 조사하고, 남녀 구성비를 조사하고, GDP나 GNP를 계산하는 일련의 작업들은 나라의 상태를 파악을 위해서 분석 자체 만으로도 의미가 있는 일이다. 혹은, 비행기 날개의 유체분석(공기흐름) 이라던지, 원자를 부딪히게 해서, 새로운 입자 생성되는지 확인을 한다던지 하는 것들은 데이터를 모으고, 분석 하는 것 자체만으로 엄청난 의미가 있는 일들이다.

  

하지만, 대부분의 데이터 분석 목적은 "이 분석을 기반으로 한 문제의 해결"인 경우가 많다. 빅데이터라는 용어가 인기를 끌면서, 수요 예측(Demand Forecasting)은 가장 흔하게 언급되는 빅데이터 적용 분야이다. 요즘은 소프트웨어들이 좋아져서, 공급망(Supply Chain) 관리 소프트웨어와 연결되어 실시간으로 수요예측을 해주기도 한다. 이러한 수요예측은 수요예측(분석) 자체가 목적이 아니라, 이를 기반으로 공급망 운용을 효과적으로 하기 위한 것이 그 목적이고, 수요예측은 이를 위한 기반 작업이라 할 수 있다. 소셜 마케팅에서의 데이터 분석 또한 마찬가지 목적을 가진다. 연관 검색어를 분석하고, 사용자 클릭을 수집해서 분석을 하는 이유는 데이터 분석을 바탕으로 얻어진 정보를 마케팅에 활용하는 것, 직설적으로 말하자면 소비자들을 자연스럽게 끌어 들이고자 하는 것이 최종 목표이다. 이 경우도, 데이터분석은 그 분석(혹은 측정) 자체가 목적이 아니라 성공적인 마케팅 전략 만들기 위한 기반이 되는 것이다. 여기서, 데이터 분석은 마케팅 전략의 문제를 해결 하기 위한 기반 작업에 해당한다. 이러한 상황에서 근본적으로 생각해 보아야 할 문제는 어떻게 하면 소비자의 데이터를 잘 분석 하느냐 아니라, “과연, 소비자를 끌어 들이기 위해서는 

소비자의 데이터를 (측정) 분석 해야만 하는가?” 

이다. 약간 다른 이야기일 수 있지만 (사실, 본질적으로는 같은 이야기 이다), 비슷한 예를 들어보겠다. 많은 공학적 문제들 중에는 “측정”에 관한 문제들이 있다. 그리고, 이러한 측정 문제들 중에 상당수는 측정을 기반으로 한 어떤 해결책을 위한 사전(혹은 기반) 작업인 경우가 많다. 그래서, 이러한 쪽의 연구를 하는 많은 공학도들은 어떻게 하면 정확한 측정값을 얻을 수 있을까를 고민한다. 그리고, 이러한 작업을 하는 많은 공학도들은 보다 정확한 측정 값을 얻는 것을 최선의 해결책이라 생각하며, 이를 위해 최선을 다한다. 그런데, 이런 경우 실질적인 최선의 해결책은 정확한 측정값을 얻는 것이 아니라, 

측정하는 과정이 없이,
 측정을 기반으로 해결하려고 했던 문제 자체를 해결

하는 것이다. 물론, 가능하다면 말이다. 똑같은 상황이 데이터과학에서도 적용이 된다. 세상에 나와있는데 데이터를 이용하겠다고 하는 대부분의 문제들은 데이터분석을 기반으로 뭔가를 해결 할려는 경우가 많다. 더구나, 나름 데이터과학에 대해서 지식이 있는 부류이 일수록 어떤 문제를 해결 할 때, 데이터분석을 통해 문제를 해결 하려고 한다. 위의 측정 문제를 해결하려는 공학도들 처럼 말이다. 하지만, 이런 경우 최선의 해결책은 데이터 취합/분석과정 없이 데이터 (취합)분석 없이 데이터를 기반으로 해결하려고 했던 문제 자체를 해결하는 것이다. 물론, 가능하다면 말이다. 그리고, 통상적으로 데이터를 분석 내지는 이용해야지만 해결이 가능하다고 생각되는 많은 문제들이 사실은 데이터분석이라는 기반 작업 없이 해결이 가능한 경우가 많다. 당신이 생각하는 것 이상으로 말이다.

  

물론, 문제들 가운데는 데이터 분석을 기반으로 해야지만 해결을 할 수 문제들도 존재한다. 하지만, 이 경우라고 하더라도, 데이터를 다루는 작업(데이터 분석)을 들어가기전에 당신이 먼저 고민 해봐야 것은 

“과연, 많은 양의 데이터를 필요로 하는가?”

에 대한 것이다. 설령, 실질적으로 데이터 분석을 필요로하는 문제라고 하더라도 많은 양의 데이터(빅데이터)를 다뤄야 할 것인가 것은 또 다른 문제이다. 데이터를 다루는 일에 있어서, 데이터 분석만큼 중요한 것이 데이터의 수집이다. 많은 양의 데이터가 보다 정교한 정보 값을 제공할 수 있는 있지만, 가치있는 정보값을 보장하지는 못한다. 이전 글에도 이야기했지만, 데이터 과학이 발달하고 데이터분석 도구가 정교 해 졌다고 하더라도, 입력되는 데이터 자체가 쓰레기면, 그 결과 값 또한 쓰레기이다 (Garbage in, garbage out). 

Again, garbage in, garbage out (출처: 인터넷 어딘가)

이에 대한 또 다른 의미는, 입력되는 데이터에 불순물(혹은 쓰레기 혹은 노이즈)이 끼어 있을 때, 제대로 된 결과 값을 얻기 위해서는

생각보다 많은 양의 데이터와
이를 정교하게 다룰수 있는 분석기법과 도구가 필요

하다는 것이다. 


예전(컴퓨터가 발달하기 이전)에는 많은 양의 데이터를 다루는 것 자체가 일이었기 때문에, 어떻게 해서든 데이터를 “정제” 할 필요가 있었다. 이렇게 많은 양의 데이터를 실절적인 데이터분석에 들어가기전에 작업하는 것을 선작업(Pre-process)라고 한다. 그리고, 이러한 선작업은 많은 양의 데이터를 적은 양으로 만드는 것 만을 뜻하지는 않는데, 특수 값을 제외 한다던지 하는 등의 보정 작업도 포함 된다. 예를 들어, 피겨스케팅에서 점수를 합산 할때, 최상위 점과 최하위점을 제외하는 작업 같은 것 말이다. 고전적인 데이터과학, 즉 통계학에서는 이러한 선작업을 아주 심도있게 다루었었다. “1. 데이터로만 문제를 풀어야만 사람”이 통계학적 능력이 중요한 이유도 바로 여기에 있다. 당신이 데이터 분석을 위해 100개의 정제된 데이터와 100만개의 정제되지 않은 데이터 중에서 선택을 해야 한다면, 100개의 정제된 데이터를 선택해야 한다. 이러한 정제된 데이터를 사용한다는 기본 원칙은 빅데이터가 범람하는 지금에도 여전히 유효하다. 선작업을 통해 적은 양의 데이터로도 원하는 데이터 분석을 할 수 있다면, 굳이 많은 양의 데이터가 필요하지는 않다.

 

물론, 어떤 문제에 대한 분석을 위해서는 “많은 양의 정제된 데이터”가 필요 할 경우도 있다. 그리고, 당신이 정말로 "정제된 많은 양"의 데이터를 다뤄야하는 상황이라면, 당신은 “1. 데이터의 문제를 해결하는 사람” 내지는 "2. 데이터의 문제를 해결하는 사람"에 가까워 진다. 하지만, 어떤 문제 해결을 위한 데이터 분석에 있어서, 

“많은 양의 정제된 데이터”가 필요한 경우는 드물다. 

당신이 상상하는 것 이상으로 말이다.

 

맺음말 

어떤 식으로 글을 마칠까 고민을 하다가, 언뜻 무협 소설의 일반적인(?) 내용을 살짝 가져 오면 어떨까 생각 해봤다.

 천하제일검을 가진 무림고수가 있다. 하지만, 이 무림 고수가 실제로 천하제일검을 사용해서 상대를 제압하는 경우는 매우 드물다. 대부분은 칼을 뽑기전에 눈빛(혹은 아우라)으로 상대를 제압 한다. 설령, 칼을 사용한다고 해도, 칼집에서 검을 뽑지 않는 경우가 대부분이고, 실제로 천하제일검을 뽑아서 싸우는 경우는 극히 드물다.  
실제 무협소설 제목 (출처: 인터넷 어딘가)
많은 양의 데이터를 다루는 고급 기술을 가지고 있는 문제 해결자가 실제로 이 기술을 사용해서 문제를 해결하는 경우는 매우 드물다. 대부분은 데이터를 다루는 고급기술을 사용하기 전에 해결 할 수도 있다. 설령, 데이터를 다루는 기술을 사용 한다고 하더라도, 적은 양의 데이터와 기초 통계수준의 실력만으로도(검을 뽑지 않고 칼집만 사용) 해결이 가능한 경우가 대부분이다. 틀림없이 데이터를 다루는 고급 기술을 사용해야 하는 문제도 존재 한다. 하지만, 이 경우는 지극히 드물다. 마치, 무림고수가 천하제일검을 실제 사용할 경우가 드문것 처럼 말이다.

  

진정한 무림고수에 필요한 내공은 천하제일검을 사용하는 방법 자체가 아니라, 

적당한 때에 맞춰 그에 맞는 무공을 사용하고,
꼭 필요한 경우에만 천하제일검을 사용할 줄 아는 능력

일 것이다. 설령, 누군가가 천하제일검을 사용할 줄 안다고 하더라도, 이 사람이 검을 시도 때도 없이, 굳이 검을 뽑지 않아도 될 승부에서 조차도 굳이 검을 뽑아 쓰고자 한다면, 이러한 사람을 무림고수라 하기는 어렵다. 이는 많은 양의 데이터를 다루는 고급기술 자체를  잘 안다고 해도, 마치 그 기술만이 전부인양 남발하는 이를 전문가로 부르기 어려운 이유와 크게 다르지 않다. 그렇기에, 데이터를 이용해 문제를 해결하는데 있어서 

문제 본질을 파악할 줄 아는 능력이  
많은 양의 데이터 다룰 줄 아는 능력보다 훨씬 더 중요

하다. 뭐, 그렇다는 거다.

.

.

.

.

덧붙임 하나. 

데이터과학(혹은 데이터분석)이 분명 어떠한 문제를 해결하는데 있어서 대단히 강력한 도구인것은 틀림없는 사실이다. 하지만, 세상에는 그와 비견 할만한 도구들은 얼마든지 있다. 당신이 상상하는 것 이상(?)으로 말이다. 무협지의 내용을 한번더 빌리자면,

강호는 넓고, 고수는 넘친다 !!! 
소오강호 포스터 (출처: 인터넷 어딘가)


덧붙임 둘.

혹자는 궁금해 할 것이다. 그렇다면, "문제의 본질을 파악 하는 능력은 어떻게 키우는가?" 이에 대한 대답은 글쎄...? 이 질문에 대한 대답이 궁금하시다면, 커피 한잔 사시라......ㅎ

[진짜끝!!]


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari