brunch

You can make anything
by writing

C.S.Lewis

by Willlink Jan 18. 2019

B_5 빅데이터 겉핥기로 얻은 인사이트

by.바르미

 얼마 전 나는 챗봇에 대해 접하게 될 기회가 생겼었는데, 그래서인지 챗봇으로 얻을 수 있는 효과에 대해 생각하다가 빅데이터 활용방법까지 관심이 생겼고 현시점 빅데이터에 대해 알아봐야겠단 생각이  생겼다. 그렇게 빅데이터에 대한 관심이 생기 고나니 몇 년 전까지만 해도 빅데이터에 대한 얘기가 AI와 함께 뜨겁게 오르내렸는데, 최근에는 AI와 다르게 빅데이터 얘기는 잠잠하다는 걸 느꼈다. 뭔가 이상하다 싶었지만 대수롭지 않게 생각했다.

 그렇게  언젠가 유용하게 쓸지도 모른다는 생각에 없는 시간을 짬 내서 빅데이터에 대해 공부? 했다. 결과적으로 찾아본 지 3일 만에 공부해야지 라고 생각하며 가벼운 마음으로 다가갈 분야가 아님을 알게 됐다.(가볍게 생각했던 부분 모든 빅데이터 관련 업종 종사자 분들께 진심으로 사과드립니다.) 빅데이터 분석이라는 게 단순히 나와있는 통계수치를 보고 인사이트를 찾아내는 것만 가리키는 말이 아니었다. 

그럼 그렇지 공부는 무슨


'빅데이터' 용어에 대한 멋쩍은 남발

 창업아이템 멘토링 발표 중에 창업가’A’에게 들었던 말이 있다. ‘저희 회사는 빅데이터 분석을 통한 고객 니즈를 파악하고 이를 바탕으로 한 수익모델 개발 계획을... 어쩌고저쩌고... 그래서 비즈니스에서 경쟁우위를 어쩌고저쩌고... ’ 그때 당시엔 이런 발표 내용들이 그럴싸하고 멋있게 들렸다. 빅데이터라는 것이 어떤 것인지 그저 사전적 의미만 알고 있었고, 공부 전까지는 정확히 무슨 일들을 하는지 알지 못했기 때문이다.  멘토가 한 빅데이터 관련 질문에 쩔쩔맸던 A발표자도 사실은 멋쩍어 보이는 발표를 위해 그랬던 것 같다.


 나와 같은 사람이 나뿐만은 아니라는 데에서 현재 빅데이터 분석이라는 용어가 남용돼서 그 의미가 난해한 수준까지 이르렀는지 모르겠다.(다시 한번 사과의 말씀 올립니다...) 그래서 나 나름대로 빅데이터에 대해 알아보면서 오해하고 있었던 부분들을 요약해보았다.


1. 빅데이터 분석은 본질적으로 비즈니스 목표 추진을 위해 이전에 보이지 않았던 동향 및 인사이트를 감지하기 위한 목적으로 수집된 대량의 비정형적 데이터를 살펴보는 일과 관련이 있다.
 기존 통계 분석은 현재 데이터를 통해 현황 파악과 진단에 초점이 맞춰져 있다면 빅데이터 분석은 미래 예측과 해당 기업에 맞게 최적화하는 과정이다.
 *정형적 데이터 : 쉽게 말해 어떤 상품을 주문할 때 들어가는 나의 주소, 이름, 전화번호와 같은 데이터들을 말한다.
 *비정형적 데이터: 동영상, 사진, 그림과 같은 소셜 데이터, 정형화되지 않은 데이터들을 말한다.

 1-1. 비정형적 데이터를 어떻게 분석하는 거지?
 비정형 데이터를 분석하려면 정형화 데이터처럼 연산 가능하게 만들고 형태가 있게 만들어줘야 한다. 이를 위해 정형화를 위한 데이터 애플리케이션이 필요하다. 이 데이터 애플리케이션의 성능에 따라서 분석의 역량에 차이가 생긴다.


2. 빅데이터 분석에 필요한 능력

- 데이터 분석능력 : 특정 프로그래밍 언어와 툴을 다루는 것은 당연하고, 데이터를 보고 어떤 의미를 내포하고 있는지 결과를 도출할 수 있어야 한다.

-  SQL : DB(데이터베이스)로부터 정보를 리서치할 수 있는 프로그래밍 언어인 SQL을 다룰 수 있어야 한다.

- 데이터 관리능력 : 데이터 관리는 복잡한 구조를 가진 DB를 구조화하는 것이다. 효율적으로 적재하는 것에는 다양한 접근 방법이 있습니다. 보통 데이터 관리 능력이 필요한 직군은 데이터베이스 관리자 입니다.

- 비즈니스 인텔리전스 : 비즈니스 인텔리전스는 비즈니스 의사결정을 내리기 위해 데이터를 수집하는 행위입니다. 예를 들어, 광고용 우편과 페이스북 광고를 활용하고 있는 기업들은 각 마케팅 전술이 얼마나 효과를 내고 있는지 이해하기 위해 비즈니스 인텔리전스 소프트웨어를 활용할 수 있다.

- 데이터 웨어하우징 : 데이터 웨어하우징은 분석이 가능하도록 대량의 데이터(보통 서로 각기 다른 소스의)를 한 곳으로 결합하는 과정을 말한다. 오늘날 기업들은 종종 다양한 소스로부터 많은 양의 정보를 얻게 되는데 데이터 웨어하우스는 이러한 데이터가 적재적소에 위치할 수 있도록 한다. 일반적인 데이터 웨어하우징 직무는 데이터 엔지니어다.

(출처: https://www.forbes.com/sites/jeffkauflin/2017/07/20/the-five-most-in-demand-skills-for-data-analysis-jobs/#5657 44a22c7c)


REBORN...

위에서 정리한 내용처럼 애플리케이션 개발부터 분석능력까지 빅데이터 분석을 위해 갖춰야 할 능력은 너무나도 많다. 때문에 나처럼 개발 분야에 속하지 않고 수학에 나약한 사람이 분석을 한다? 처음으로 들었던 생각이 ‘다시 태어나는 게 빠를 것 같다.’였고(장난 아니고 정말^^) 두 번째로 ‘돈을 많이 벌어서 전문가에게 맡겨야겠구나’였다. 하지만, 빅데이터 분석에 대한 수박 겉햝기 공부를 하면서 얻은 게 없는 것은 아니었다. 


데이터 분석을 맡길 때 나와 같은 초보가 고려해야 하는 점

 첫째로 빅데이터 분석을 업체에게 일을 맡길 때 대부분이 하게 되는 한 가지 큰 실수가 있었는데 데이터를 던져주면서 ‘이거 우리가 가지고 있는 데이터인데 보고 분석해서 어떤 이슈가 있는지 알려주세요.’라고 한다는 것이다. 분석 전문가들은 ‘Garbage In Garbage Out’이라고 수많은 정보들에서 목적 없이 눈감고 아무거나 수집해 오는 꼴이라고 말한다. 빅데이터 성공사례(2017년 중소기업 빅데이터 활용지원사업 우수사례집이라고 검색해보면 바로 나옵니다.)를 봐도 무엇이 선행되어야 하는지 알 수 있었다. 비즈니스 이슈가 선행되어 있고 빅데이터를 어떻게 사용할 것인지로 순서가 이루어져 있다는 것이다. 데이터 분석보다 비즈니스 활용처가 우선적으로 있어야 한다는 것. 사회에서 나타나는 이슈가 무엇이 있고 어떤 니즈가 있는지 혹은 비즈니스에서 어떤 문제가 있는지를 먼저 파악한다. 그것을 해결하기 위해서 필요한 데이터를 모은다. 그리고 데이터 컬렉션과 그 사이에 보이지 않는 문제를 찾아내는 것이 순서라는 것이었다. 내가 데이터를 맡길 때도 퀄리티를 올리려면 정확한 목적을 가지고 하자!라는 것을 알았다.
 
  비즈니스 이슈 발견 -> 데이터 분석 -> 인사이트 발견 -> 문제 해결방안 도출 


 둘째로 빅데이터 분석을 전문적으로 하진 못하더라도, 자 회사의 비즈니스 이슈에 도움을 줄 수 있는 자료들이 있었다.

-네이버 검색광고

-카카오 광고

-구글 트렌드 

* 네이버와 카카오는 국내 시장에 적합하고, 구글은 글로벌 시장에 적합하다. 

이 세 사이트에선 입력한 키워드와 연관검색어 간의 빅데이터를 무료로 제공해주고 있었다. 상세 기간이나 연령대, 성별 등 자세한 범위도 설정할 수 있어서 유용하게 사용 가능하다. 분석 비전문가인 나와 같은 사람은 이 곳에서 자회사에 대한 키워드 검색을 통해 통찰력을 얻어보자.

 셋째로 빅데이터를 무조건 맹신하지 말아야 한다는 것! 빅데이터가 모수(매개변수)를 가지고 분석을 한다 해서 그 데이터가 사실을 대변한다고 할 순 없기 때문이다. 빅데이터는 그 당시 입소문의 양, 즉 이슈가 되는 어떤 것의 누적 양을 나타낸다. 쉽게 말해서, 온라인 상에서 얼마나 많이 오르내리느냐가 포인트인 것이다. 

 예를 들어, 빅데이터가 ‘열애설’이라는 키워드를 추출했다고 하고 관련 상위 연관어가 ‘아이돌 김 모 씨’와 ‘탤런트 박 모 씨’로 떴다고 하자. 이것을 보고 김 모 씨와 박 모 씨가 열애 중이라는 인사이트를 얻을 수 있지만, 이것이 사실인지 아닌지는 알 수 없다. 때문에 비즈니스 이슈를 정했고 관련 자료를 통한 분석이 이루어져 어떤 인사이트를 얻었다 하더라도 그것을 신중히 검토, 검증하는 과정을 가져야 할 것 같다.


 끝으로, 빅데이터가 불과 몇 년 전만 하더라도 AI와 더불어 큰 이슈이자 IT의 큰 바람이었음에도 불구하고 빠른 속도로 거품이라는 말들과 함께 사라진 이유, 여전히 도움이 될 요소가 많은데도 잠잠해진 이유가 무엇일지 생각해봤다. 문제는 빅데이터에 대한 너무 큰 맹신이 아니었을까 한다. 빅데이터에 대한 가장 큰 이슈 중 하나는 ‘빅데이터 분석을 통한 숨겨진 규칙을 발견하고 이를 통한 알고리즘으로 많은 문제들을 예측하고 미연에 방지할 수 있다.’ 난 이 부분에서 너무 빅데이터의 능력을 과대평가한 게 아닌가 생각한다.

 알고리즘 감사와 리스크 컨설팅을 전문으로 하는 ORCAA의 설립자인 캐시 오닐(Cathy O'Neil)은 일부 투명하지 않은 알고리즘이 인류에게 나쁜 영향을 미친다고 생각한다. 그녀는 이러한 설계가 잘못된 알고리즘을 가리켜 ‘대량 수학 살상 무기’라고도 말한다. 나는 캐시 오닐이 말하는 설계가 잘못된 알고리즘이라는 것이 ‘미래를 예측하게 하는’ ‘공통적이고 객관적인’이라는 전제로 빅데이터를 통한 알고리즘 도출을 했고 이것이 틀렸다는 게 입증되면서 빠르게 번져나갔던 빅데이터 열풍이 식어버린 게 아닌가 싶다. 빅데이터 분석을 이용하는 것이 미래를 예측하고 모수의 공통분모를 찾아 알고리즘을 만들어내는데 실패했지만, 비즈니스의 방향을 확인하고 숨겨진 인사이트를 찾아 검증하고 사용함으로써 충분한 가치를 가질 수 있을 것이라 생각한다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari