#12. Big data ; 수단과 목적의 혼동

- Big data는 streamlined 되어야 한다

by Kelly Kenye Kwon

(이미지 출처 : @pinterest.com / Behance.net)


나는 지금 Big data 분석 업체에 다니고 있다. 내 주요 경력은 마케팅 리서치이다. 마지막 퇴사 후 재 입사할 때, 그러니 횟수로 3년 전 많은 헤드헌터들이 나에게 '빅데이터 전문가' position을 제안했었다.


"뭔가 잘못된 것 같은데요, 전 마케팅 리서치를 하면서 데이터를 본 것이지, '빅데이터'를 handling 한 것은 아니에요. 여기서 말하는 '빅데이터'에서 말하는 datd와 제가 다룬 data는 성격이 아주 달라요"


예전에 수행한 프로젝트 중 'Technology Trend'를 수행한 적이 있었다. 4차산업에 대비해 Technoloy의 진화 방향성을 탐색한 프로젝트였는데, 이 때 Big data, Machine leaning, Algorithm 등의 개념을 알게 되었고 (이때가 알파고가 나오기도 전이었는데), 이 당시 결론은 A.I가 세상을 지배할 거라는 거였다. 이 경험으로 '빅데이터'에 대한 나름의 명확한 개념이 있었는데, 헤드헌터들이 자꾸 나를 그 업무 Position에 추천하는 것이다.


"이미 시장에서는 그런 구분이 없어요. 마케팅 리서치에서 다룬 데이터 경험이라도 충분해 한다니까요"


이런 말들에 나는 호기심 반, 궁금함 반으로 지원을 했었고, 서로가 뭘 원하는지도 모른채 '아닌 것 같다'는 감으로 계속 떨어졌었다. 그때 내가 느낀 건 헤드헌터 말대로 이들이 Data라는 워딩으로 많은 착각을 하고 있다는 생각이었다. 하지만, 그 흐름은 지속되어 몇몇 마케팅 리서치 회사들은 '빅데이터 기업'으로 다시 태어난다는 선언을 하고, 적어도 'Social Buzz 분석 tool'을 사 들이면서 '빅데이터 분석 팀'을 갖추었다고 말하고 있다.

어쨌든 이런 움직임이 재미있고, 한번은 겪어볼 거 같아 지금의 회사에 들어왔다. 예상처럼 내가 생각한 빅데이터는 아니었고, 그냥 large sized data와 social buzz를 분석하는 업무가 위주이다. 그런데 이 곳은 꽤나 빅데이터 분야에서 인지도를 쌓고 있고 고객사도 쟁쟁한 대기업들이다.


하지만 여전히 5년 전 프로젝트에서 인공지능 관련 수많은 석학들을 인터뷰하며 파악한 '빅데이터'의 의미와 한국 사회에서의 사용의 격차가 좁혀지지 않았다. 실제로 내가 일을 해 보고 있어도, 이것이 진정한 빅데이터인가 계속 의문이 들었다. 그래서 구글에 검색을 해 보았다.


'big data vs. small data'

'the future of small data'

'the future of big data'...


몇 페이지 넘기지 않아도 답은 금새 알아챌 수 있었다. 내가 하고 있는 분석은 big data가 아닌, 그냥 large sized data이고, 심지어 social buzz는 small data로 분류되었다. 관련한 명확한 정의들이 수두룩 했다.


"In big data, data set is not prepared"

"Big data is for finding out correlation, small data is for finding out reasonning of some phenomenon"

"A.I based on big data has such more potentials than Big data analyzing"

....

마지막으로 애매한 내 개념을 한방에 정리해 주는 문장을 발견했다. (기억으로 쓴 거라 영어 표현은 정확하지 않을 수도 있다)

"If you can analyze, it is no more big data. Big data should not be analyzable data. That is beyound the analysis by human"


즉, 인간이 분석을 할 수 있다는 거 자체가 이미 big data 영역에서 벗어나는 것이다. 알파고의 데이터 처리과정을 인간이 절대 밝혀낼 수 없다. 이미 체스에 대해 전혀 지식이 없지만, 알파고와 대결 2일만에 알파고를 이기는 인공지능이 나타났다. 즉 상대의 움직임을 기민하게 파악하고, Algorithm 기반의 기계학습 (machine leaning)으로 알파고를 이길 만큼 체스를 잘하게 된 것이다. 이것을 뚝 잘라서 분석할 수 있을 것인가? 그게 의미가 있는 시도인가?


'빅데이터 분석'이라는 말에서 지칭하는 '빅데이터'는 CRM 데이터, 고객의 모바일 결제 데이터, 혹은 app 사용 trace 데이터 등이다. 이는 사용자 친화적인 UI, UX 개발에 도움이 되고, 고객 응대 서비스 발전에 도움이 된다. 하지만 이것은 그냥 large scaled data이지 4차 산업에서 말하는 '빅데이터'는 아니다. 이는 machine leaning까지는 가지 않고, 그냥 correlation 정도만 파악하는 수준이다. 예를 들어, 고객이 A라는 이슈를 물어볼 때, B라는 방식으로 응대를 하니 좋은 결과가 나오더라... 정도만 파악하는 것이다. 이것도 데이터가(즉, 고객 응대 자료)가 더 쌓이면 다른 결론을 낼 수 있다.


내가 해 온 마케팅 리서치는 또 다른 영역이다. 무엇보다 데이터를 수집할 목적이 분명하다.

'신제품을 집중 런칭할 시장/국가 선택', '신규 소비층 공략 방안', 'On-air 광고 효과성 파악' 등이다. 이는 focus가 데이터 활용에 맞춰져 있다. 의사 결정자들이 데이터가 나오기를 기다리는 것이다.

반면 위에서 말한 large sized data는 이미 쌓여진 데이터로 뭐든 가치있는 correlation을 알아내는 것이다. 마지막으로 4차 산업의 Big data는 시스템을 움직이게 하는 것이다. 가장 좋은 예가 T-map, Netflix 영화 추천 등이다. (Big data가 4차 산업으로써 희망적으로 회자되는 것은 새로운 산업 즉 platforme 산업을 창출하기 때문이다.) 여기서는 누군가가 data를 뚝 잘라서 분석한다는 것은 있을 수 없다. 그냥 물 흐르듯이 데이터가 계속 흐르게 두어야 한다. Streamlined 상태에서 소비자 반응-click rate, T-map 경로 선택율 등-을 보는 것이다. 이 분석은 시스템을 더욱 정교화시키는 데 목적이 있다. 새로운 가치 창줄은 이미 platform 셋팅할 때 일단락 달성 된 것이다. 때문에 자본이 중요하다. 거대 자본이 있는 기업이나 국가에서만 자유자재로 platform 기반의 기업들을 양산시킬 수 있다.


Data 생태계에서 Researched data, Accumulated data, Streamlined data가 혼용되는 것 같아 이 글을 쓴다. 이 각각은 목적도 다르고, 주체도 다르고, 활용방향도 다르다.

Researched data는 전통적인 마케팅 리서치, 사회조사 리서치 field의 영역이고, Accumulated data는 CRM 같은 고객 DB를 갖춘 기업에서 활용 니즈가 높다.(개인정보법이 허용하는 범위에서 이 데이터를 외부 대행사로 연결해 (pipelined) 분석을 대행해 줄 수는 있다. 하지만, 법적 제약이 많고, pipelining 비용이 만만치 않아 대부분 기업 내부에서 수행한다. 현재 빅데이터 관련해 오픈 된 포지션들은 이러한 업무가 많은 것 같다)마지막으로 Streamlined data는 구글, 카카오, T-map 같은 4차 산업을 주도하는 IT 대기업 들이다. 이들의 지향점은 시스템의 정교화와 차별적인 서비스 개발이다.


난 10년 간 Marketing research를 했고, 지금은 Social buzz를 분석하고 있다. 우리회사가 빅데이터 회사임을 대내외적으로 주장하고 있지만, 내가 하는 social buzz가 결국 Marketing research의 일환임에 안도감이 든다. 난 경로를 이탈한 것이 아니고, 내 영역을 적당히 확장한 것임에 다행인 상황이다.

우리회사가 빅데이터 회사임을 좀더 신중하게 주장했으면 좋겠다. Data라는 말이 얼마나 명확하게 사용되어야 하는지, 단어의 혼용으로 오는 개념이 혼용, 그로 인한 mis - matched 된 고급 인력들이 얼마나 낭비되고 있는지, 결과적으로 지향점이 얼마나 흐릿해지는지는 생각보다 빨리 현실로 나타난다.


이 경험을 토대로 내가 갈 방향은 더욱 분명해졌다. 헤드헌터들이 말하는 Big data는 절대 내 영역이 아니었음을 다시 한번 확인했다. 단어의 오용에 헷갈려 잠시 돌아온 것 같지만, 나쁘지 않은 경험이다.










매거진의 이전글#11. 팀장과 팀원의 다차원적 차이