brunch

You can make anything
by writing

C.S.Lewis

by Peter Sep 03. 2019

설명할 수 있는 빅데이터

정확하면서도 설명 가능한 결과물

하이프 사이클 (출처 : 위키백과)



한 풀 꺾인 빅데이터 열기



세계적인 IT 컨설팅 기업 가트너(Gathner)의 '하이프 사이클(Hype Cycle)'은 기술이 시간이 지남에 따라 어떻게 시장에 정착되는지 설명한 그래프입니다. 기술 등장 초반에 모두 기술을 활용한 먹거리를 찾아 과열되지만 결국 대다수는 상용화할 수 있는 마땅한 모델을 찾지 못하고 끝내 살아남은 몇 개의 모델이 기술을 쓰면서 지속한다는 내용입니다. 많은 기술이 이 사이클을 따라 움직이는 것을 알 수 있습니다. 비트코인 그래프와도 비슷한 이 사이클에는 약 5~10년 전부터 자주 불리는 '빅데이터'도 포함되어 있죠. 



그런데 아는 사람은 아는 빅데이터의 역사는 생각보다 오래되었습니다. 최근 주목받고 있는 머신러닝/딥러닝 알고리즘은 대부분 80년대에서 2000년대에 만들어진 것이 많습니다. 처음에는 공학, 금융, 의학 등의 분야에서 사용되다가 이제는 커머스, 제조업에서도 활용을 하기 시작했습니다. IT 기업이 아닌 회사에서도 빅데이터 엔지니어와 분석가를 채용하는 것을 보면 이제 빅데이터 활용법에 대해 어느 정도 정리가 되어가는 것처럼 보입니다.



#1 도입한 성과를 설명해야 하는 초반 결과물



초반에는 '설명 가능한 것' 우선인 빅데이터는 집계와 전통적인 통계기법을 동원한 것부터 출발했습니다. 빅데이터 인프라를 이제 도입하는 기업들이 가장 먼저 하는 것이 투자한 임원이나 주주들에게 빅데이터를 통해 알게 된 것을 '설명'하는 것이기 때문이죠. 지금까지 했던 활동을 조금 더 크게 보고 간단한 상관성이나 클러스터링을 하는 과제들이 많습니다. 설명이 가능하게 된 빅데이터는 이제 더 이상 기업 내에서 신기한 수단이 아닙니다. 빅데이터를 도입한 조직은 새로운 변화를 꾀해야 하는 도전을 조직 안팎에서 받게 됩니다.



#2 성공 모델을 위한 비설명/고성능 결과물



작은 성공 모델을 기업 내부에서 만들지 못하면 '신기한 것'에서 '실패 사례'로 변하게 되는 것이 눈에 보이기 시작할 무렵 가장 하기 쉬운 일로 첫 모델을 만들어 가곤 합니다. 기존 고객 데이터(CRM)를 좀 더 복잡하게 바꾸는 일이죠. 성과 확인이 쉽다는 이유로 조급한 데이터 조직의 과제는 여기 집중됩니다. 반응률을 높이거나 ROAS를 향상하는 일은 기존 CRM 직무들과 파열음을 내면서 점점 조직 내부에 도입되기 시작합니다. 마땅한 테스트도 없었던 데이터 활용에 실험군과 대조군을 놓고 테스트를 하는 등 빅데이터를 알고리즘을 도입해 기존보다 '잘 맞춘다'를 검증해내려 합니다. 보통 이 정도에서 만족하거나 머물러 있는 비 IT 기업들이 많습니다. 은행은 신용 평가 모델, 유통업은 이상 매출 징후나 고객 반응 예측, 제조업은 설비 관리 등에 방법론을 활용합니다. 기업마다 이미 이 시기를 넘어선 기업도 있고 이제 도입하는 곳도 있지만 Top-tier를 제외한 대부분은 아직 이 호라이즌(horizon)에 들어서지도 못한 것 같습니다.



#3 설명인가, 실적인가



이 시기에 가장 많이 부딪히며 아직 해결해 나가는 철학 중 하나는 '설명'인가 '실적'인가 하는 내용입니다. 데이터 관련 실무자들은 새로운 변수 튜닝과 알고리즘 도입으로 더 높은 실적을 내고 싶어 합니다. 새로 나온 논문을 적용하면서 기존 알고리즘을 깨 보려고 하죠. (하지만 이 또한 데이터 확보 자체를 넘지 못하면 소용없겠죠.) 하지만 신경망(Neural Network)까지 가지 않아도 간단한 회귀식(Regression)이나 의사결정 나무(Decision Tree)만 되어도 분석 결과를 활용하는 실무 현업은 이해하지 못하고, 않으려고 합니다. IT 회사가 아닌 기업에서는 겪을 수밖에 없는 단계라고 생각합니다. 실행을 하기 위해서는 이 내용을 가장 모르는 사람을 통과해야만 하는 과정이 있기에 겪을 수밖에 없는 일이죠.



넷플릭스 사례



넷플릭스(Netflix)도 이런 과정을 겪었습니다. 이제는 고전이 되어버린 'Netflix Prize'는 더 성능 좋은 추천 알고리즘을 개발해 사용자들이 추천한 콘텐츠를 더 많이 볼 수 있도록 하는 대회였습니다. 하지만 상당 수의 사람들이 모르는 것 중 하나는 마지막 대회에서 우승한 알고리즘은 실제 업무에 그대로 써먹지도 못했다는 점이죠. 소위 말하는 개발 단계에서는 적은 양의 데이터 덕분에 복잡한 알고리즘도 돌아갈 수 있었지만 운영 단계에 들어가니 많은 양의 데이터에 새로운 알고리즘을 쓰는 게 너무도 많은 부하를 일으켰기 때문이죠. 실제 간단한 알고리즘도 복잡한 알고리즘 대비 80~90% 정도 수준의 정확성을 보이기에 매년 새로운 알고리즘을 도입할 필요가 없었습니다. 더 큰 문제는 마케팅 등 현업들이 복잡한 알고리즘을 쓴 결과에 대해 피드백할 거리가 없었다는 것이죠. 블랙박스(blackbox) 속 알고리즘을 통해 나온 결과를 어떻게 해석해야 할지 복잡한 앙상블로 이뤄진 알고리즘으로는 파악하기가 어려웠습니다. 결국 넷플릭스는 마지막 대회의 알고리즘을 실무에 적용하지도 못하고 더 이상의 대회를 열지 않기로 하였습니다. 대신 실무에 피드백이 되면서 보다 간단한 알고리즘을 다양한 데이터와 함께 쓰는 것으로 대안을 찾았습니다. (일부 참고 : '데이터 과학, 무엇을 하는가' 김옥기 저) 

(링크 : 컨텐츠 추천부터 다양한 분야 테스트로 Netflix는 데이터를 활용하고 있습니다)



데이터 조직과 실무 조직의 눈높이



빅데이터를 활용하기 시작한 많은 기업들이 비슷한 과정을 겪습니다. 빅데이터에 익숙한 분석가, 과학자가 'Plan-Do-See'로 움직이는 현업을 상대로 적응하거나 나가떨어지는 일 말이죠. 그러다 정반합의 기업에서 '신기한 것'은 결국 '익숙한 것'의 변종으로 남게 되고는 합니다. 비 IT 회사는 그렇게 빅데이터 활용에 대한 나름의 방법을 찾게 됩니다. 아직 이 단계까지 도달하지 않은 비 IT 기업은 신기루를 벗고 곧 기다릴 일들을 미리 준비하는 편이 시행착오를 줄이는 방법이 될 수 있겠죠. 



저도 많은 시간 비 IT 기업에서 데이터 관련된 일을 하면서 절망과 도전의 사이클을 돌고 있습니다. 단순 ISP가 아닌 실제적인 모델을 구축하고 발전시켜야 되는 중간관리자 입장에서 현업을 설득시키는 것은 늘 상당한 도전입니다. '설명할 수 있는 빅데이터'는 그 도전의 중심에 있습니다.



데이터 조직의 기술적인 발전과 현업의 실무 피드백 고리는 이 지점에서 타협의 여지를 가집니다. 결과가 나온 이유를 입력된 데이터와 알고리즘에 대한 설명으로 일정 부분 알려주는 것이죠. 기존처럼 설명을 위해 정확도를 많이 포기하지 않아도 되는 방향이 현재형 빅데이터의 지향점으로 보입니다. 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari