brunch

You can make anything
by writing

C.S.Lewis

by 여행하는 기획자 Nov 14. 2021

가볍지만 가볍지 않은 이종 데이터 융합 이야기

무조건 융합만이 답은 아니다

대학원 수업에서 사용자의 데이터를 분석하는 과정이 부쩍 많이 늘어났다. 사용자들이 무심코 작성한 인스타그램 해시태그부터 시작해 서비스나 물건에 남긴 댓글까지 손쉽게 수집할 수 있는 기술이 빠르게 발전하고 있다. 갈수록 데이터도 방대해지고 최근 3년 데이터 법률 개정으로 인해 이전보다 쉽게 사용자의 데이터를 활용할 수 있는 가능성이 높아지고 있다. 문제는 각 회사마다, 각 영역별로 수집할 수 있는 데이터가 한정적이라는 것이다.


유통사는 유통사, 이통사는 이통사별로 수집할 수 있는 데이터가 한정적이다 보니 데이터를 활용할 수 있는 서비스나 비즈니스도 한정적일 수밖에 없었다. 사용자에게 유용한 서비스를 제공하기 위해서는 한정적인 데이터로 한계가 있기 때문에 점차 서로 다른 도메인별로 융합을 시도하는 사례가 늘어나기 시작했다. 확실히 이종 산업의 데이터가 결합되니 때론 사용자에게 편의를 제공하기도 하고, 그동안 해결하기 어려운 문제를 쉽게 해결하기도 하였다. 


중국 GIS 위치정보와 코로나 바이러스 발생추이와의 데이터 융합을 통한 지역별 바이러스 노출 위험도 분석(Zhous Cheunghu,2020)




의료, 유통, 교통 등 이종 데이터를 융합하면 할수록 새롭게 만들어지는 서비스는 무궁무진하다. 그렇기에 너도나도 데이터들을 모으려는 시도가 다양하게 이뤄지고 있다. 특히 국내에서는 카드사 중심으로 활발하게 데이터 동맹을 강화하고 있는데 대표적으로 신한카드의 '민간 데이터 댐', 현대카드의 '데이터 갤럭시', BC카드의 '금융 빅데이터 플랫폼'이 있다. 카드사, 이통사, 유통업체, 제조업체 등 이종 산업 간 데이터 융합을 통해 그동안 풀기 어려웠던 문제를 데이터로 풀고자 하는 움직임이 지금도 빠르게 움직이고 있다. 


 

BC카드의 '금융 빅데이터 플랫폼 컨소시엄' (임세현 BC카드 빅데이터센터장)




데이터 융합에 대한 관심이 높아지고 다양한 데이터를 결합하면서 여러 가지 불편했던 점이 해결되고 가치를 만들어내면서 카드사뿐만 아니라 많은 회사들이 '데이터 융합'을 시도하고 있다. 하지만 단순히 '데이터 융합'만이 모든 문제를 해결해줄 것만 같은 '만능 치트키'로 여기는 건 바람직하지 않다. 왜냐하면 단순 데이터 융합으로 예기치 못한 문제가 발생할 수 있고 막대한 시간과 돈이 투자될 수 있는 문제이기 때문이다. 


데이터 융합을 생각하기 전에 고민해야 할 점들


1. 문제에 대한 정의는 필수이다.

다양한 데이터를 수집하는 건 데이터 분석에 있어서 꼭 필요한 작업이다. 나도 대학원 때 텍스트 마이닝 분석을 하면서 가장 많이 공을 들이는 작업이 '데이터 수집'에 대한 작업이다. 그만큼 시간이 많이 들기 때문이다. 더더군다나 어떤 패턴을 보기 위해 데이터를 수집하는 건 단순히 하루 이틀의 데이터로 알기 힘들다. 몇 달치의 데이터를 뽑아야 할 땐 엄청난 시간이 소요된다. 문제는 여기서부터 이다. 데이터를 뽑긴 뽑았는데 해결할 가설이 없다면 방향성 없이 재료만 많이 있는 셈이다. 물론 일단 모아놓고 생각을 해볼 수도 있다. 하지만 목적을 정하지 않고 일단 데이터부터 수집하고 문제를 풀려면 엄청난 시간과 비용이 수반된다. 


문제 정의 없이 일단 '코로나블루' 데이터를 수집하고 분석하였지만 서비스까지 연결되기가 어려웠던 사례 



회사에서 데이터 융합 기획을 담당하고 있고 학교에서도 데이터 분석을 하고 있는데, 최근 담당한 프로젝트도 비슷한 문제를 겪었다. 시간에 쫓기기도 하고 뭐라도 하고 있어야 하니까 일단 가장 수월한 '코로나 블루'에 대한 데이터 수집부터 시작하였다.  데이터를 엄청나게 수집하고 분석을 다 하였지만 정작 '그래서 무엇을 해결하지?'라는 부분에서 큰 난관에 부딪혔던 적이 있었다. 


데이터를 분석하는 데 있어서, 융합을 하는 데 있어서 반드시 풀어야 할 문제를 정해놓는 것이 필요하다. 문제 정의 즉 가설이 명확할수록 해결할 수 있는 서비스는 명확해진다. 문제가 정의되지 않은 채 여러 영역의 데이터를 모은 뒤 새로운 서비스를 만드는 접근은 데이터의 양이 많아지면 많아질수록 시간과 비용이 요구된다. 


2. 단순 데이터 융합은 사용자의 불편을 야기할 수 있다. 

바로 사용자의 불편함을 야기할 수 있다는 점이다. 아직 인공지능의 기술 수준이 사용자의 숨은 의도까지 인식하지 못하기 때문에 단순 데이터 융합으로 인해 사용자에게 오히려 불편함을 주는 결과가 나타나는 경우가 종종 발생하고 있다.

지브리 음악을 자주 듣는다고 애니메이션 영화를 좋아한다고 볼 순 없다


예를 들어 한 사용자는 편안하게 듣고 싶은 음악을 평소 즐겨 들어 '지브리 애니메이션'의 ost를 듣곤 한다. 디즈니의 애니메이션 음악도 편안하게 들을 수 있을 뿐만 아니라 공부할 때 함께 들으면 집중도 더 잘되는 것 같아 애니메이션 ost를 꾸준히 듣곤 한다. 이 사용자가 왓챠에서 영화를 본다고 가정을 해보자. 만약 단순히 멜론 뮤직과 왓챠 영화 간 데이터를 융합해본다면 너무도 당연히 왓챠 영화 추천영화에 애니메이션이 잔뜩 떠 있을 것이다. 어떤 문제를 풀 것인지 정의하지 않은 채 데이터 간 융합을 한다면 사용자의 의도와는 상관없는 추천리스트가 나타나는 셈이다. 단순 데이터 융합으로 결국 사용자에게 불필요한 추천을 할 수 있는 확률이 올라가는 셈이다. 


데이터 융합을 하였을 때 발생하는 오류 결과는 본래의 학습된 데이터에서 멀어지면 멀어질수록 오류 원인을 파악하기가 더욱 어려워진다. 따라서 처음부터 본래 풀어야 할 문제가 무엇이고 융합이 필요하다면 본래의 학습된 데이터 간 연결 관계에 대한 이해가 필요하다. 


예시는 단순히 음악과 영화 간 데이터 융합으로 단순히 1:1 융합으로 인한 말도 안 되는 서비스가 나타난 경우지만 만약 여러 차원의 융합이 발생하면 시스템의 복잡도는 올라가게 된다. 융합으로 인한 오류가 단순히 엔터테인먼트가 아닌 돈, 생명 등과 연계되는 데이터들 간의 융합이라면 이야기가 달라진다. 자칫 단순한 데이터 융합을 통해 윤리적인 문제나 생명에 지장을 줄 수 있는 문제까지 발생할 수 있다. 




우리는 너무도 쉽게 '데이터 융합'을 바라보고 모든 문제를 해결해 준다는 장밋빛 미래를 꿈꾸고 있지만 '데이터가 모든 것을 해결해 줄 것이다.'라는 환상을 버려야 한다. 나도 데이터 융합을 담당하는 사람으로서 올 한 해 데이터의 데이터의 재료들을 모으는데 집중하게 되고 문제를 발굴하는 데는 생각을 많이 하지 못하였다. 아무래도 재료를 찾는 것은 쉽고 문제를 발굴하는 것은 어렵기 때문이다. 하지만 제한된 리소스로 서비스를 발굴하기 위해서는 해결하고 싶은 문제들을 갖고 하나의 옵션으로서 데이터 융합을 바라봐야 한다는 사실을 올해 가장 크게 배웠고, 깨닫게 되었다. 


단순 융합은 때론 어처구니없는 결과를 만들 수 있기에 문제를 먼저 정의하고 데이터 간 융합이 꼭 필요한지 생각해볼 필요가 있다. 만약 필요하다면 바보 같은 해석 결과가 나오지 않기 위해 사전에 데이터 융합을 위한 밀도 높은 전처리 과정이 필요하다. 데이터를 라벨링을 고려하고 데이터들 간의 관계, 형태, 라벨링을 별도로 고려해야 한다. 좀 더 원활한 데이터 융합을 위해 일관된 포맷팅을 만들어주고 사전에 데이터를 분할 해 충분히 트레이닝 데이터로 학습을 거치는 과정 역시 필요하다. 


제한된 데이터로 풀기 어려운 문제를 다른 영역의 데이터들과 합치면서 효과적으로 문제를 해결할 수 있다. 데이터 융합은 잘만 활용하면 무척 파워풀하고 서로 다른 영역의 이해관계자들 모두가 윈윈 할 수 있는 구조이다. 그렇기에 풀어야 하는 문제 정의와 함께 섬세한 데이터 결합이 필수적이라는 사실을 염두할 필요가 있다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari