그저 내 경험에 입각한 이야기
내가 빅데이터 업계로 처음 이직한 시기가 2014년이었다.
2012~2013년 정도부터 빅데이터라는 말이 대중적으로 회자되기 시작했으니, 내가 이직했던 당시도 거의 시장 초기가 아니었을까 싶다. 아직도 기억나는 게, 회사 입구에서 이어지는 서가에 책 한 권이 비치되어 있었는데 (오바마 전 미국대통령의 얼굴이 크게 새겨져 있는) '빅데이터 승리의 과학'(고한석 저)라는 책이었다. 이 책에 보면 오바마가 재선에 성공한 큰 이유가 과학적인 데이터 분석 기법을 적극 활용했기 때문이라는 얘기가 나온다. 여기서의 '과학적인 데이터'가 지금 우리가 알고 있는 '빅데이터'다. 실제로 2012년 말에 오바마는 재선에 성공했는데, 유권자 한 명 한 명을 데이터화 시켜 대응했던 것이 전 세계적으로 이슈가 되었고, 적어도 내가 기억하는 선에서는 '빅데이터'를 전세계적으로 알리는 계기가 되었다. (참고로 여기서의 빅데이터 활용 사례는 지금의 빅데이터 모습과는 약간 차이가 있긴 하지만 꽤 흥미로운 지점들이 있으니, 독자분들이 한 번쯤 읽어봐도 좋을 것 같다.)
다시 돌아가서.
내가 업계에 처음 발을 들여 놓았던 2014년, 미국에서는 빅데이터로 승리한 오바마 전 대통령이 있었고, 우리 나라에는 4차산업혁명을 화두로 던졌던 박근혜 대통령이 있었다. 미국의 여파가 국내에도 적잖이 미친 것이다.당시에는 이미 SNS의 수 많은 글들을 데이터화 시키고 있는 회사들이 여럿 있었는데, 그 중 가장 오래된 회사는 이미 10년 차를 넘기고 있었고, 올해 2020년을 기준으로 보면 최대 20년 차 정도가 된다. 이런 맥락에서 우리나라의 SNS데이터 역사를 내 기준으로 환산해보면, 전체 역사는 20년 쯤 되고, 대중적으로 회자되기 시작한 것은 7~8년 정도로 보여진다.
역사라고는 하지만 그만큼 오래되지 않은 분야라는 것에 주목할 필요가 있다.
업계에서 빅데이터와 주로 비교되는 리서치 데이터는 우리나라에서만 40년 정도의 역사를 갖고 있다고 한다. 우리나라만 그렇지 전 세계적으로 보면 이보다 더 먼 역사를 가지고 있다. 하지만 빅데이터 분야는 우리나라나 미국이나, 혹은 전 세계적으로도 그리 큰 격차가 나지 않는다. 역사가 짧다는 것은 다른 말로 하면 그만큼 활용 사례가 적다는 말이다. 검증이 이뤄질만큼 경험치가 쌓이지도 않았다. 10년의 역사를 가졌든 20년의 역사를 가졌든 아직까지 깊이 연구되고 있는 학문은 아닌 것 같다. 지금 빅데이터를 준비하는 학생들이라면, 그래서 충분히 도전해볼 가치가 있을지도 모른다.
내가 입사했을 당시만 해도 소셜데이터를 다루는 회사들은 주로 누가 얼만큼 더 많은 정보량을 수집하고 있는지를 경쟁 요소로 삼았다. 입사 초기에 많은 회사들의 제안서를 볼 기회가 꽤 있었는데, "우리는 타사보다 훨씬 더 많은 채널에서 정보를 수집해요", "우리의 월평균 수집량은 타사보다 많아요", 하는 식의 주장이 많은 부분을 차지했다. 빅데이터라고 하니 데이터의 규모를 먼저 자랑하는 게 당연한 얘기일 수도 있겠지만, 반대로 얘기하면 그만큼 차별 요소를 갖기가 쉽지 않았을 수도 있다. 또한 아무리 기술적으로는 차별화가 되어도 그걸 생소한 비전공자들에게 설명하고 납득시키는 아마 어려웠을 것이다.
또 당시 SNS데이터를 제공하는 업체의 일부 영업사원들은 리서치 업계와 비교하며 고객을 설득하려고 애쓰기도 했다. 리서치는 많아야 1천 명 정도를 조사할 수 있지만, 우리는 몇 십만 명, 몇 백만 명의 소비자들의 얘기를 들을 수 있다, 심지어 비용도 저렴하다는 식으로 고객을 설득하고는 했는데, 나는 이 지점이 당시에도 굉장히 불편했다. 왜냐하면 데이터의 특성을 조금만 아는 사람이라면 이 같은 정량적 비교가 얼마나 이상하게 느껴질지 알기 때문이다. 소셜데이터 업계에서는 리서치 데이터를 단순히 질문해서 얻은 응답 쯤으로 여기는 경우가 많았으며, 리서치 업계에서는 반대로 소셜데이터를 인터넷에 아무 말이나 끄적인 내용을 가져온 내용 쯤으로 여기는 경우가 많았다.
지금은 이미 많은 분들이 아실테지만, 소셜데이터에서 10만 건의 데이터를 분석했다는 것은 10만 명을 분석했다는 의미가 전혀 아니다. 그저 10만 건의 데이터를 분석했다는 얘기일 뿐이다. 두 개가 어떻게 다르냐면, 한 사람이 2개씩 글을 올렸다면, 10만 건의 데이터이지만 5만 명이 될 수도 있다. 한 사람이 10개의 게시글을 올렸다면 1만 건의 데이터를 분석했다는 얘기가 된다. 그래서 두 분석 기법을 굳이 하나의 잣대로 평가하는 것은 서로에게 무모한 짓이다. 하지만 이해도 되는 것이 당시 기업의 담당자들은 기존에 익숙하게 사용하던 리서치 데이터와 주로 비교를 하며 평가했다. 어차피 예산은 정해져있었기에 두 개 다를 할 수 있는 넉넉한 여건은 아니었고, 새롭게 소셜데이터를 이용하려면 기존의 조사방식을 그만둬야 하는 경우도 많았다. 그래서 본의 아니게 리서치 업계와 비교 대상이 되었고, 일부에서는 대체 관계가 되었다.
모 회사의 임원분이 TV에 자주 나와 SNS데이터를 활용하여 사회 현상을 설명하는 것도 대중적으로 확산하는데 큰 도움이 되었다. 사회 현상 뿐만 아니라 어느 연예인의 이미지 등을 몇 개의 키워드와 몇 개의 연결선으로 표현하며 재미있게 설명해준 것이 사람들의 호기심을 불러 일으켰으며, 꽤 재미있는 이슈거리가 되었다.
이렇게 소셜데이터는 리서치 데이터만 고수하던 마케팅조사 업계에 파장을 몰고 왔으며 조금씩 조금씩 시장을 넓혀가고 있었다. 그런데 기업들이 SNS 데이터를 많이 접하면서 기존의 리서치 데이터에서 주는 만족을 충족시키지 못하는 사례가 늘어났고, 심층 분석이 되지 않은, 단순한 키워드의 나열에 재미를 잃어가고 있었다. 시장이 복잡해지고 고객 요구가 세분화되는 상황에서 당시의 소셜데이터는 그리 많은 해답을 주지 못했으며, 키워드 몇 개를 두고 여러 개의 현상과 원인을 설명하는 것에 더 이상 호기심을 얻지 못하고 있었다.
하지만 그럼에도 현재까지 소셜데이터는 수 많은 기업에서 꽤 많이 활용된다. 이유를 나름대로 생각해보건데, 기업들의 온라인을 통한 커뮤니케이션 활동이 에전보다 폭발적으로 늘었기 때문이다. 정말 '폭발적'으로.
온라인광고협회에서 발간한 <2019 온라인광고 시장 분석 및 전망>이라는 자료에 보면 내가 소셜데이터 업계에 발을 들여 놓았던 2014년에 온라인 광고 시장 점유율은 28%로 3분의 1이 안되었다. (물론 그것도 엄청 성장한 수치이기는 하지만) 그런데 2019년 점유율은 48%로 절반 가까이 차지했으며, 2020년의 예상치는 50%를 넘기는 것으로 나와있다. 현재 코로나19로 인해 온라인쇼핑 시장이 급성장했으니 예상치보다는 상회하지 않을까.
온라인 광고 시장이 커지면 왜 SNS 데이터를 필요로 할까. 바로 성과 측정 때문이다. 리서치 데이터는 사람들에게 묻는 반면, 그러니까 후행 데이터인 반면, SNS 데이터를 보면 전부는 아니더라도 소비자의 즉각적인 반응을 측정할 수 있게 된다. 여기서는 저렴한 비용보다 빠르게 측정 가능하다는 장점이 부각된다. 그래서 SNS 데이터를 제공하는 업체들의 노고와는 별개로 시장의 수요가 폭발하면서 덕을 본 경우이기도 하다. 하지만 결국 이런 단기 측정을 위해서만 SNS 데이터가 소비되는 건 낭비라고 생각하는 연구원들이 많아지고 있기 때문에 현재는 좀 더 다양한 결과를 제공할 수 있는 분석 방법들이 연구되고 있는 실정이다.
지금까지 내가 겪은 경험에 기반하여 SNS데이터의 국내 역사를 대략적으로만 풀어놔 보았다. 일각에서는 전혀 뜬금없는 소리라고 할 수도 있고, 일부는 감사하게도 공감하는 분들이 계실지도 모르겠다. 글의 제목에서도 얘기했지만 마땅히 근거는 없는 개인의 소견임을 충분히 인지하고 읽어주시기를 바랄 뿐이다.