brunch

You can make anything
by writing

C.S.Lewis

by 허니비라이온 Dec 01. 2022

아직도 소셜빅데이터의 '신뢰성'을 따지는 당신에게

데이터로 사람 읽기

 4차산업혁명이라는 단어가 고개를 들기 시작하면서부터였던가? 데이터, 빅데이터..  등등 2010년대 중후반 이후 특히 마케터에게 강박적으로 다가왔던 단어일 게다. 이제는 브랜드 마케팅, 퍼포먼스 마케팅, CRM 마케팅, 콘텐츠 마케팅 등등등... 마케팅도 무엇을 목적으로 어떤 일을 하느냐에 따라 세분화 하는 것이 상식이 되었지만, 어떤 분야가 전문이건 간에 모든 마케터의 업무를 포괄적이고도 단순하게 정의해 본다면 '고객에 대한 이해를 바탕으로 판매 촉진 활동을 하는 것'이다. '고객에 대한 이해'는 모든 마케팅의 선결 조건이자 전제이며, 바로 그 이해의 상당 부분은 사방에 널린 혹은 애써서 수집하거나 분석해서 모은 다양한 종류의 데이터로부터 온다. 전부가 아니라 '상당 부분'이라 함은, 또한 고객에 대한 이해의 상당 부분이 직관과 관찰, 통찰에서 비롯되기 때문이다.


고객에 대한 이해는 데이터로부터,
다만 데이터 별 특성 정확히 이해하고 목적에 맞게 골라써야


 여하튼, 요즘은 마케터가 하려고만 들면 이용할 수 있는 데이터는 참 많다. 물론 리소스가 소요되는 것이 보통이지만 기껏해야 내부 판매데이터와 국가 통계, 큰 맘 먹고 큰 돈 들여 시행한 소비자 조사 데이터 정도 활용했던 옛날에 비하면, 요즘은 소셜빅데이터, GA데이터, 앱이용 데이터, 카드 구매/결제 데이터, 검색 데이터 등 소비자의 액션과 생각을 추적하고 여정을 복원할 수 있는 데이터가 정말로 많다.


 그런데 문제는, 데이터가 많기는 하지만 공통된 키값이 없고 성질이 다른 데이터들을 그냥 합치거나 연결해서 볼 수는 없다는 점이다. 내부 CRM용 데이터가 아니고서야 대체로 저런 데이터들은 써드파티 데이터로, 개개인이 식별되지 않는다. 이런 데이터들은 연결되지 않고, 제각기 시사하는 바가 다르기 때문에, 목적에 맞게 골라쓰고, 데이터 특성에 맞는 분석 목표를 가지고 접근해야 한다.


소셜빅데이터 - 사람들이 자발적으로 남긴 기록과 소통의 흔적
리얼 데이터이면서 정성적인 데이터인 흔치 않은 데이터


 마케터가 비교적 손쉽게 접하고 활용할 수 있는 데이터 중 하나가 소셜빅데이터다. 여타의 데이터와 가장 큰 차이점은 디지털 상에서 수집하는 데이터 중 흔치 않은 정성적인 데이터라는 것. 물론 텍스트를 계량화 할 수 있는 자연어처리기술(NLP)이 나오면서는 텍스트를 품사 별로 혹은 의미단위 별로 끊어 카운트하고, 분석하고 싶은 어휘 사전을 만들어 프로그래밍하면, 사람들의 글도 계량적 분석이 가능해졌고, 그런 기술을 활용해 대시보드로 만들어진 것이바이브컴퍼니(구. 다음소프트), RSN, 타파크로스 등의 회사들이 제공하는 소셜빅데이터분석시스템이다.


이런 솔루션에서는 정성적 데이터인 소셜빅데이터를 정량적 형태로 볼 수 있게 해 주지만, 기본적으로 데이터의 성격 자체가 사람들이 온라인 상에 쓴 게시글을 재료로 하기 때문에, 명확히 수집 가능한 지표가 정해져 있다기 보다는, 연구자의 경험과 역량 수준, 주어진 시간에 따라 뽑아낼 수 있는 인사이트의 양과 질이 현격하게 차이가 난다. 즉, 정량화를 할 수는 있지만 연구자에 따라 무엇을 어떤 방향으로 얼마나 어느 깊이로 볼 것인지가 다르고, 분석의 대상/방향/범위/깊이가 다르다는 건 결국 데이터를 수집하기 위해 던지는 쿼리도 다르다는 것이고, 쿼리가 다르면 데이터의 수집량과 수집내용에도 차이가 난다. 전문 기업이 제공하는 솔루션이라면, 회사에 따라서 솔루션이 제공하는 데이터의 수집 커버리지나 양, 택사노미 등 기본 조건 자체가 달라진다.


소셜빅데이터를 정량 데이터 보듯이 보려는 순간 문제 발생


즉, 소셜빅데이터는 명확히 유니버스를 정의할 수 없는 데이터이며, 정량 데이터를 보던 마인드로 봐서는 안되는 데이터다. 소셜빅데이터를 볼 때는 큰 흐름, 경향, 함의를 보겠다는 생각을 가져야 한다. 브랜드 지표 트래킹을 하듯이 구체적으로 수치가 얼마나 달라졌는지, 순위가 얼마나 등락했는지, 지엽적인 차이에 눈을 두어서는 도저히 이해할 수 없는, 신뢰할 수 없는 데이터일 것이다. 이 업체가 분석한 결과와 저 업체가 분석한 결과에 나온 연관어 순위가 왜 서로 다른지 따지는 것도 적절하지 않다. 조건과 데이터 소스가 완전히 같은 경우가 아니라면, 완전히 같은 결과가 나오는 것도 이상한 일이다. 조건과 목적이 같았는데 연관어 순위나 언급량 추이가 완전히 같지 않더라도 대략 같은 경향을 띤다든지, 연관어 상위의 순위들이 완전히 같지는 않은데 유사한 것들이 상위권에 포진해 있다든지, 그런 시각으로 봐야 한다. 전년 동기 대비 순위나 양적 변동 역시 큰 관점에서 경향과 추세 차원에서 봐야 하는 것이지, 판매량, 매출 등을 트래킹 하듯이 숫자 한자리한자리에 일희일비하며 보는 것은 곤란하다.


소셜빅데이터로 절대 하지말아야 할 것 - KPI 측정


소셜빅데이터가 등장한 초기에는 소비자조사를 대체할 거라는 기대가 많았다. 특히, 그 전에는 소비자 조사를 통해 측정했던 광고나 브랜드에 대한 인식 상 성과를 소셜빅데이터로 측정할 수 있으리라는 기대가 높았다. 하지만 마케터가 익숙한 지표, 모두가 공통적인 감각으로 받아들일 수 있는 지표 - 예를 들면 브랜드 인지도, 선호도, 구입의향 등 - 는 소셜빅데이터에서 결코 나올 수 없다. (소셜빅데이터나 검색량 데이터로 저런 지표를 뽑아낼 수 있다고 말하는 이가 있다면 그를 멀리 하시라. 그는 사기꾼이거나 잘 모르는 사람이다.) 언급량을 타사와 그냥 단순히 크기 비교를 하는 것도 말도 안되는 일이다. 기업을 둘러싼 다양하고 복잡한 이유들이 모두 영향을 미치는데 그것을 일일이 재단하여 동일 조건으로 만들 수는 없기에 비교가 부적절하다.


또한 소셜빅데이터의 긍정률과 부정률을 보는 것도 조심해야 한다. 완벽한 문맥 분석을 분석 엔진이 익히지 않은 이상, 단어의 긍/부정을 완벽하게 나누는 것은 불가능한데, 현재 긍부정률를 산출하는 시스템은 쉽게 말하면 먼저 분석할 단어들 하나하나에 일일이 긍정인지 부정인지 레이블을 달아준 사전을 만들고, 그 사전에 기반해 기계적으로 긍부정률을 산출하는 방식이다. 즉, 사전에서 "문제적이다"라는 단어를 부정적 단어로 분류했다면, 아무런 호불호가 깔려 있지않은 tvN 프로그램 "문제적 남자"는 부정적 의미로 분류되어 버리는 식이다. 이런 연유로 단어에 따라서 어떤 영역에서는 긍정적인 단어가 다른 영역에서는 부정적인 단어가 되는 경우도 허다하다.


이런 형편인데도 여전히, 소셜빅데이터의 언급량을 경쟁사와 비교하고, 긍정률과 부정률를 KPI로 놓고 목매다는 브랜드가 이제 거의 없지만 간혹 보게 되면 참으로 안타까운 마음을 금할 수 없다. (하아.. 제발 그만..)


그러면 대체 소셜빅데이터는 어디다가 어떻게 써야 하는가?

소셜빅데이터는 사람들이 기록하거나 소통한 자발적이고 자연스런 언어의 흔적을 분석하는 데이터이므로, 특정 사안에 대한 리얼한 현황을 들여다보거나, 큰 관점에서 시계열적 변화나 추이를 보는 데 유용하다. 대신 이런 빅데이터에 신뢰성, 대표성 따지기 시작하면 정말 피곤해진다. 특히나 마케팅 팀장 정도나 되는 위인이 데이터 별 특성 차이도 이해 못하고 아는 척 하면서 이런 질문 하면 그냥 미팅 자리를 박차고 나가고 싶어진다. 빅데이터가 괜히 빅데이터가 아니다. 너무너무 크고 빠르게 생성되는 데이터라서 빅데이터이고, 경향과 트렌드로 봐야 하는 것이 빅데이터인데, 표본조사나 보던 시각으로 신뢰성이니 대표성을 따지고 싶으면 그냥 빅데이터를 안보는 게 낫다. 빅데이터는 원래 그렇게 보는 데이터가 아니다.


바로 그렇기 때문에 소비자조사가 더더욱 필요한 순간이 있는 것이다. 물어야만 알 수 있는 것, 즉 인식이나 이유를 알기 위해서는 소비자 조사를 하지 않을 재간이 없다. 한 때는 빅데이터나 디지털 데이터가 리얼리티에 기반하고 있는 반면 소비자 조사는 직접 행동이 아니라 사람의 인식이나 기억에 의존해서 답변한 데이터니까 신빙성이 덜 한 것 아니냐고 하는 사람들도 있었다. 아직 미몽에서 못깨어나고 있는 사람들도 있지만 그래도 이제는 많은 사람들이 확실히 깨닫게 되었다고 생각한다. 하지만, 리얼데이터 할아버지가 와도 "왜 그랬는가?"는 직접 물어보지 않고서는 알아낼 방법이 없다. 소비자 조사는 이미 100여년 가까운 역사를 가지면서, 신뢰성과 대표성을 갖기 위한 방법론들이 탄탄하게 빌드업 되어 있는 상태다. (그러니까 제발 좀 믿어라.) 요즘 브랜드 플랫폼들에서는 수시로 고객들에게 이것저것을 물어봐서 데이터를 축적하기도 한다. 그걸 우리는 제로파티데이터라고 부른다.


결국, 소셜빅데이터와 소비자조사는, 서로를 대체하거나 상쇄하는 것이 아니라 상호보완적인 관계로 활용되었을 때 가장 유용하다. 물론 서로 연결되거나 합쳐질 수 있는 데이터가 아니지만, 정량 데이터로 시장 전반의 그림을 파악한 다음 소셜빅데이터로 디테일한 현황이나 reason why를 파악한다든지, 소셜빅데이터로 이슈를 포착한 다음 구체적인 이유나 전개 상황은 소비자 조사로 살펴 본다든지, 그런 식으로 필자는 수년 전부터 두 데이터를 융합적으로 활용하고 있는데, 시장과 고객에 대한 이해가 매우 풍성해지는 것을 경험하고 있다.


결국 문제는 사람일지도...


다만, 소비자 조사를 할 줄 아는 사람과 소셜빅데이터 분석을 할 줄 아는 사람이 같은 사람이 아니라는 것이 난점이다. 앞으로는 양쪽을 모두 잘 할 수 있는 하이브리드 분석가도 나타나겠지만 - '잘 할 수 있는'이라는 부분에 방점을 두어본다. 할 수 있다고 말하는 사람들이 꽤 있겠지만 둘 다 잘 하는 사람은 한번도 본적이 없다. 나 역시 하이브리드 '이해자'이긴 하지만 둘다 완벽하게 하는 사람은 아니기에 - 두 분석 방법은 개념과 태생이 너무 달라서 둘 다 잘 하는 사람이 되는 건 쉽지 않다.


5개 불렛으로 요약해보기 (너무 두서없이 내갈겨서)


쓰다보니 얘기가 여러 갈래로 튀었는데;;

정리하면 다음과 같다.


1. 마케터가 이용할 수 있는 다양한 데이터들, 특성과 목적을 잘 알고 쓰시라

2. 소셜빅데이터 분석을 해달라고 해놓고 신뢰성, 대표성 따지면 안된다. 큰 관점에서 경향과 추이를 보라

3. 소셜빅데이터 언급량이나 긍부정률로 브랜드나 광고 성과를 보는 건 바보 짓이다. (인지도, 선호도, 구입의향.. 등 인식 상 성과는 소비자조사로 보는 게 맞다.)

4. 소비자 조사를 왜곡된 데이터라고 폄하하는 리얼데이터 신봉자들이여.. 믿어도 된다.. 소비자조사는 100여 년에 걸쳐 빌드업 된 학술적 방법론들을 기반으로 하고 있다. 현상이 아니라 "왜 그랬는가"를 알기 위해서는 물어보지 않고서는 알 재간이 없다.

5. 소셜빅데이터와 소비자조사는 서로 대체하거나 상쇄하는 것이 아니라 상호보완적으로 활용될 때 가장 유용하다.


그동안 답답했던 경험들이 생각나서 글이 다소 감정적으로 나왔다. 하하

다 쓰고 나니 다소 민망하나 내용 만은 사실이라는 것.

그러니 발행 버튼 꾹 눌러본다.




매거진의 이전글 데이터 세대론 : MZ + X
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari