brunch

You can make anything
by writing

C.S.Lewis

by Maven Sep 03. 2020

소셜데이터 무엇이 다른가?

전통적 조사 방식과의 어쩔 수 없는 비교

앞서도 잠깐 얘기한 적이 있지만 초기 소셜데이터의 주된 영업 컨텐츠는 크게 두 가지였다. 첫 째, "기존에 당신들이 보던 데이터보다 훨씬 더 많은 규모의 데이터를 볼 수 있다." 둘 째, "그런데 심지어 저렴하기까지 하다. 당신이 리서치라는 방식에 쓰는 돈이면 지금보다 훨씬 더 많은 데이터를 볼 수 있다"라는 것이 주된 포인트였다. 이러한 영업방식은 아마 지금도 많은 회사에서 이뤄지고 있을 것이다. 그리고 실제 이 두 가지가 대중적으로 가장 잘 알려진 내용일테니 가장 큰 장점이 될 수도 있겠다. 물론 단순히 데이터의 규모만을 따져본다면.


하지만 전체 규모가 크다는 것이지 다양한 질문을 해소해 줄 수 있다는 말은 아니다. 그럼에도 소셜데이터는 기존에 접하던 다른 데이터들과 다른, 명확한 몇 가지 장점 때문에 여전히 많은 기업들의 선택을 받는다. 대체제로 선택을 받든, 보완재로 선택을 받든.


물론 소셜데이터가 가진 한계도 있다. 그런 한계에 대한 부분은 다음 챕터에서 다뤄보기로 하고, 이 번 챕터에서는 소셜데이터가 타 데이터와 다른, 몇 가지 장점을 짚어보려 한다. 규모가 크고 저렴하다는 이유 외에 말이다.


그리고 향후에도 소셜데이터의 특성을 언급할 때, 설문응답 방식의 리서치 영역과 더러 비교를 하게될텐데 혹시 오해가 없었으면 좋겠다. 소비자 분석을 하는 대표 데이터이기 때문에 비교를 하는 것이기도 하고 여론조사 분야가 대중적으로 가장 많이 알려진 조사 방법론이기 때문이기도 하다. 나는 두 데이터가 상호보완 관계가 되어야한다고 믿으며 지금까지의 내 경험에 비추어서도 그렇다. 딱히 어떤 데이터가 우위라는 것은 있을 수 없는 일이다.



01. 비교적 단기간에 데이터 분석이 가능하다.


기존의 여론 조사 방식은 소비자를 모객하고 물어보고 대답을 정리하는데 물리적인 시간의 소요가 필요하다. 요새는 온라인조사로 거의 대체되었다고 하니까, 오프라인 조사 방식보다 많이 줄어들었다고는 하나, 온라인으로도 사람들에게 질문지를 노출할 시간과 응답을 받을 시간, 받은 응답을 처리할 시간이 각각 필요하다는 것이다. 흘려들었던 기억을 되짚어보면, 500명을 조사한다고 해도 딱 500명에게만 노출시키는 건 아니라고 한다. 10배 이상의 대상자들에게 노출시킨 다음에 응답 인원이 다 차면 마감하는 식이다. 


그런데 소셜데이터는 이미 확보된 자료 안에서 분석에 필요한 데이터를 찾는 방식이다. 그러니까 어떤 데이터를 볼 것인지 정하고 데이터를 추출하고 가공하는데 상대적으로 시간이 적게 들 수도 있다. 물론 이러한 분석 기간의 격차도 어떠한 목적으로 데이터를 볼 것인지에 따라 달라진다.

예를 들면 지난 주에 집행된 광고/이벤트의 성과를 실시간으로 측정한다던가, 우리 브랜드에 대한 언급량 추이를 비교해 본다던가 하는 등 비교적 가벼운 주제를 다룰 경우에는 확실히 소셜데이터를 통하는 것이 기존의 설문조사 방식보다 짧은 기간 내에 결과를 받아볼 수 있겠으나, 우리 브랜드의 전반적인 평판을 본다던가 업계 전반의 트렌드를 보고자 할 때는 사실 소요 기간의 큰 차이가 발생하지 않는 경우가 많다. 여론 조사를 진행하는 기간이 점점 줄어들고 있기도 하고, 소셜데이터 역시 단순히 수집된 정보에서 단편적인 결과를 추출해 제공하는 것이 아닌, 점차 세분화된 분석을 요청 받는 일이 많아지고 있기 때문에 예전과 비교하면 점점 분석 기간이 늘어나고 있는 추세다. 


소셜데이터는 그럼 어떤 이유때문에 좀 더 긴 분석 기간이 필요하게 되는 것일까.


첫 번째는, 기존에 수집해 놓은 정보 외에 추가 데이터 수집이 필요한 경우이다. 특정 게시물의 댓글만을 수집해 별도로 분석한다던가, 앱스토어나 유튜브 같은 곳에서 발생되는 데이터를 별도로 수집해야 할 경우, 데이터를 수집하려는 웹사이트의 구조를 파악하고 수집하는 코드를 짜고 실제 수집을 하고 수집된 데이터를 가공하는 등의 시간이 필요하다.

두 번째는, 이미 구축된 플랫폼을 통해 도출되는 키워드 외에 별도의 키워드가 필요할 때이다. 네이버에서 제공하는 '실시간 검색어'를 떠올리면 이해가 쉬운데, 우리가 볼 때 확인할 수 있는 검색어 순위는 20위까지이다. 그런데 만약 20위 밖에 있는, 한 100위 정도까지의 실시간 검색어를 보고 싶다면? 네이버 플랫폼에서 제공하는 데이터가 아닌 별도로 서버에 쌓여진 키워드를 꺼내봐야한다. 그러니까 몇 번의 클릭만으로 알 수 없는 영역이 있기 때문에 숨겨진 데이터를 찾아야하는 과정이 필요해지면 시간이 더 들 수 밖에 없다.

세 번째는, 단순히 키워드의 구성이나 증감추세를 보는 것에서만 끝나지 않고 소비자가 평가하는 뉘앙스까지 탐색해 봐야 할 때가 있다. 이럴 경우 SNS에 게시된 원문 전체를 별도로 수집해서 다양한 통계 분석 기법으로 데이터를 쪼개고 합치는 과정들을 반복하는데 여기에 소요되는 시간이 가장 많이 든다. 그리고 요즘은 대부분 기업들이 이런 심화 분석을 요구하기 때문에 소셜데이터의 분석도 무조건 단기간에 가능하다고 말하기 어려워지고 있다. 어떤 데이터든 분류가 아닌 분석을 해야할 경우, 단기간에 가능한 경우는 사실 거의 없다.



02. 물어보지 않은 말을 들을 수 있다.


기존의 조사들은 '질문'이 중요하다. 데이터를 분석하는 역량 못지않게 질문하는 역량이 중요하다. 소비자들이 가장 솔직하고 자유롭게 얘기할 수 있도록 특정 질문을 전체 질문지 내 적재적소에 배치해야하며 같은 내용이라도 어떠한 단어, 수식어, 서술어로 표현하는지에 따라 조사 결과는 판이하게 달라질 수 있다. 그래서 대체로 분석이 뛰어난 사람들을 보면 질문도 잘한다. 심지어 딱히 배우지 않았는데도 소비자들로 구성된 그룹토의에서 사회도 잘 본다. 어떤 대답이 있을 때 분석이 가능하고, 또 유의미할지 감으로 알기 때문이다.

소셜데이터에서는 이런 질문이 필요없다. SNS는 소비자 스스로 얘기하는 채널이기 때문이다. 분석하는 사람은 그들의 얘기를 듣고 있다가 원하는 내용만 발췌하면 된다. 제한된 시간이 없고 질문하는 사람이 없으니 더 많이 얘기할 수 있고, 또 경우에 따라서는 질문했을 때보다 더 많은 정보들을 주기도 한다.


올해 초 '새해소망'이라는 주제로 소셜데이터 분석을 진행한 적이 있는데, 그 중 "지금처럼"이라는 키워드가 유독 눈에 띄었다. 취업, 승진, 입시, 건강, 결혼... 이 아니라 "지금처럼만"이라고 얘기하는 내용들이 꽤 많이 있었다는 것이다. 새해소망이 무엇인지, 어떻게 달라지고 있는지를 분석하려고 시작한 일이었는데 정작 요즘의 2030대들에게 있어 소망은 새해가 되었든 그렇지 않든, 미래가 아닌 현재에 집중되어있다는 것을 배웠다. 만약 설문조사에서 이러한 대답을 얻으려면 어떻게 질문해야 할까? 어떻게 질문하면 "지금처럼만 살았으면 좋겠어요"라고 소비자가 대답할 수 있게 만들고, 또 그들이 정말 무엇을 소망으로 삼고 있는지 밝혀낼 수 있을까. 사실 나는 이에 대한 대답을 알지 못한다. 그래서 나는 이 부분이 소셜데이터의 가장 큰 장점이라고 생각한다. 규모가 크고 비용이 저렴하다는 것보다.


흔히 소셜데이터를 이용하고자 하는 많은 사람들이 기존의 조사방식에서나 나올법한 여러 질문들을 쏟아낸다. 


"우리 브랜드의 경쟁 상대는 누구라고 생각하는지, 우리 제품을 구입한지 얼마나 되었는지, 우리 제품을 구입하기 이전에는 어떤 제품을 주로 썼는지, 이런 상품들을 구입할 때 어떤 것들을 주로 고민하는지.. 궁금해요."


기존의 조사방식이 아닌 새로운 데이터를 선택했다면 그 데이터의 특성에 주목할 필요가 있다.

질문하지 않아도 대답하는 데이터에서는 질문하지 말고 가만히 들어보자.



03. 다양한 표현들로 의견을 내거나 설명한다.


사람들이 말을 할 때는 어떤 제품이나 이슈에 대해 '좋다/싫다'는 언어적인 표현도 있지만, 말의 뉘앙스라고 하는 '말투(어투)'로도 감정을 드러낸다. 물론 흥 / 칫 / 뿡 같은 감정을 표현하는 단어들도 있지만.

SNS는 작성자의 말투와 가장 비슷한 '글'이 생성되는 곳이기 때문에 여기에도 글의 뉘앙스, 즉 '글투'라는 것이 묻어나온다. 마케팅 현업에서 사용하는 용어로는 Tone & Manner라고 하는 표현이 있고 우리말로 하면 어조와 어감이라고 하는데, SNS에서는 작성자가 편하게 게시한 글의 내용 뿐만 아니라 글에서 묻어나오는 '투'(습관과 또래 문화)를 통해서도 소비자의 진심을 추적한다. 


물론 소비자의 '글투'를 분석하기 위해서는 단순히 키워드의 종류나 개수를 정리하는 것만으로는 해결되지 않는다. 소비자가 게시한 전체 글의 뉘앙스를 봐야하기 때문에 원문을 별도로 추출하고 가공하는 과정이 필요하며 이런 과정은 대체로 복잡하다.

하지만 시간이 걸리더라도 이러한 과정은 반드시 필요하다는 게 나의 오래된 지론이다.

소셜데이터를 보는 주 목적은 소비자가 해당 제품을 좋아하는지 싫어하는지 여부를 가늠하기 위해서도 있지만 해당 제품에 대한 소비자의 태도를 세밀하게 관찰하기 위한 것도 있기 때문에.


예를 들어, "새롭다"라는 단어를 보자. 기술적으로는 이 단어를 '긍정'의 표현이라고 분류하는데 실제로 소비자들이 사용하는 언어의 뉘앙스를 보면 긍정과 부정의 두 가지 표현이 다 가능하다. 긍정인 경우는 기계가 인식하는 것과 마찬가지로 "신선하다" "혁신적이다" 등의 의미를 갖는다. 하지만 반대로 부정을 표현하는 의미로 쓰이는 경우 "낯설다"의 의미를 갖는다. "새롭긴한데.." "너무 새로워서.." 등의 표현이 여기에 해당된다.


이렇듯 단순히 어떤 단어가 추출되었다고 해서 소비자의 태도를 긍정이니 부정이니하며 지레짐작하게 되면 데이터의 오독(誤讀)이 된다. 분석이 아니라 '분류'가 되고, 해석이 아니라 '상상'이 된다.


또 어떤 경우에는 글투라는 것이 특정 키워드로 대변되기도 한다.

내용은 해당 상품을 비판하는 내용일지라도 몇 가지 신조어를 덧붙여 글의 뉘앙스, 그러니까 감정적 태도를 조절하기도 한다. 한 예로 우리가 흔히 쓰는 "ㅋㅋ"라는 신조어가 붙으면 글에서 사용된 단어나 내용이 부정적이라고 하더라도 어느 정도의 부정인지 가늠해 볼 수있는 지표가 되기도 한다.


한 때 사회적으로 기업의 "개인정보유출"이라는 이슈가 회자되어서 데이터를 분석한 적이 있는데, 표면적으로는 각종 욕설과 비난, 비판이 난무했지만 실제 원문 전체를 기반으로 면밀히 키워드를 세분화 하는 과정에서 이상하게 "ㅋㅋㅋㅋ"라는 내용이 대부분의 글마다 붙어 있었다. 예를 들면, "내 개인정보는 나보다 먼저 해외여행 중 ㅋㅋㅋㅋ"이런 식.

여기서 한 가지 힌트를 얻은 것이 소비자의 반응을 부정의 정도에 따라 단계별로 구분해 보자는 것이었다. 부정적 표현에도 단계가 있다. 분노, 비판, 비난, 무시, 혐오, ...등등. 이런 부정의 단계를, 소비자의 뉘앙스와 사용된 부정 키워드를 조합하여 구분해 보자는 것이었다. 과거 동일 이슈가 있었을 때의 데이터를 기반으로 말이다. 그랬더니 무작정 강한 어조로 비난하는 사람, 기업이 금전적으로 보상해줘야 한다며 목소리를 내는 사람, 해당 내용에 대한 언론 기사를 중계하듯이 읊어대는 사람, 본 이슈가 무엇이 문제인지 논평하는 사람, 그저 SNS에서 회자되니까 농담으로 편승하는 사람... 등 몇 가지 그룹으로 나뉘어졌다. 그리고 이후의 작업은 간단했다. 현재의 동일 이슈에 대한 반응을 해당 그룹과 같이 구분하고 과거 대비 어떤 그룹의 규모가 증가했는지를 측정하는 것이다. 결과는, 의외로 "농담을 하는 사람들"이 현저히 증가했다. 이것은 무엇을 의미하는가?

반복적인 이슈로 화가 난 사람들보다 그냥 그러려니 체념하는 사람들이 증가했다는 의미다. 이에 따라 당시 기업이 어떤 선택을 했는지는 알 수 없으나 이러한 여론 반응의 정도를 세밀하게 밝혀낼 수 있다면 어떻게 대응해야 할지 결정을 내리는 게 좀 더 용이해질 수 있지 않을까?


그리고 소비자의 감정을 드러내는 다양한 언어 표현들은 그 자체로 기업에게 많은 도움이 된다. 기업이 하는 수 많은 마케팅 활동에서 커뮤니케이션 메시지가 무엇보다 중요한데, 소비자에게 소위 가장 먹히는 커뮤니케이션 메시지는 내가 봤을 때 크게 두 부류다. 소비자의 감성과 맞닿아있거나, 소비자의 언어와 맞닿아있어야 된다.

즉 소비자가 공감할 수 있는 감성적인 상황을 활용해 표현하거나, 소비자가 자주 사용하는 언어 표현들을 차용함으로서 소비자와의 거리를 좁혀나가는 것이다. 오래된 광고 카피 중에 "열심히 일한 당신 떠나라"라는 게 있다. 당시 인지도가 낮았던 현대카드 광고인데 많은 사람들에게 공감을 불러 일으켰다. 또 박카스에 늘 등장하던 대학생 커플이나 가서 크게 키우라는 동네 슈퍼 사장님의 응원을 받으며 출근하는 신입사원, 밤 늦도록 야근하면서 기지개를 펴는 직장인들의 모습들 역시 감성적인 공감대를 불러 일으켰다.

반면 소비자의 언어 표현들을 그대로 담아낸 광고들은 요즘 온라인에서 특히 넘쳐난다. 당장 네이버 메인에 상시로 떠 있는 쇼핑 아이템들의 설명 문구만 봐도 단 번에 알 수 있다. "압도적인 가성비" "직장인 출근룩" "가을신상 필수템" 기업들이 이런 문구들을 왜 클릭유도를 위해 활용할까? 소비자가 많이 쓰는 용어이기 때문이다.


많은 기업들이 커뮤니케이션 메시지를 고민할 때 가장 먼저 하는 것이 소비자의 언어를 찾는 과정이다. 심지어 브랜드명을 지을때도 마찬가지다. 인스타그램에서 사용되는 해시태그를 자주 들여다 본다. 그들이 자주 사용하는 단어를 스크랩해 놓고 각장 온라인 광고 메시지에 담아낸다. 그리고 그런 단어를 다른 기업들보다 먼저 사용하려고 한다. 이것이 소셜데이터를 보는 또 하나의 이유가 된다.


SNS에서 소비자들이 사용하는 언어를 보는 일은 매우 중요하다. 한 사람 한 사람이 올린 내용도 중요하지만, 그 또래가 같은 의미로 사용하는 여러가지 언어 표현들과 뉘앙스를 보고 있으면 그 시대를 이해할 수 있게 된다. 그래서 SNS는 지금의 세상을 이해하는 하나의 창구로서 역할을 하기 때문에 놓쳐서는 안되는 채널 중에 하나가 된 것이다.




04. 관심이 없는 주제는 아예 말 하지도 않는다.


이게 얼마나 효율적인 의사결정을 돕는지 모를것이다. 소비자가 자발적으로 언급하지 않는다는 것만으로도 (냉정하긴 하지만) 우리의 상황을 알려주는 하나의 성과측정 지표가 될 수 있다. 자발적으로 언급하지도 않는 상품을 두고 "이 상품을 어떻게 생각하세요?" "얼마나 마음에 드는지에 따라 5점 중 몇 점?"이라고 질문한들 무슨 소용이 있겠는가. SNS에서조차 나타나지 않는 이슈나 정책, 상품에 대해서는 다른 식의 성과 측정이 필요하다. 자사 웹사이트 방문객이라던가, 매출 성장폭이라던가.


물론 데이터를 수집하는 회사라고 하더라도 국내에서 생성되는 모든 SNS를 수집하지는 못한다. 데이터를 추출하고 담는 서버(Server) 용량에도 한계가 있기 때문에. 그리고 사실 국내에서 하루에 얼만큼 SNS데이터가 생겼다가 사라지는지 어느 누구도 알지 못한다. 마치 신문사나 잡지의 정확한 발행부수를 아무도 모르는 것처럼. 


데이터 회사들이 평균적으로 한 달에 약 2억 건 정도의 SNS글들을 수집하는데 미국의 소프트웨어 회사인 '도모(DOMO)'라는 곳에서 발표한 자료를 보면, 트위터 하나만 하더라도 2019년을 기준으로 1분에 약 50만 건 이상의 글이 전세계에서 생긴다고 한다. 글로벌 기준이기는 하나, 1분에 50만 건을 기준으로 1시간에 생성되는 규모를 추산해보면 3백 만 건, 하루에는 약 7천 만 건 이상이 생성된다. 한 달이면 200억 건이 가뿐히 넘는다. 앞서 2억 건의 국내 한 달 평균 수집량은 트위터, 블로그, 커뮤니티, 인스타그램, 언론 기사 등을 포함한 것이니 서로 비교하는 기준이 다르기는 하지만, 이렇게 말도 안되는 기준으로 비교해 봐도 전세계에서 한 달에 생성되는 데이터 규모 대비 한 회사에서 수집되는 데이터의 규모는 100분의 1이 채 안된다. 그런데 트위터 하나만 보자면? 그리고 국내로 좁힌다면? 정확하게 알 수는 없지만 우리 회사를 최근 한 달동안 SNS에서 언급한 규모가 100건이라고 해도 실제로는 1000건, 1만 건이 넘을수도 있다.


그렇지만 나름의 기준을 세우자는 것이다. 

한 달에 2억 건을 수집하는데도 안 잡히는 거면 그게 1만 건에 달할지라도 아직 인지도가 높지 않다라는 기준 말이다. 그러한 기준과 관점을 가지고 데이터를 보는 것이다. 




번외로 척도에 대한 얘기가 나와서 하는 말인데, 흔히 통계에서 사용되는 5점척도, 7점척도 등은 그 자체만으로 이미 논문이 여러 편이다. 리서치에서는 이 척도라는 개념을 쓸 때 상당히 신중하게 선택하는 경우가 많다. 5점 척도는 1점:가장 싫다부터 5점 가장 좋다 사이에서 마음에 드는 정도에 따라 점수를 기입하는 것인데, 이게 사람마다 애매할 때가 있다. 2점을 주기에는 그 정도로 싫은 건 아닌 것 같고, 4점을 주자니 너무 많이 주는 것 같을 때 우리에게는 더 많은 선택지가 필요하다. 그래서 7점 척도나 더 많은 점수를 기입할 수 있는 척도를 사용하기도 한다. 물론 이러한 척도의 경향성은 시대에 따라 변하기도 한다. 조사 트렌드라는 것이 일부 작용할 수 있다는 얘기다.

그리고 또 한가지 질문지에 5점 척도 중간의 3점, 혹은 7점 척도 중간의 4점을 표기할 때도 '중간'에 해당하는 단어를 어떻게 선택할지에 따라서도 응답이 미세하게 갈리는 경우가 있기 때문에 신중하게 선택해야 한다. '보통이다'라고 하면 긍정에 가까울 것 같아서 '중간이다'라는 표현을 쓰기도 한다.

비전문가나 이 업계와 관계없는 사람들이 보면 지금 내가 하고 있는 설명만 봐도 머리가 아플것이다. 그런데 이 모든 기술들은 학계 뿐만 아니라 일반 현업에서도 빈번히 연구되고 있는 요소다. 나비가 날개짓만 해도 태풍이 닥친다고 하지 않던가. 결국 이 모든 미세한 노력들은 모두 소비자의 솔직한 대답을 얻기 위함이다.


그런 관점에서 SNS데이터의 역할은 분명 이러한 목적을 달성하는데 조금 더 근접해있다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari