brunch

You can make anything
by writing

C.S.Lewis

by Maven Sep 08. 2020

소셜데이터의 한계

이 세상에 모든 데이터를 대체할 수 있는 데이터란 없다.

소셜데이터의 강점에 대해 구구절절 설명했으니 반대로 단점, 한계에 대해서도 짚어보고 싶다.

소셜데이터의 한계 중 일부는 소셜데이터의 장점을 반대로 생각하면 쉽게 알 수 있다.


1. 관심없는 주제에 대한 대답은 들을 수 없다.


앞서 분명히 장점으로 분류하고 정리한 내용이지만, 모든 주제에 대한 대답을 들을 수 없다는 것, 즉 평가를 받을 수 없다는 것은 소비자를 분석하는 데이터로서는 치명적이다. 우리가 흔히 잘 알만한 제품이나 브랜드, 혹은 핫한 제품에 대해서만 들을 수 있다는 것은 데이터를 필요로하는 기업이 제한적일 수 밖에 없다는 얘기다.

예를들어 제품을 런칭하려는 경우 소셜데이터는 무용지물이다. 꼭 제품에 대한 평가 뿐만 아니라 진출하려고하는 시장의 트렌드 파악에 도움이 된다고는 하지만, 제품 출시가 임박했는데 언제까지 트렌드만 읽을 것인가?

실제 이 제품을 제시했을 때 소비자가 관심을 보이는지, 차별적으로 느끼는지, 살만한 제품이라고 평가하는지지 등 직접적인 평가를 받아야 조금이라도 안심할 수 있을텐데 소셜데이터는 그러한 역할을 해주지 못한다.

소셜데이터는 어쩌면 알려지고 나서야 사용할 수 있는데이터라는 얘기다. 그래서 실제로 많은 기업들이 저가격이라는 소문을 듣고 문을 두드렸다가 의미없다고 판단해서 기존의 조사방식을 택하는 경우도 많다. 



2. 질문을 할 수 없다.


이 부분에 대해서도 앞서 "질문하지 말고 들어보자"는 말을 하기는 했지만, 어떤 주제에 대해서는 꼭 질문이 필요한 경우가 있다. 여기서 "꼭 필요하다"는 의미에 대해 생각해 볼 필요가 있는데, 마케팅 전략을 세우기 위해 이 질문에 대한 대답은 꼭 들어야된다는 것이기도 하지만, 일부의 경우는 작년, 재작년 계속 다른 조사방식을 통해 답을 얻었던 질문이라 이 데이터를 이용하기 위해서는 꼭 동일한 질문에 대한 대답이 필요하다고 얘기하는 경우도 있다.

예를 들어, 최근에 어떤 기업으로부터 "추석 선물"에 대한 데이터분석 의뢰를 받은 적이 있는데, 그 쪽에서 중요하게 생각하는 질문이 딱 두 가지였다. '무엇을 살 것인가'와 '얼만큼 살 것인가'. 무엇을 살 것인지에 대한 대답은 소비자가 어떤 제품을 주로 언급하는지, 그리고 어떤 품목을 검색하고 클릭하는지 등의 데이터를 통해 충분히 얘기해줄 수 있는 것이었지만, 작년에 비해서 '얼만큼 살 것인지'에 대한 대답은 소셜을 통해 얻을 수 없다고 판단했다. 물론 SNS에서도 가격을 직접적으로 언급하는 경우도 많다. 그런데 여기서 두 가지 문제가 걸린다. 하나는 얼만큼 살 것인지에 대한 대답으로 사용해도 될 만큼 그 규모가 많은지에 대한 것이다. 전체 언급량을 100이라고 했을 때, 10분의 1 정도만 가격을 언급했다면, 그것만으로 얼만큼 살 것이다라는 결과를 낼 수 있을까? 아마 분석가의 자질을 의심할지도 모른다.

두 번째는 데이터 가공의 문제인데, 소비자가 언급하는 표현이 사람들마다 다르다는 것이다. 어떤 사람은 "만원", 어떤 사람은 "1만원", 그리고 어떤 사람은 "1~2만원" 등으로 동일 가격을 언급하는 표현이 다 제각각인 경우가 많을 것이다. 물론 이렇게 무작위로 형성되어 있는 내용을 수치로 환산하는 게 기술적으로 불가능하지는 않다. 시간만 있다면 외려 충분히 가능한일이다. 분명히 말하지만 시간만 있다면 말이다.

이런 데이터 분석이 생기면 하나의 대답을 듣기 위해 비용과 인력이 추가로 투입되어야하며, 이럴 경우 소셜데이터를 분석하는 일은 절대 기존의 조사방식보다 저렴하지도 단기간에 처리되지도 않는다. 


그래도 여기에 든 예시는, 그나마 기술적으로 처리가 가능한 것이지만, 어떻게 해도 소비자가 언급하지 않아서 분석조차 할 수 없는 영역들이 많다. 그래서 이렇게 소비자에게 질문해야하는 내용은 설문지에 따른 조사 방식을 선택하는 것이 합리적이다.



3. 글쓴이의 성/연령을 알 수 없다.


소셜데이터를 다루면서 가장 많이 들었던 질문이고 우려인데, 분석된 대상의 성/연령대를 알 수 없다는 것이 아마도 가장 큰 한계 요소이지 않을까 싶다. 소셜데이터의 장점에 대해 아무리 미사여구를 붙여가며 설득의 논리를 펼쳐도 이 한 마디를 맞딱드리면 언제나 "안된디"는 말로 응수할 수 밖에 없게된다.


뒤에서도 얘기하겠지만, 일부 분야에서는 소비자가 자신의 프로필, 그러니까 연령대는 어떻게 되고 남자인지, 여자인지, 심지어 직장 경력은 어떻게 되는지, 아이는 있는지 없는지 등의 다양한 얘기를 하는 경우도 있기는 하지만 대부분의 분야에서 SNS 특성 상 자신의 프로필에 대한 정보를 함구하는 특성을 보이기 때문에 불가하다고 얘기하는 게 합당하다.


그래서 SNS에서는 네이버나 구글, 카카오 등에서 제공하는 성/연령별 검색 추이, 쇼핑 상품별 클릭 지수 차이 등을 비교하는 등으로 보완하고 있지만 아마 많은 기업들에게 큰 의사결정을 내리기에 아직까지는 부족하다고 생각하는 부분이 있는 것 같다. 이런 경우에는 과감하게 기존의 조사방식을 유지하면서 좀 더 새로운 관점으로 소비자를 읽고 싶을 때 소셜데이터를 활용하면 될 듯 하다.


성/연령 정보를 파악할 수 없다고 못을 박았으니, 이번에는 좀 다른 관점으로 이 문제에 대해 얘기해보고자 한다. 기업들은 왜 성/연령 정보가 필요한 것일까? 성/연령 정보를 알아서 도대체 어디에 쓰려고하는 것일까? 내 생각이 맞다면, 타겟(Target)을 정하려고 하는 것 같다.


마케팅 전략의 기본은 타겟을 정하는 일, 타겟팅(Targeting)이다. 타겟팅 하나만 가지고 얘기해도 책 한 권은 족히 나올테니 여기에서 상세히 다루지는 않겠지만, 쉽게 얘기하면 우리 제품을 누가 가장 많이 살것인지, 또 누구를 타겟으로 했을 때 좀 더 빨리 우리가 시장에 안착할 수 있는지, 아니면 누구에게 어필했을 때 좀 더 차별화될 수 있을지 등을 고민하고 결단하는 과정이다.


나는 항상 타겟을 정할 때 연령보다 라이프스타일이나 소비 태도 등을 좀 더 세밀하게 관찰하고 규정하는 게 필요하다고 생각하지만 여전히 많은 사람들은 타겟의 연령이 표기되지 않으면 불안해하는 것 같다. 지금 이 글을 읽고 있는 여러분도 아마 같은 생각을 하고 계실 것 같아 잠깐 예를 들어보려고 한다. 


코카콜라의 타겟을 분류하는 과제를 받았다고 가정해 보자. 10대 수험생, 20대 대학생, 2534 직장인, 3539 직장인... 등으로 나눌 것인가? 물론 그것도 의미는 있다. 하지만 코카콜라처럼 이미 거의 전 연령대에서 소비되고 있는 제품의 경우라면 소비자가 해당 음료를 마시게되는 '상황'에 좀 더 초점을 맞출수도 있을 것 같다.

운동하고 난 후의 갈증 해소, 속이 더부룩할 때 소화 촉진, 술 마시고 다음 날 갈증 해소, 기름진 음식을 먹을 때의 물 대용,.. 등등으로 말이다. 이런 취식 상황에서의 대체 가능한 여러 음료들을 놓고 경쟁 관계를 정의하는 게 더 타겟팅에 도움이 되지 않을까? 그럼 속이 더부룩할 때 마시게 되는 사람의 연령대는? 10대? 20대? 이렇게 제품을 소비하는 상황, 즉 동기가 되는 자극요소를 기준으로 본다면 연령대를 정의하는게 갑자기 무의미해질 수도 있다.


사무실에서 쓰는 컴퓨터의 키보드는 어떨까? 휴대폰 케이스라면? 무선 진공청소기라면? 사실 이런 다양한 제품들의 타겟이 무엇일지 잠깐만 고민해보면 오히려 남성과 여성, 10대와 20대를 구분짓는 게 더 어렵다는 것을 알게 될 것이다. 왜 이렇게 성과 연령을 딱 꼬집어 말하기 어려운걸까? 성/연령별 특성의 경계가 점점 희미해지고 있기 때문이다. 특정 연령에게만 소비되는 제품의 수가 점점 줄어들고 있기 때문일지도 모르겠다.


혹자는 이렇게 받아칠지도 모르겠다. 우리 제품은 30대 여성의 구매 비중이 50% 이상이라고. 그렇다면 우리 타겟은 30대 여성이고 이럴 경우 연령이 무엇보다 중요한 것 아니냐고. 맞는 얘기일 수 있다. 그런데 생각해 봐야 한다. 우선은, 대부분의 제품이 30대가 가장 많이 소비한다. 30대의 소비활동이 가장 왕성하기 때문이다. 가전, 가구, 식품, 의류 등 30대 소비가 타 연령대보다 현저히 떨어지는 경우를 오히려 더 찾기 힘들다. 우리 제품을 소비하는 30대의 비중이 50% 이상이기 때문에 가장 중요한 고객이라고 생각하기 이전에 경쟁사와 비교해서 높은 수준인지 낮은 수준인지를 파악해 봐야 한다. 높은 수준이라면 오히려 다른 연령층에서 덜 팔리고 있는 것은 아닌지 의심해 봐야한다. 타겟팅은 핵심 타겟 뿐만 아니라, 잠재 고객이나 비구매 집단까지 고려해야 한다. 그러니까 이미 어떤 층에서 많이 팔리고 있다면, 한 시즌 정도는 구매력이 낮은 다른 소비층에 신경을 써봐야 한다. 사람들이 타겟팅에 대해 오해하고 있는 게 있는데, 타겟팅은 무조건, 매번 가장 구매력이 높을 것 같은 하나의 타겟층만을 지지하는 전략이 아니다. 시장을 여러 집단으로 세분화(Segmentation)해 놓고 지금 당장 시도해볼만한 시장을 찾아 빠르게 움직이는 것이어야 한다. 


이럴 경우 새롭게 시장을 보는 단계에서 소셜데이터가 유의미하게 활용될 수 있다. 우리 제품을 소비하는 집단을 여러개로 구분해놓고 그 중에 하나를 콕 집어, 해당 시장에서의 연령대가 어디인지를 보게되면 좀 더 다양한 관점에서의 타겟 전략이 가능해진다.


그리고 또 한가지 주의할 것은 소비 태도, 소비자의 욕구가 변하는 속도보다 성/연령의 변화 속도는 빈번하지 않으며, 꽤 늦게 나타나는 편이라는 것이다. 새로운 욕구가 나타나도 지표상으로 새로운 연령대의 소비층이 부각되지는 않을 수 있다는 말이다. 욕구가 좀 더 넓게 퍼진 이후에나 특정 소비층이 부각되기 시작할 것이다. 그러므로 주기적으로 연령 추이를 확인하기 보다는 최소 1년의 한 번 이상 확인하는 것을 추천한다. 



3. 공통적으로 쓰이는 통계 분석 기법, 검증 기준이

    마련되어 있지 않다.


소셜데이터를 비정형데이터라고 부른다. 즉, 정형화되어있지 않은 데이터, 수치로 바로 표현할 수 없는 데이터라는 의미이다. 소셜데이터 뿐만 아니라 이미지 데이터 역시 비정형데이터라고 부른다. 비정형데이터이다 보니 아직까지 통계 기법을 적용할 때 범용적으로 쓰이는 공통된 기준이 없다. 소셜데이터를 분석할 때 사용되는 통계 기법은 모두 정형데이터에 기반을 두고 있다. 예를 들면, "이 제품이 얼마나 좋아요?"라는 물음에 5점 척도를 기준으로 4점을 응답했다고 치자. 100명한테 물어서 평균을 내 봤더니, 3.5점이 나왔다. 그럼 이 3.5점이 통계적으로 유의미한가에 대해서 보통 많은 학자들과 분석가들이 몇 점 이상이면 신뢰해도 된다는 연구들을 발표하고 그게 업계에서 통용되는 경우가 많은데, 소셜데이터에서는 동일 기준으로 이를 적용할 수가 없다. 소셜에서 언급된다는 것은 당연히 그 제품이나 서비스에 대해 알고 있다는 의미이며, 그만큼 관심이 있다는 의미이니 일반적으로 질문을 하는 조사 방식보다 모수 자체가 좀 더 관심있는 사람들로 구성되어있을 수 밖에 없다.

즉, 기존의 데이터 분석 결과에서 의미가 있다고 판단하는 기준과 근거를 동일하게 적용할 수 없다는 의미이다. 그래서 소셜데이터를 분석하는 분석가들은 여러 기법들을 적용하면서 나름대로의 기준들을 경험적으로 만들 수 밖에 없다. 

현재 많은 분석가들이 이러한 소셜데이터의 분석 기준을 만들어내느라 열심히 노력하고 있는덕에 머지 않아 서로 공감할 수 있는 새로운 기준들이 생겨날 것이라 믿어 의심치 않지만, 혹시 이 분야를 공부하고 있는 학생이라면 지금이라도 충분히 도전할 영역이 많이 남아있다는 것을 알려주고 싶다.


4. 분석 범위가 한정되어 있다.


뒤에서 좀 더 자세하게 다루겠지만, 소셜데이터는 다음의 몇 가지 채널 내에서 수집이 이뤄진다.

트위터, 블로그, 커뮤니티, 인스타그램, 언론 기사 등 5가지에 하나 더 하자면 '댓글' 정도이다. 가끔 페이스북에서 데이터를 수집했다는 얘기를 하는 업체들도 있는데 이는 잘 못 기재했거나, 수집을 했어도 기업이 보유한 계정에서 일부의 데이터만 수집한 경우가 많다. 페이스북은 애초에 데이터를 수집하지 못하도록 막아놨으므로 접근 자체가 안된다.


소셜데이터는 이렇듯 정보를 수집할 때도 해당 사이트에 접근할 수 있어야 한다. 해당 사이트에 접근할 수 있다는 건 해당 사업자가 접근할 수 있는 길을 열어줬다는 것이다. 아니 열어줬다는 표현보다 딱히 막지 않아서일까? 그러니까 반대로 얘기하면 데이터를 수집하는 사업자가 어떤 채널에서 정보를 수집할지 결정하는 것이 아니라 해당 사이트에서 접속을 차단하면 당연히 수집할 수 없는 게 되는 것이다. 


그렇다보니, 데이터를 수집하는 회사 간 기술적 차이는 어떤 채널을 더 많이 보유하는지가 아니라 동일 채널에서 (서버를 늘려서) 얼만큼 더 데이터를 수집하는지, 수집된 데이터를 얼만큼 더 많이 가공하는지, 어떻게 가독성있게 데이터를 제공하는지 정도의 차이만 있을 뿐, 우리는 이 채널에서의 분석도 가능해요! 라는 얘기를 하는 회사들은 없다. 그만큼 수동적이라는 얘기다.



이렇게 몇 가지 소셜데이터의 한계에 대해서 알아봤는데 사실 더 파고들어서 얘기하자면, 몇 가지 장점이 강력해서 그렇지, 장점보다 어쩌면 단점이 더 많은 데이터가 이 소셜데이터이다. 단점이 많은 이유는 간단하다. 아직 사람들에게 더 많이 익숙해지지 않았기 때문이고, 익숙한 것 같아도 아직 개발이 덜 되었기 때문이다. 그래서 소셜데이터는 아직 갈 길이 멀다. 갈 길이 멀다는 것은 그만큼 도전할 기회가 많이 남아있음을 의미한다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari