빅데이터의 꽃, Text Data

SNS, 검색,..

by Maven

빅데이터에도 여러 종류가 있지만, 내가 주로 다루는 데이터는 Text, 글자로 된 데이터이다.


글자로 된 데이터라함은, 우리가 SNS에 늘 남기는 게시물, 포털사이트에서 검색하는 키워드 종류 등 온라인에서 생성된 데이터를 일컫는 경우가 많다. 온라인에서 생성되는 데이터인만큼 온라인 광고 데이터도 여기에 속한다. 모두 우리에게 새롭지 않은 만큼 꽤 오래된 분야이고 빅데이터라고 했을 때 가장 손쉽게 접하는 데이터 종류지만 아이러니하게 여전히 분석 방법에 대한 개발이 덜 된 분야이다.


여기서는 여러 Text Data 중에 가장 흔하게 접하게 되는 SNS 데이터를 중심으로 얘기해보려 한다.

트위터, 블로그, 커뮤니티, 인스타그램 등의 SNS 채널에 게시되는 데이터는 소셜데이터, 혹은 소셜빅데이터라고도 불리는데 사람들이 SNS에 남긴 여러 의견들을 취합하고 분석한다.


소셜데이터의 가장 큰 장점은, 물어볼 필요가 없다는 것인 반면, 가장 큰 단점 역시 물어볼 수 없는 데이터라는 것이다. 기존의 질의응답 방식으로 된 여론조사는 원하는 답을 얻기 위해 어떻게 여러 질문 항목들을 구성하는지가 매우 중요한 스킬이었다. 설문지를 활용한 조사 방법에서는 응답자가 내 질문 의도를 가장 나중에 파악하게 만드는 것이 기술이고 어떤 브랜드나 기업에서 하는 질문인지를 모르게 하는 것이 기술이다. 그래야 순수한 소비자 의견을 들을 수 있을테니까.


그런데 소셜데이터에서는 그럴 필요가 없다. SNS에 올리는 내용들 자체가 '자발적'이라는 측면에서 이미 어느 정도의 '순수성'을 담고 있다고 믿기 때문이다. 이 글을 읽는 분들 중에 일부는 SNS 게시물들에 순수성이 담겨있다는 내 주장을 "반박"할 분들이 계실 것이다.


추정해보건데 이런 반대의견 아닐까? SNS에 올리는 게시물이 아무리 자발적이라도 개인의 진심이 아닌, 누군가에게 보여주기 위해 꾸며낸 이야기일 수 있다는 것. 내가 여러분의 생각을 맞췄다면, 맞다. 충분히 동의한다.

내가 최근에 구매한 청소기는 네이버를 기준으로 리뷰 수가 가장 많고 평가도 상당히 긍정적이어서 주의 깊게 봤었는데 제품의 상세 페이지에 “포토리뷰를 올리시면 몇 만원 상당의 사은품을 드립니다”라는 프로모션 문구를 보고 리뷰의 진위를 의심하지 않을 수 없었다. 진짜 좋아서 올리는 리뷰인지, 딱히 그 정도까지는 아닌데 사은품을 받기 위해 올리는 별 다섯 개 리뷰인지, 그것도 아니면 나만 죽을 수 없다는 의미의 리뷰인지 우리는 구분할 수 없다.


이런 맥락으로

SNS 채널이 너무 오염되었다는 얘기를 하시는 분들이 실제 빅데이터 분석가 중에서도 적지 않은데,

다시 한 번 말하지만 데이터에 오염이 있을 수 있다는 말에는 충분히 공감하면서도 나는 조금 다른 생각을 가지고 있다.


사실 어느 데이터나 오염되어 있다. 앞서 얘기한 설문지를 활용한 조사방법 역시 그 역사가 오래되다 보니 이제는 소비자에게 질문 의도나 조사 기업을 감추기가 쉽지 않다. 소비자가 진화하는 속도를 이길 수 있는 전문가는 없다.

여론조사를 오염시키는 조건 중에 소비자의 빠른 진화 속도만 있는 것은 아니다. 궁금한 게 점점 많아지는 기업들은 계속 질문지 길이를 늘렸고 응답자들은 설문지를 뒤로 넘길수록 점점 지쳐 가기도 한다. 응답자가 지쳐가면 응답의 진위 여부도 흔들리기 마련이다. 그래서 오랜 기간 여론조사를 연구한 학자들은 데이터의 값이 실제와 다를 수도 있다는 것을 통계적으로 정의하여 ‘오차범위(어떤 특정한 값에서 발생할 수 있는 모든 오류)’로 표현하기도 했는데, 예를 들면 1천명을 조사하면 오차범위가 플러스 마이너스 몇 퍼센트 하는 식이다. 물론 오차범위는 응답자가 귀찮아서 불성실하게 응답한 내용도 있다는 것을 최대한 배제하고 이야기하는 것이기에, 응답자의 불성실한 응답까지 포함하면 신뢰성 자체에 금이 간다.


실제로 여론조사를 진행하면서 “질문이 길어지면 응답이 불성실 해진다”는 사실을 알고 있지만 그것을 감안하고서도 질문지를 쉽게 줄이지 못하는 기업들도 태반이다.


결국 어떤 데이터, 조사 방법이라도 어느 정도의 오염은 있을 수 밖에 없는 것이 현실이다. 그래서 쉽게 어떤 데이터가 어떤 데이터를 대체할 수 있다거나 어떤 조사방법이 더 낫다는 식의 접근은 상당히 비효율적이다. 데이터가 빅데이터를 포함해서 다양해진 상황에서 분석가는 최대한 다양한 데이터를 활용하고 융합해서 최대한 소비자의 마음을 읽는 시도를 하는 것 뿐이다.


소셜데이터에 대해 마케팅 대가인 필립 코틀러(Philip Kotler)는 <마켓4.0>이라는 자신의 시리즈 책에서 이렇게 말했다. “소비자는 자신과 비슷한 입장의 소비자에게만 허심탄회하게 털어놓는 경향이 있으며, 더욱이 자신이 꾸며 놓은 환경 속에서 만큼은 자연스럽고 분명하게 드러내게 된다.


반대로 단점에 대해서 이야기 해 보자면, 소비자가 물어보지 않아도 얘기하는 대신, 물어보고 싶은 내용에 대해서는 말해주지 않는 경우가 더러 있다는 것이다. 예를들면, SNS 특성 상 소비자가 실제 빈번히 사용을 하고 있더라도 관심이 없는 제품이나 이슈에 대해서는 이야기하지 않는다.


집에 한 두개는 꼭 있는 ‘손톱깎이’는 우리가 꽤 자주 사용하는 물건이지만 SNS에 올릴 만큼 관심을 가지는 제품은 아니다. 손톱깎이를 만드는 회사는 자신이 만든 손톱깎이 브랜드에 대한 소비자 평가를 SNS에서 들을 수 없을 확률이 높다. 또, 아주 유명한 브랜드의 상품이라도 신제품을 출시한지 얼마 되지 않았다면 역시 소비자의 자발적 생각을 들을 수 없을지도 모른다. 이럴 경우 대체로 소셜데이터 보다는 기존의 여론조사를 진행하는 편이 훨씬 유용하다.


한 가지 더, 소셜데이터에 주목해야 하는 이유가 있다.

마케팅이나 브랜딩, 광고 활동 등의 과정에서 구상되는 최고의 메시지는 소비자에게 공감을 얻어 소비를 자극할 수 있는 내용과 언어일 것이다. 소비자의 공감을 얻기 위한 최고의 방법은 메시지에서 사용될 단어와 표현, 내용들을 '소비자의 언어'에서 찾는 것이다. 우리 브랜드를 통해 전달하고자 하는 가치가 “나를 위한 값진 선물”이라도 소비자의 언어가 “친구에게 줄 선물로 적당한”이라면 그 언어를 마케팅적 메시지로 활용할 수밖에 없는 것처럼 말이다.

소비자에게 가장 어필할 수 있는 언어를 발견하려면, 소비자의 자발적 언어를 주기적으로 들여다봐야 한다. 소비자의 언어는 꽤나 빠르게 변하니까. 빌 브라이슨이 쓴 <언어의 탄생>이라는 책을 보면 표지부터 이런 의미심장한 문구가 적혀 있다. “언어는 과학이 아니라 유행이다.”



코로나19가 시작한 이래로 가장 많이, 그리고 빠르게 대중에게 안착한 단어는 아마 “비대면”일 것이다. 사람들과 대면하지 않아야 하는 사회적 통제 상황에 놓여지면서 우리는 꽤 많은 변화를 겪었다. 번화가로 몰려드는 습성은 집과 집 주변, 동네로 좁혀졌고, 때 되면 하는 시즌성 활동은 계절의 변화를 체감할 수 없는 상황에서 계절과 시간의 흐름을 무시하고 사라지거나 불특정하게 발생했다. 비대면이 강조된 세상에서 사람들에게 유일하게 한정된 대면의 명분을 주었던 '당근마켓'은 취업준비생들이 가고 싶은 대표적인 IT회사로 성장했으며(네카라쿠베 --> 네카라쿠베당요), 재택 근무의 장기화로 인테리어 시장은 기하급수적으로 성장했다. 비대면이라는 신조어가 바꾼 유행이자 트렌드다.


그렇다면 비대면 이전에는 어떤 키워드가 라이프스타일을 주도하며 영향을 미쳤을까?


2017년 유행했던 “욜로(You live at Once의 줄임말)”와 2018년 전후로 유행했던 “소확행(소소하지만 확실한 행복)”가 있다. 비대면만큼은 아니지만, 욜로와 소확행 역시 당시 2030대들에게는 라이프스타일 변화에 적지 않게 영향을 준 기조였다. 유행이 되는 어떤 단어를 자주 사용하게 될수록 그 단어로 표현 가능한, 그 단어에 적합한 행동이 수반되기 마련이다.

예를들면 욜로라는 단어가 유행했을 당시 여행에 대한 수요가 증가했다. 욜로의 파생이 자동차 하나에 의지해 해외 오지를 탐험했던 연예인을 통해 시작되었기 때문이다. 소확행이 회자되었을 때는 과감하게 질렀던 욜로 때와 달리 작은 것에 기쁨을 누린다는 생각이 파다해져 실제로 저가 상품들을 쇼핑하며 플렉스했다는 글도 심심찮게 올라왔다. 다이소나 올리브영 같은 곳에서 지르는 행동들 말이다.



소셜데이터와 함께 주로 읽히는 데이터는 ‘검색 데이터’다. 앞서 빅데이터의 역사를 얘기하는 과정에서도 트럼프 당선의 예측을 구글트렌드라는 서비스를 이용, “NIGGER”라는 검색어를 발견하면서 시작되었다고 얘기했는데 검색어에 대한 연구 역시 꽤 재미있는 분야다. 소셜데이터가 사람들의 자발적인 게시 내용을 통해 ‘인식’을 점검하는 분야라면, 검색데이터는 상대적으로 사람들의 ‘행동’과 밀접하게 맞닿아 있다.


검색을 한다는 것은 무언가에 대해 더 정보를 알고 싶거나 관련된 제품을 구입하고자 하는 욕구를 담고 있다. 그래서 사람들이 어떤 제품에 대해 얼만큼 검색하는지와 어떤 종류의 키워드로 검색하는지를 비교해 보면 질문을 통해 얻는 답보다 더 명쾌하게 해석이 가능할 때가 있다.


예를들어, 네이버 데이터랩(datalab.naver.com)이라는 사이트에서 제공하는 검색트렌드 데이터를 보면 사람들이 소파를 검색할 때 사용하는 단어로 ‘소파’와 ‘쇼파’가 있다. 두 단어 중 어떤 게 표준어일까? ‘소파’다. 그럼 어떤 단어로 검색하는 사람들이 더 많을까? ‘쇼파’다. 이 글을 쓰고 있는 2022년 12월을 기준으로 최근 한 달 간의 검색량을 비교해보면, ‘소파’ 대비 ‘쇼파’의 검색량이 두배나 많다. 2030대 등에서는 두 단어 간 검색량의 격차가 점점 줄어드는 반면, 4050대 등에서는 그나마 두 단어의 격차가 어느정도 유지되고 있다. 그리고 소파든 쇼파든 2020년 코로나19가 시작되면서 검색량이 급격히 증가하다가 2021년에 진입하면서 코로나19 이전과 유사한 수준으로 돌아갔다.


재미있는 지점이 하나 더 있다. 소파를 사려고 알아볼 때 사실 단순히 소파로만 검색하고 마는 사람들은 거의 없을 것이다. 소파를 검색했다가, 1인용, 2인용, 3인용 등으로 검색했다가, 소파테이블을 검색했다가 다시 소파를 검색했다가.. 이렇게 사람들은 여러 단어를 바꿔가면서 정보를 탐색한다. 그래서 검색데이터를 볼 때는 그 단어의 검색 빈도나 추이 외에도 “연관검색어”를 함께 본다. 사람들의 관심 분야를 좀 더 폭넓게 이해하기 위해서다. ‘소파’의 연관검색어 중 상위에 위치한 키워드를 보면, 가구박람회, 쇼파, 가구, 2인쇼파, 수입가구 등이 포진해 있다. 그런데 ‘쇼파’의 연관검색어를 보면 상위에 1인용쇼파, 2인쇼파, 아울렛 등이 위치해 있다. 자, 두 단어의 차이가 느껴지는가?


한 단계만 더 나아가보자.


쇼파의 상위 연관검색어였던 1인용쇼파 검색량은 2인용, 3인용, 4인용 대비 압도적으로 많으며 전세계 팬데믹이 선언되었던 2020년 3월 가장 높게 치솟았다. 1인용쇼파에 대한 검색량은 20대부터 50대까지 비교적 고르게 분포되어 있으나, 다른 세대에서는 코로나19를 지내면서 점차 관심이 줄어든데 비해 유독 50대에서는 그 수요가 일정하게 유지되고 있다. 왜 그럴까?


두가지 가설을 세울 수가 있다.

하나는 1인용소파 답게 혼자사는 고연령층이 증가하고 있을지도 모른다는 가설이다. 실제로 1인가구는 2019년 30%를 돌파한 뒤로 꾸준히 증가 중이며, 1인가구 증가에 영향을 미친 세대가 50대 등 고연령층이라는 통계가 있다.

두 번째 가설은, 가족과 같이 살더라도 혼자만의 공간이 필요해졌기 때문일 수 있다. 이것 역시 실제로 2020년 코로나19를 맞아 집에 있는 시간들이 많아지면서 ‘공간’을 바라보는 시각이 많이 달라졌고, 이에 따라 인테리어나 리모델링에 대한 수요가 급증했다.

여기서 딱히 결론을 지으려는 것은 아니다. 그저 검색데이터를 통해 들여다 볼 수 있는 세상에 대해 이야기하고 싶었을 뿐이다.


그림1.png
그림2.png



소셜데이터에 대한 호기심이 커지던 초기,

새로운 분석을 갈망했던 여러 업체들과 회의를 할 때 한결같이 듣던 질문이 있다.


“소셜데이터에서도 성별, 연령별 구분을 할 수 있나요?”


반복되는 질문에 대한 나의 대답 역시 한결같았다.


“아니요, SNS에 자신의 연령이나 성별을 밝히지 않는 한 알 수 없습니다.”


“그럼 이 데이터를 어떻게 활용할 수 있죠?”


“…”



완곡하게 돌려 말했기 때문에 ‘질문’으로 오해하기 쉽지만, 사실은 불신이었다. 새로운 데이터를 갈망하면서도 회의적이었다. 새로운 데이터를 새로운 관점에서 바라보지 않고, 기존의 데이터를 바라보던 기준으로 ‘잣대’를 들이댔기 때문이다. 물론 당연히 그럴 수 있는 일이었다. 혁신은 언제나 기존 사회의 질서와 대립하니까. 더욱이 시장 초기에 빅데이터가 마치 기존 여론조사를 완벽히 대체할 수 있을 거라고 무턱대고 영업하던 직원들의 영향도 한 몫 했을 것이다.


지금은 그래도 그때의 미숙함을 조금씩 벗어나고 있어서, 동일한 질문을 받았을 때 보험 등 특정 산업의 경우 소비자가 자발적으로 본인의 간단한 신상 정보를 남겨서 알 수 있는 경우도 있지만 대체로 개인정보보호 정책 상 알 수 없다는 말도 하고, 소비자의 니즈(Needs)는 성/연령 등 인구 통계학적 요인 외에도 라이프스타일에 기반해 구분되기 때문에 소셜데이터가 보완책이 될 수 있다거나, 소셜데이터는 여론조사를 대체하기 위함이 아닌 융합하기 위해 존재하는 것이라는 등으로 대응을 하기도 한다.


소셜데이터든 검색데이터든 ‘텍스트 기반의 데이터’는 사람들의 ‘언어’를 기반으로 한다. 사람들의 언어는 그 시대의 문화와 한시적 유행과 세대별로 다르게 형성된 가치관이 담겨있다. 신지영 교수님이 쓰신 <언어의 줄다리기>라는 책을 보면 언어에 대해 이렇게 얘기하고 있다.

“습관적으로 사용한 언어 표현이 우리의 이데올로기를 지배한다. (중략) 새로운 세상을 만들고 싶을 때, 새로운 틀로 세상을 바라보게 하고 싶을 때 새로운 언어 표현부터 고민하게 되는 이유가 바로 여기에 있다. 언어 표현이 숨기고 있는 이데올로기는 은연중에 우리의 생각과 관점을 지배한다.”


이데올로기(Ideologie)는 영어 단어 자체에서 보듯 생각(Idea)이나 이데아(Idea, 관념)을 의미한다. 고로 “말하는 대로”된다는 유재석의 노래 구절과 같은 맥락이다. 그러니 사람들이 자발적으로 편한 공간에 게시한 글자들을 분석하는 건, 기술적으로 명사와 형용사를 분리해내는 작업을 넘어 언어 속에서 그들의 생각을 읽고 더 나아가 시대를 읽어야 하는 것이다. 그것이 질문에 의존하는 ‘Small Data’가 아닌, ‘Big Data’의 역사적 사명일 것이다.


소셜데이터를 제대로 보려면 데이터를 수집(크롤링, Crawling)하고 게시된 글자들을 쪼개는(마이닝, Mining) 기술을 본인이 가지고 있거나, 돈을 내고 제공하는 기업으로부터 데이터를 구매해야 하지만, 검색데이터는 누구나 접근할 수 있다.

대기업의 마케팅 전문가든 이제 막 데이터 공부를 시작하는 학생이든 동일한 출발선에 놓여있다는 말이다. 그런데 왜 누구는 시장에서 인사이트를 찾아내고, 누구는 그 데이터가 한없이 부족하다고 느낄까.

어쩌면 우리에게 부족한 건 데이터를 정제하고 가공하는 등의 스킬이 아니라, 데이터를 대하는 태도와 데이터를 바라보는 관점일 수도 있다. 그것이 Data Literacy, 데이터 문해력이다.

keyword
매거진의 이전글그래서, 4차 산업혁명은 온 거야, 안 온 거야?