brunch

You can make anything
by writing

C.S.Lewis

by Maven Sep 22. 2021

빅데이터 분석? 데이터 특성을 먼저 이해해야

데이터 종류에 따라 분석해야하는 관점이 다르다

빅데이터라는 용어가 생기면서 가장 크게 변화한 지점은 

기존에 '데이터'로 퉁쳐서 부르던 것들이 '빅데이터'와 '스몰데이터'로 구분되기 시작한 것입니다.


물론 스몰데이터는 기존의 빅데이터와 다른 종류의 (상대적으로 규모가 작은) 데이터를 지칭하는,

공식화되지 않은 용어였지만, 주로 설문지를 통해 의견을 얻는 전통적인 여론조사 기법에 붙였으며

최근에는 별로 사용되고 있지 않은 모양새이기는 합니다.


그런데 어찌되었든, 빅데이터든 스몰데이터든 데이터를 분석함에 있어 가장 선행되어야 할 것은

데이터의 특성을 파악하는 일일 것입니다.


대중의 반응을 얻을 수 있는 데이터를 저는 크게 3가지로 분류합니다.


1. 여론조사 : 설문지를 제시하고 직접 응답을 받는 데이터입니다.

온라인으로 진행할 수도 있고, 오프라인에서 조사원이 직접 응답을 받을 수도 있습니다.

물론 여론조사라는 말은 설문지 기법의 조사와 빅데이터를 모두 아울러야 하는 말입니다만,

우선은 전통적인 조사 기법을 의미하는 경우가 아직까지는 더 많기 때문에

여론조사=설문지기법으로 정의하고 얘기해 보도록 하겠습니다.


2. SNS데이터 : 소비자가 웹상에 자발적으로 그들의 의견을 남긴 것을 수집한 데이터입니다.

자신의 트위터, 블로그나 각종 커뮤니티 사이트가 될 수도 있고, 상품을 구입하고 남기는 댓글, 

유튜브나 언론 기사 등에 남기는 댓글이 될 수도 있으며 우리는 이를 흔히 빅데이터라고 부릅니다.

(물론 빅데이터 종류의 극히 일부분에 불과하지만요)


3. 검색데이터 : 네이버 등 포털사이트에서 소비자가 직접 검색하는 검색 키워드에 해당합니다.

SNS데이터와 주로 비교되어 분석되는 데이터입니다.

이 역시 지난 2016년, "구글은 이미 트럼프 당선을 예측했다"라는 내용으로 빅데이터의 중요성을

전세계에 각인시키며 화려하게 등장한 빅데이터의 한 종류입니다.


그런데 이같은 세 가지 데이터는 각각 어떤 특징을 가지고 있을까요?




여론조사는 질문에 대한 대답입니다. 질문 내용 중 통상 80% 이상이 객관식으로 되어 있고

또 5점 척도, 7점 척도 등 '척도'의 개념이 들어가 있으며, 나머지 20% 미만에 해당하는 주관식

응답에는 최대한 단문으로 응답하도록 유도되어 있습니다.

그렇기 때문에 여론조사에서는 질문의 배치가 중요하며, 응답할 수 있는 보기의 개수나 구조도

상당한 영향을 미칩니다. 또 기술적으로는 같은 질문이라도 5점 척도, 7점 척도로 질문시

응답이 미세하게 달라질 수 있기 때문에 이에 대한 설계 노하우가 반드시 필요합니다.


또 전체 설문 길이도 영향을 미칠 수 있습니다. 보통 사람들이 10분 이상을 응답하기 어려워한다는

전문가의 말도 있는데 따라서 10분 안에 응답할 수 있는 질문들의 품질과 20분 가까이에 배치된 응답의

품질이 어떻게 달라질 수 있는지도 함께 고려되어야 하는 부분입니다.


물론 이러한 내용들은 대중적으로 드러나지 않을 뿐이지 꽤 오랜 역사를 거치면서 많은 연구가

이뤄졌기 때문에 데이터를 설계하고 해석하는데 있어 어느 정도 규칙은 공론화되어 있습니다.




그런데 빅데이터라고 불리는 SNS, 검색 데이터는 어떤 특징을 가지고 있을까요?


SNS 데이터와 검색 데이터의 가장 큰 차이는 '글투'에 있습니다.


SNS에 올리는 게시물, 댓글들은 최대한 본인의 '말투'와 닮아 있습니다. 말버릇, 그러니까 말하는 습관이나 얘기하고자 하는 주제, 이슈에 대한 태도가 글에서도 묻어나는거죠.

이러한 '말투'는 크게 세 가지로 이뤄져 있다고 생각되는데,


하나는, 단어의 사용입니다. 누구나 각자가 잘 사용하는 단어의 종류가 있죠. 접속사만 하더라도 누구는 그런데를, 누구는 그러니까를, 누구는 그래서를 잘 사용합니다. 여기서 한 가지 더 재미있는 것은, 어떤 접속사를 가장 많이 사용하는지에 따라 본인의 어법, 문장 구조도 달라진다는 것이죠.


두 번째로는, 역시 말하는 습관입니다. 주변에서 보더라도 어떤 사람들은 매사 진지하고 어떤 사람들은 뜬금없이 농담을 섞기도 하죠. 또 어떤 사람들은 말끝을 흐리는 경우가 많습니다. 이러한 습관과 태도는 '글투'라는 것에서도 묻어나는데 일례로 꼭 문장의 끝에 '말줄임표(...)'를 습관적으로 붙이는 분들이 있습니다. 반대로 'ㅋㅋㅋ' 같은 웃음 표시를 붙이는 사람도 있습니다. 이러한 경향은 불과 2~3줄을 올리는 SNS에서 더 극명하게 나타납니다.


마지막으로 세 번째는, 얘기하고자 하는 주제에 대한 관심의 정도에 따라 말투가 달라진다는 겁니다.


예를 들면, 익숙한 주제에 대해서는 언제든 가볍게 얘기할 수 있습니다. 반대로 무거운 주제, 혹은 익숙하지 않은 주제, 전문적인 영역을 얘기할때는 함구하거나 진지하고 딱딱하게 얘기하게 되죠.

우리는 누구나 휴대폰 디자인에 대해 가볍게 얘기할 수 있습니다. 갤럭시와 아이폰 출시 시기가 유사한 경우에는 SNS 상에서 설전이 펼쳐지죠. 지금이야 '베젤'같은 용어들이 대중화되어서 많은 사람들이 화면의 사이즈, 테두리 등을 얘기할 때 이러한 용어들을 자유롭게 사용하지만, 초기에는 둥글다, 각진 모양, 투박하다 등의 애매모호한 표현들 만으로도 충분했습니다. 내가 잘 알고 있다고 생각되는 분야이기 때문이지요.


그런데 같은 디자인이라도 자동차 디자인이나 인테리어 디자인, 냉장고 같은 대형 가전 디자인에 대해서는 뭔가 쉽게, 쉬운 표현으로만 언급하면 안될 것 같은 기분이 듭니다. 뭔가.. 잘은 모르겠지만.. 그 쪽 용어를 좀 더 섞어 써야 할 것 같은 기분 이 들죠. 아마도 대부분 구매 주기가 길고, 구매 시기에 관심이 집중되기 때문에 관련 트렌드를 매번 쫓아가지 못하기 때문이 아닐까 싶습니다. 


어쨋든 이러한 SNS 데이터의 특성을 이해하고,

내가 분석하고자 하는 산업별로 사람들이 하는 얘기의 Tone & Manner (어조와 어감)이 어떻게 달라지는지를 연구해야 해당 산업에 대한 사람들의 보편적인 태도롤 읽을 수 있습니다.

단순히 언급량이 많다, 적다 내지는 연관어가 뭐다.. 감성어는 어떻다.. 이런 내용 말고 말이죠.




다음으로, '검색' 데이터의 특성을 보면 SNS에서 자발적으로 언급하는 내용과는 또 다릅니다.


SNS에서는 자신의 '말투'가 '글투'로 전환되기 떄문에 자유롭다는 얘기를 했는데

검색을 할때는 이러한 자기만의 습관을 접고 최대한 '바른' 표현을 사용하려는 특성을 보입니다.


SNS 상에서는 아이스아메리카노를 '아아'로 자유롭게 표현하더라도

주변에 아이스아메리카노가 유명한 카페를 찾을 때는 '아이스아메리카노 맛있는 카페' 등으로

공식적인 용어를 사용하는 것이죠.

최대한 검색이 잘되게 하는 무의식적인 행동입니다. 


그런데 SNS와 유사하게, 같은 의미라도 세대별로, 혹은 습관별로

검색되는 키워드의 사용이 다른 경우도 있습니다.

'LG TV' '엘지 TV' 'LG 티비' '엘지티비' 이 네가지 단어를 보면 같은 뜻이지만

이 각각을 검색하는 타겟은 다를 수 있는데요. 이러한 경향은 본인이 사용하고 있는, 즉

검색하고 있는 키워드가 보편적이라고 느끼는데에 따른 결과입니다.

좀 더 얘기하자면 해당 집단이나 세대에서 TV를 '티비'로 바꿔부를 수도 있다는 거죠.


지금은 TV를 얘로 들어서 설명하기는 했으나 특정 영역을 의미하는 단어가

즉, 공식적인, 혹은 보편적이라고 생각되는 단어가 바뀌고 있는 것인가 의심해볼 수도 있다는 겁니다.




이렇듯, 빅데이터라 하더라도, 데이터마다 차별화되는 특성을 가지고 있습니다.


빅데이터라는 것은, 누차 강조하지만,


데이터의 규모가 커졌기 때문에 과학적인 분석 방법이 필요하다기 보다는 

이제까지는 없었던 새로운 데이터가 등장했기 때문에

새로운 데이터에 대한 이해와 접근이 필요한 것이라고 생각됩니다.
















매거진의 이전글 "데이터 사이언티스트"에 대한 오해
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari