2부. 데이터를 분석하는 습관 : 셀프서비스 데이터 분석
텍스트 데이터를 분석하고 시각화하자
텍스트 마이닝(text mining)은 자연어로 구성된 비정형 텍스트 데이터에서 특정한 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법이다. 즉, 문서 중에 특정 단어가 얼마나 많이 출현하는지 단어 빈도(Term Frequency)를 찾아낸다. 이때 분석에 사용한 데이터는 뉴스인데 문장 즉, 자연어로 되어 있어서 문장 그대로 분석할 수 없다. 하나의 단어로 분리해야 하는데, 이를 형태소 분석이라고 한다. 빅카인즈에서는 R, 파이썬 등 전문적인 빅데이터 분석 언어에서 사용하는 형태소 분석을 시스템에 포함해 놓았기 때문에 분석자가 별도로 형태소를 분석하지 않아도 된다. 비전문가도 쉽게 텍스트 마이닝을 할 수 있게 되어 있다.
빅카인즈에서는 텍스트 마이닝의 분석 결과 및 시각화의 결과물을 ‘관계도 분석’, ‘키워드 트렌드’, ‘연관어 분석’ 등으로 제공해준다. 관계도 분석을 통해 데이터의 전체적인 특성을 살펴볼 수 있다. 관계도 분석은 검색 결과 중 정확도 상위 100건의 분석 뉴스에서 추출된 개체명(인물, 장소, 기관, 키워드) 사이의 연결 관계를 네트워크 형태로 시각화하여 보여준다. 함께 제공되는 '관련 뉴스'는 '검색 결과 중 정확도 상위 100건의 뉴스'를 최신순으로 정렬한 결과를 보여준다. 관계도 분석 결과를 보면서 ‘관련 뉴스’를 함께 살펴보면, 어떤 기사에서 어떤 내용이 언급되고 있는지를 한눈에 볼 수 있다.
예를 들어, 정관장 브랜드에 대해 구체적인 정보를 알고 싶다면, 그림에서 정관장을 클릭하면 관련 기사가 우측에 나타나고 키워드도 표시된다. 여기서 정관장은 오메가, 한국야쿠르트는 프로바이오틱스와 밀접한 관계가 있을 것 같다는 추측을 할 수 있다. 즉, 정관장은 오메가를, 한국야쿠르트는 프로바이오틱스를 원료로 하는 신제품을 출시하고 있는 것을 본문 기사를 통해 확인할 수 있다. 오메가를 기준으로 보면 정관장과 CJ제일제당도 관계가 깊은 것으로 추측된다.
다만 데이터 전처리 과정을 생략했기 때문에 주제와 관련되어 있지 않은 이상한 키워드가 있을 수 있다. 관계도 분석의 결과를 살펴보면, 관련 기사 건수를 3건으로 했을 때 ‘부총리, 이상의, 연구소장, 대표이사, 상품기획부장, 연구원’ 등의 단어가 불필요하게 느껴진다. 이런 단어로 인해 결과의 내용 타당성을 저해할 수 있다. 이럴 때는 관련 기사 건수를 4건, 5건 등으로 높이면서 불필요한 단어가 나타나지 않는 그림을 최종적으로 선택할 수 있다. 때에 따라서는 검색 결과를 다운로드한 엑셀 파일에서 데이터 전처리를 한 후 빅카인즈가 아닌 다른 분석 방법으로 추가 분석을 하면 해결할 수 있다.
그리고 키워드 트렌드를 연간 기준으로 살펴보면, 건강기능식품의 신제품에 대한 기사는 지속해서 상승하는 추세임을 알 수 있다. 특히 2019년도에 가장 많이 언급된 것을 알 수 있다. 2020년은 4월 30일까지 언급 양으로 4개월 동안의 언급 양이 2015년 전체 언급 양과 비슷한 정도로 많다는 것을 알 수 있다. 이는 코로나 19와 관련이 있는 것으로 파악된다.
연관어 분석은 검색 결과 중 분석 뉴스와 연관성(가중치, 키워드 빈도수)이 높은 키워드를 시각화하여 보여준다. 텍스트 시각화 방법 중 대표적인 방법으로 워드 클라우드가 있다. 최소의 의미를 지니는 문장 구성 성분인 형태소를 분석하고 그 빈도에 따라 문자의 크기를 나타내는 방법이다. 빅카인즈에서는 별도의 워드 클라우드 분석을 하지 않고도 시각화 결과를 바로 확인할 수 있다. 키워드 중에서 주제와 관련이 없는 단어는 제외해야 하는데, 선택항목으로 분석제외를 할 수 있다. 또한 막대그래프로도 볼 수 있다. 그리고 필요하다면 엑셀 테이블로 연관어 분석 결과를 다운로드할 수 있다. 즉, 단어 빈도(TF)를 쉽게 분석 알 수 있다. 여기서는 ‘기능성, 소비자, 화장품, 중국, 의약품, 유산균, 프로바이오틱스, 그린알로에’ 등의 단어가 많은 빈도수를 나타내고 있다.
텍스트 마이닝의 결과를 바탕으로 신제품 아이디어를 도출하자
텍스트 마이닝으로 분석한 결과에서 의미 있는 뭔가를 찾아야 분석의 의미가 있다. 예제 분석은 건강기능식품의 신제품 트렌드를 파악하고자 뉴스 1,600여 건의 기사를 분석했다. 그 결과 첫째, 건강기능식품과 신제품 단어가 들어간 뉴스가 지속해서 상승하고 있다는 것을 알 수 있다. 특히 올 4개월간의 기사 건수가 2015년 1년의 기사 건수와 유사한 정도로 많다. 기업들이 신제품을 만들어 내는 만큼 소비자들도 관심이 많다는 것을 연관어 분석의 결과에서도 확인할 수 있다. 둘째, 건강기능식품의 주성분으로 오메가, 유산균, 프로바이오틱스 등이 주목을 받고 있다는 것을 알 수 있다. 셋째, 건강기능식품을 생산하는 기업으로 그린알로에, 오리온, CJ제일제당, KGC인삼공사, 에이치엘사이언스 등을 확인할 수 있다. 이상의 결과를 바탕으로 성장세를 보이는 건강기능식품 시장에서 차별화할 수 있는 신제품 아이디어를 찾아야 한다. 새로운 원료나, 새로운 콘셉트나, 새로운 가치를 제안하면 새로운 시장을 만들 수 있을 것이다. 마케터나 기획자의 전문성과 통찰력이 요구되는 순간이다.
한때 워드 클라우드 분석이 빅데이터 분석으로 잘못 알려진 적이 있다. 빅데이터를 이용하여 글자의 크기와 색이 다른 멋진 구름을 보고 번뜻거리는 통찰을 한 사람들도 있지만, 대다수의 사람은 통찰을 하지 못했다. 텍스트 데이터를 시각적으로 보여주기 위한 하나의 방법으로 워드 클라우드를 사용할 뿐이며, 이것만으로 빅데이터 분석이라고 할 수 없다. 어쩌면 워드 클라우드는 제대로 된 빅데이터 분석을 위한 탐색적 분석의 하나로 보는 것이 타당할 것이다. 텍스트 마이닝의 결과를 바탕으로 예측 분석까지 할 수 있다면 제대로 된 빅데이터 분석을 활용하는 단계까지 접근한 것이다. 텍스트 빅데이터로 주가를 예측하거나 트렌드를 예측하거나 질병을 예측한다면 충분한 가치를 발휘하는 경우들이다. 예측 분석은 빅데이터 분석 전문가의 영역으로 별도의 분석 방법을 사용해야만 가능하다.
지금까지 건강기능식품과 관련하여 신제품(신상품)에 대해 뉴스 빅데이터를 빅카인즈로 수집하고, 텍스트를 분석하고, 그 결과를 시각화해 봤다. 데이터 분석 전문가가 아닌 일반적인 마케팅 기획자 수준에서도 비정형 빅데이터를 텍스트 마이닝으로 분석하고, 그 결과를 탐색적 결과물로 활용할 수 있다는 자신감을 가질 필요가 있다. 데이터가 풍부한 시대를 앞서가는 방법의 하나는 내가 직접 데이터를 수집하고 분석하고 시각화하여 직접 사용하는 것이다, 나의 데이터 리터러시를 높이는 것이 최선이다.