brunch

You can make anything
by writing

C.S.Lewis

by 추보 구자룡 Oct 28. 2020

텍스트 마이닝(1) 뉴스 빅 데이터 수집하기

2부. 데이터를 분석하는 습관 : 셀프서비스 데이터 분석

내가 원하는 분석 결과


시장 환경이나 트렌드를 알고 싶을 때, 신제품 아이디어를 얻고 싶을 때 가장 쉽게 접할 수 있는 데이터는 무엇일까? 아마도 시장에 나와 있는 2차 자료를 먼저 찾아볼 것이다. 각종 설문조사 결과나 전문기관의 분석 자료를 살펴볼 것이다. 이런 자료에서 나에게 딱 맞는 자료가 있다면 다행이지만 대체로 뭔가 부족한 부분 때문에 소비자들에게 직접 물어보고 싶은 욕구가 생긴다. 내가 목적으로 하는 결과를 얻기 위해 조사 기획을 하고 직접 설문조사를 하면 원하는 결과를 얻을 수 있다고 생각한다.


하지만 트렌드나 신제품 아이디어는 소비자에게 질문한다고 해서 답을 찾을 수 있는 내용이 아니다. 설문조사는 신제품 콘셉트를 제시하고 수용도 조사를 할 때에 어느 정도 답변을 들을 수 있다. 하지만 어떤 제품이 필요한지, 어떤 콘셉트로 제품을 만들어야 하는지는 답하기 어렵다. 즉, 설문조사로 기술적인 조사는 가능하지만, 탐색적인 조사는 가능성이 적다. 마케터나 제품 기획자가 신제품에 대한 아이디어를 얻고자 한다면, 설문조사는 어느 정도 한계가 있다. 앞에서 언급한 2차 자료에서도 아이디어가 없다면 어떻게 해야 할까?


뉴스 빅데이터 속에 있는 진주 찾기


이럴 때 소비자에게 직접 물어보지 않고, 시장에서 원하는 뭔가를 찾아내거나 아이디어가 될 만한 키워드라도 얻고 싶은 욕구가 생긴다. 우리 주변에서 매일 접하는 가장 대표적인 데이터로 뉴스 즉, 언론사의 기사가 있다. 뉴스는 그 자체로 빅데이터이며, 대표적인 비정형 데이터다. 데이터의 특성이 비정형 데이터이기 때문에 텍스트 형태로 되어 있다. 텍스트를 분석할 수 있는 텍스트 마이닝으로 키워드 빈도 분석과 연관 키워드 분석, 워드 클라우드 분석을 통해 원하는 결과, 즉 진주를 찾을 수 있다.


예를 들어, 만약 내가 건강기능식품의 마케터나 제품 기획자라고 생각해보자. 소비자들의 건강 추구 경향은 오래전부터 있었고, 지금도 지속하고 있는 트렌드로 알고 있다. 소득의 증가, 수명의 연장, 삶의 질 추구 등 소비자의 건강 추구 욕구를 충족시키기 위한 다양한 제품들이 이미 시장에 많이 나와 있다. 성숙 시장에 접어든 건강기능식품을 담당하고 있는 마케터라면 혹은 제품 기획자라면 어떤 신제품으로 시장을 확대할 수 있을까? 상사로부터 히트할 수 있는 신제품을 개발하라는 주문을 받았다면 이제 어떻게 해야 할까?


나는 마케터로 혹은 기획자로 통계분석을 전문적으로 해본 적이 없다. 설문조사를 통해 통계분석의 결과를 활용해 왔을 뿐이다. 조사 전문기관에 의뢰하여 설문조사를 수행했고, 그 결과를 받아서 처리했기 때문에 딱히 통계분석에 대해 고민해 보지 않았다. 분석 결과를 해석하는 것은 학교에서 배운 확률과 통계 정도로 어느 정도 이해하고 있다. 기술적인 조사라면 조사 전문기관에 의뢰하여 처리하면 쉽게 해결할 수 있다.


그런데 신제품 개발을 위한 탐색적인 조사를 외주로 처리하면 왠지 무능한 사원으로 보일 것 같다. 데이터가 풍부한 빅데이터 시대에 데이터로 증거를 제시해야 하는 상황이 되면서 더욱 스트레스를 받고 있다. 직접 빅데이터를 분석해서 그 결과로 멋진 아이디어를 내고 싶다. 데이터 리터러시가 필요한 순간이다. 문제를 해결할 수 있는 필요한 데이터를 수집하고, 적합한 방법으로 분석하여, 적절하게 활용할 수 있을 때 나의 리터러시 역량은 높아진다.


문제를 정의하고 필요한 뉴스 데이터를 수집하자


데이터 분석을 위해 가장 먼저 해야 할 일은 문제를 정의하는 것이다. 문제는 바로 해결해야 할 과제다. 여기서는 히트할 신제품 아이디어 도출이라고 하자. 예를 들어, 건강기능식품 시장이라고 하고, 이 시장에서 소비자들에게 물어보지 않은 상태에서 물어보는 것보다 더 정확한 신제품 욕구를 찾아보자. 산업 분야의 뉴스에 담겨있는 텍스트는 주로 기업에서 홍보용으로 제공한 보도 자료를 기반으로 작성된 내용이 많다. 또한 전문가들의 견해나 연구 결과물들이 기사화되기도 한다. 그리고 인터넷과 소셜미디어가 발달하면서 뉴스와 같은 텍스트 데이터가 기하급수적으로 증가하고 있다.


우리는 전문적으로 빅데이터를 분석하는 데이터 과학자가 아닌 마케팅 기획자다. 문과생으로 학습한 지식과 마케팅 업무 역량 안에서 가능한 방법을 찾아야 한다. 여기서 마케팅 기획자로 지칭한 부분은 일반적인 사무직으로 대체해도 된다. 문제 정의를 현재 담당하고 있는 업무에서 찾고, 관련 검색 키워드만 선정하면 된다. 나머지는 동일하다. 데이터 분석에 앞서 정의한 문제에 대한 데이터를 수집해야 한다. 비전문가가 텍스트 데이터를 수집할 방법으로 빅카인즈(BIG KINDS)를 이용한 웹 크롤링 방법과 MS 파워 쿼리를 이용한 웹 크롤링 방법 등이 있다. 여기서는 빅카인즈에서 텍스트 데이터를 수집하고자 한다.


빅카인즈(www.kinds.or.kr)는 한국언론진흥재단이 운영하는 뉴스 빅데이터 분석 시스템으로 뉴스 속 키워드 관계망, 주요 이슈, 정보원, 이슈 트렌드 분석 정보를 제공하고 있다. 1990년부터 현재까지 54개 언론매체에서 발행한 약 6 천만 건의 뉴스 콘텐츠를 검색하고 활용할 수 있다. 검색 방법은 간단하다. 빅카인즈 사이트에 들어가서 네이버나 구글에서 검색하듯이 키워드 검색만 하면 대체로 기본적인 분석이 이루어진다. 


분석과정은 3단계로 Step 01. 뉴스 검색, Step 02. 검색 결과, Step 03. 분석 결과 및 시각화로 구성되어 있다. 좀 더 구체적인 맞춤형으로 분석하기 위해서는 무료로 회원가입을 하고 로그인 후 이용하면 수집한 데이터를 엑셀 파일로 다운로드할 수 있다. 만약 엑셀 파일을 다운로드했다면 수집한 데이터가 어떻게 되어 있는지 알 수 있다.


△ 빅카인즈에서 수집한 텍스트 데이터의 엑셀 파일 내용


검색한 결과 데이터의 문서(기사)가 많으면 좋긴 하지만 무조건 좋은 것은 아니다. 선택한 키워드가 있는지로만 검색되기 때문에 문제 정의에 부합하는 문서를 찾아내는 것이 문서의 양보다 더 중요하다. 분석자의 선행지식이나 키워드 선정 등 탐색 활동에 따라 수집 데이터의 품질에 차이가 발생할 수 있다. 좀 더 정확한 데이터를 수집하기 위해서는 관계없는 문서를 사전에 검색되지 않도록 검색조건을 설정할 필요가 있다.


예제를 수행하기 위해 기본적인 검색 키워드로 ‘건강기능식품’을 선정하고, 기간을 2010년 1월 1일부터 2020년 4월 30일까지로 설정했다. 54개 언론사 중에서 중앙지와 경제지, 전문지로 한정했다. 기업에서 신제품에 대한 보도 자료를 주로 제공하는 언론사로 한정한 것이다. 그리고 정치, 경제, 사회 등 8개의 통합분류 중에서 ‘경제’ 하나만 선택했다. 상세검색에서 제목과 본문에서 ‘형태소 분석’으로, 그리고 단어 중 1개 이상 포함에 ‘신제품, 신상품’을 설정했다. 즉, ‘건강기능식품’과 ‘신제품’ 혹은 ‘신상품’ 키워드가 들어간 문서를 검색한 결과 최종 수집된 문서는 1,822건이다. 검색 결과에서 분석에 사용한 기사는 1,658건이며, 중복, 예외 등으로 분석에서 제외한 기사는 164건이다.


△ 빅카인즈 뉴스 빅데이터 분석 시스템의 뉴스 검색


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari