brunch

You can make anything
by writing

C.S.Lewis

by 보통 팀장 Dec 30. 2016

뉴스클리핑에서 키워드 도출하기

시장 동향 리서치

 앞선 글 '동향을 파악하는 방법, 뉴스클리핑'에서 시장의 이슈나 트렌드를 파악하기 위한 방법으로 뉴스클리핑을 소개하였다. 엑셀의 기본 기능만으로도 뉴스클리핑 데이터를 입력 및 리스트화 하기에는 용이하지만, 실제 시장의 이슈와 트렌드를 파악하기에는 어려움이 존재할 수밖에 없다. 특히 뉴스클리핑 한 데이터가 쌓일수록 리스트 형식은 가독성이 떨어질 수밖에 없기 때문이다. 그렇다면, 뉴스클리핑에서 시장의 이슈와 트렌드에 대한 키워드를 도출하는 방법에는 어떤 것들이 있을까?





1. 엑셀


 엑셀이 제공하는 다양한 기능(데이터 유효성 검사, 필터, 피벗테이블 등)을 이용하면 보다 쉽게 리스트화 된 뉴스클리핑 데이터에서 원하는 키워드나 문구가 포함된 데이터만을 도출할 수 있다. 특히, 피벗테이블은 가장 빈도가 높은 키워드부터 낮은 키워드까지 쉽게 도출해낼 수 있을 뿐만 아니라, 사전에 정의된 항목을 행과 열의 축으로 다양하게 조합할 수 있기 때문에 키워드 도출에서 매우 편리하다. (피벗테이블을 한 번도 이용해 본 적이 없더라도 간단한 수준에서 이용할 수 있다.)


 현재 필자가 각각의 기능을 이용하는 방법은 아래와 같다.


 모든 데이터 기반의 분석(분석이라고 하기에는 너무 쉬운 난이도이기 때문에 조금 민망하다.)에서 가장 중요한 것은 결국 데이터의 무결성이라고 할 수 있다. 엑셀에 기록하는 뉴스클리핑 데이터 역시 보다 정확한 키워드를 도출하기 위해서는 사전에 기본 정의가 필요하다. 이때 사용하는 것이 '데이터 유효성 검사' 기능이다. 여기서 기본적인 정의란 데이터를 구분하는 기준이라고 하 수 있다. 예를 들어, 필자가 매일 하는 뉴스클리핑의 항목은 "No, 구분(글로벌/국내), 매체, 일자, 헤드라인, 주요 내용, 카테고리(시장/기업/기술), 키워드 등"으로 이루어져 있다. 이 중 구분과 카테고리는 뉴스클리핑 데이터를 분류하는 기준 항목이다. (대분류 : 글로벌/국내, 소분류 : 시장/기업/기술) 초기 기획부터 국내와 글로벌 뉴스에 대하여 시장과 기업 그리고 기술을 기준으로 뉴스클리핑을 수행하는 것으로 기획했기 때문에 위와 같은 항목으로 이루어져 있다. 기준 항목의 경우 직접 입력할 경우 오타 등의 문제로 사전에 정의한 기준으로 분류되지 않을 수 있기 때문에 '데이터 유효성 검사' 기능을 활용하여 정의한 값만 입력이 가능하도록 설정하였다.


데이터 유효성 검사 조건 설정 화면


 '데이터 유효성 검사' 기능을 활용하면, 선택한 영역에 대하여 조건을 정의함으로써 해당 영역에 다른 값이 입력되는 것을 방지할 수 있을 뿐만 아니라, 드롭다운 방식으로 직접 입력하지 않더라도 사전에 등록한 값을 선택할 수 있다. (단, 조건이 적용될 영역을 사전에 선택하고, 조건 값을 미리 입력해야 한다.)


 이렇게 입력된 뉴스클리핑 데이터에서 특정 값이 포함된 행만 보이게 하거나 항목을 기준으로 정렬하기 위해서는 '필터' 기능을 이용할 수 있다. 위의 항목 "No, 구분(글로벌/국내), 매체, 일자, 헤드라인, 주요 내용, 카테고리(시장/기업/기술), 키워드 등"에 대해서 글로벌 뉴스클리핑 데이터만 보고 싶다면 구분 항목에 표시된 필터 아이콘을 클릭하면 글로벌/국내를 선택할 수 있다. 여기서 글로벌을 선택하면 해당 열에서 글로벌이 입력된 행만 필터 하여 보여준다. (필터 기능은 이렇게 보고 싶은 값만 도출할 수도 있지만, 정렬 기능도 제공하기 때문에 오름차순, 내림차순 정렬도 가능하다.)


 필터 기능은 키워드 도출보다는 도출된 키워드를 기준으로 입력된 뉴스클리핑 헤드라인과 주요 내용 등을 다시 한번 보기 위해서 주로 활용하고 있다. 단순히 키워드만을 도출하는 것이라면 필터 기능을 제외하고 바로 피벗테이블 기능을 통해 도출해낼 수 있지만, 시장의 동향을 파악하기 위해서는 키워드에 어떤 이슈들이 포함되어 있는지 다시 한번 리뷰하는 것이 필요하기 때문이다. 시장 동향에 대한 인사이트를 뽑기 위해서는 내용에 대한 이해가 추가로 요구된다고 할 수 있다.


 마지막으로 '피벗테이블'의 경우 피벗테이블이 제공하는 가장 기본적이 기능을 이용하면 쉽게 키워드를 도출할 수 있다. 아래의 이미지에는 '열 : 구분', '행 : 키워드' 그리고 '값 : 키워드'라는 조건이 설정되어 있다. 이를 설명하면 열 레이블은 사전에 정의한 값인 국내와 글로벌로 분류가 되어 있다. (데이터 유효성 검사를 통해 국내와 글로벌만 입력되도록 해당 열을 정의하였기 때문에 오류 값이 없다.) 그리고 행 레이블은 각 헤드라인의 주요 내용을 다시 한번 키워드로 정의하여 입력한 값이다. 이 값은 뉴스마다 핵심 키워드가 다를 수 있기 때문에 사전에 정의하지 않았다. 대신 뉴스클리핑 데이터를 입력하면서 표준화된 단어를 키워드로 입력할 수 있도록 나름의 기준을 반영하였다. (대표할 수 있는 단어가 있다면 해당 단어를 활용하는 것도 방법이라고 할 수 있다.) 그리고 값에 다시 한번 키워드를 조건으로 넣은 이유는 실제로 해당 키워드가 몇 개나 입력되었는지 확인하기 위해서다. 왼쪽 값을 보면 '개수 : 키워드'로 되어 있는 것을 볼 수 있다. 아래 이미지는 열과 행 레이블의 기준에 해당하는 키워드가 몇 개가 있는지를 보기 위한 사례라고 할 수 있다. (국내 뉴스 중 기업동향 키워드로 입력된 건은 총 14건이다.)


피벗테이블 조건과 실제 화면 사례


 여기까지 엑셀을 활용하여 뉴스클리핑된 데이터에서 키워드를 도출하는 방법을 알아보았다. 필자는 위 기능들을 이용하여 키워드를 도출하고, 해당 키워드의 시장에 대한 동향 분석을 하고 있다. 기능에 대한 상세 설명이나 활용 방법은 구글이나 네이버를 통해서도 쉽게 검색할 수 있기 때문에 별도 기술하지는 않았다. 또 모두에게 통용될 수 있는 내용은 아닐 수 있기 때문에 참고만 부탁드린다.


 이외에도 엑셀을 활용하는 데 있어 가장 중요한 것이 있다면 기준이 되는 항목에는 하나의 값만 입력하는 것이라고 할 수 있다. 만약 구분(글로벌/국내)에 글로벌, 국내를 동시에 입력할 경우 피벗테이블을 통한 키워드 분석에서 하나의 구분이 더 만들어진다. (예> 글로벌, 국내, 글로벌&국내) 만약 글로벌&국내까지 포함된 분류가 필요하다면 초기 정의부터 세 가지 형식으로 정의해야 한다. 데이터 입력 중간에 사전에 정의한 분류 기준을 무너뜨리면 전체 데이터에 대한 정정이 필요한 상황이 생길지 모른다.




2. 워드 클라우드

 

 워드 클라우드는 단어에 대한 의미를 설명하는 것보다 실제 이미지를 보는 것이 훨씬 이해하기 좋다고 할 수 있다. 네이버 지식백과에서는 워드 클라우드를 '글에서 언급된 핵심 단어를 시각화하는 기법'이라고 정의하고 있다. 이미지=시각화와 가장 잘 어울리는 키워드 도출 방법이라고 할 수 있다. 그리고 아마 몇 번은 모두가 경험해봤을 것이라고 생각된다. 아래 이미지를 보면 어떤 키워드가 중요한지 한눈에 알 수 있지 않은가? 이렇게 워드 클라우드는 가장 많은 노출이 된 키워드에 대하여 글자의 크기나 색상으로 빈도를 보여주는 방법이라고 할 수 있다.


뉴스클리핑 헤드라인을 워드 클라우드로 작성한 사례


 아래 링크는 워드 클라우드 서비스를 제공하는 사이트의 URL이다. 활용 방법은 해당 사이트를 방문하여 왼쪽 메뉴의 'Load'를 클릭, 'Enter Text'란에 뉴스클리핑한 헤드라인들을 한 번에 복사해서 붙여 넣고 'Summit'을 클릭하기만 하면 자동으로 워드 클라우드를 만들어 준다. 워드 클라우드의 모양이나 폰트, 색상 등은 왼쪽 메뉴에서 제공하는 기능을 통해 쉽게 변경할 수 있다.



 마지막으로 위의 두 가지 방식 이외에도 다양한 방식으로 키워드를 도출할 수 있을 것이다. 정답은 없다고 생각한다. 스스로에게 가장 잘 맞는 방법으로 효율적으로 일하는 것이 중요하기 때문이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari