brunch

매거진 B Magazine

You can make anything
by writing

C.S.Lewis

2.텍스트마이닝, 빅데이터 분석 활용 언론 아젠다 분석

비플라이소프트 - B's Magazine

PR학 / 빅데이터 분석 전문가가 비플라이소프트의 WIGO-AI를 활용해 
우리 사회의 다양한 이슈를 분석한 칼럼 연재를 시작합니다. 독자 여러분의 많은 관심과 성원 바랍니다. 
- 저자: 정원준(수원대학교 미디어커뮤니케이션학과 부교수)

종이와 잉크를 사용하던 전통적 의미의 신문 언론이 점차 온라인 플랫폼으로 이동하면서, 모든 조직의 커뮤니케이션 실무자들은 언론사 웹페이지 또는 포털 상 업로드 되어있는, 조직과 연관된 언론 기사를 추출하고 내용을 분석하고 있다. 조직 관련 이슈에 대하여 언론이 설정하여 제공하는 다양한 아젠다(agenda, 혹은 의제/주제)와 프레임(frame)에 대한 심도 깊은 이해가 필요하기 때문이다.


이는 우리 사회에서 새롭게 발생하거나 혹은 지속적으로 존재하고 있는 하나의 이슈나 현상에 대하여 언론이 어떠한 사회적 담론을 제시하는지, 또 그 담론을 어떠한 시각으로 채색(彩色)하는 지 파악하여 이에 따른 대응 논리를 즉각적으로 제공할 필요가 있기 때문이다. 나아가 그 기사에 대한 독자의 반응이라 할 수 있는 댓글 내용을 분석하는 등 온라인 여론을 실시간으로 모니터링하고 이를 통해 다양한 쟁점을 관리하여 위험과 위기 상황으로 이어질 수 있는 사안들에 대한 사전 경고 체계를 구축할 수 있는 초석으로 언론기사 빅데이터 분석을 활용해야 한다.




언론이 설정하는 아젠다를 파악해야 하는 이유


먼저 ‘아젠다’란 용어를 살펴보자. ‘아젠다’를 한국어로 단순하게 직역하면 ‘의제 혹은 (회의)주제’라 해석이 되지만, 우리 사회에서 흔히 사용하는 아젠다’란 용어는 신문과 방송 등 레거시 미디어의 역할과 가치에 대한 논의에서 항상 다루는 ‘아젠다 설정(Agenda Setting, 의제설정)’에서 유래된 의미라 봐도 무방하다.


‘의제 설정 이론(Agenda Setting Theory)’은 1972년 미국의 커뮤니케이션 학자들인 맥스웰 매콤(Maxwell E. McCombs)과 도널드 쇼(Donald L. Shaw)에 의해 제기된 이론이다. 이 이론에 의하면, 뉴스 등의 형식을 이용하여 미디어가 특정 이슈(예: 정부 정책, 신상품 정보, 영화나 음악과 같은 문화 콘텐츠 등)에 대하여 반복적으로 보도하면 그 보도를 지속적으로 접하는 일반 대중은 그 이슈에 대한 중요성을 부지불식간에 높게 인지 할 가능성이 높다는 것이다. 다시 말해 그 이슈가 사회적으로 그리 중요하지 않다 하더라도 언론을 통하여 반복적으로 조명을 받는다면, 언론 기사를 접하는 대부분의 일반인 입장에서는 그 이슈를 중요하게 판단하거나 평가할 가능성이 많다는 것이다. 이러한 반복적 정보의 제공으로 인하여 미디어가 대중에게 ‘무엇을 생각할 것인가’ 그리고 ‘무엇을 중요하게 인지할 것인가’에 대한 답(그게 정답은 아닐지라도)을 제공하는 영향력을 제공한다는 것이다.


수용자의 특정 이슈에 대한 인지 정도와 중요도 평가의 지표로 언론의 아젠다를 파악하는 것이 필요하며, 언론의 기사 혹은 내용 분석을 위하여 텍스트 분석 방법을 활용할 수 있다.


                                              > 비플라이소프트 뉴스레터 구독하기 <




주제어에 대한 빈도와 중요도 분석


기초적인 텍스트 분석 방법을 보자면 다음과 같다.


1) 주제어(키워드) 빈도 분석


크롤링에 의해 수집된 언론기사 내용 데이터에 포함된 특정 단어들의 빈도에 따라 주요 단어, 즉 아젠다를 추출할 수 있다. 즉, 주제어 빈도 분석은 특정 문서 내에서 자주 언급되는 주제어를 추출하고 이들이 언급되는 빈도에 따라 중요도를 분석하는 방법이며, 특정 단어가 수집된 총 문서에서 얼마나 자주 등장하는지를 나타내는 ‘단어 빈도(Term Frequency : TF)’로 단순하게 결정할 수 있다.


2) 주제어(키워드) 중요도 분석


단순하게는 TF 값이 큰 단어일수록 중요도가 높다고 판단할 수 있지만 사실 TF 값이 큰 단어는 모든 문서에서 자주 등장한다는 것을 의미하는 ‘문서빈도(Document Frequency : DF)’ 값이 큰 단어일 수 있다. 이에 중요도 높은 키워드 도출을 위해 TF-IDF라는 값을 사용한다. TF-IDF는 DF값의 역수인 IDF(Inverse Document Frequency : 역문서 빈도)에 단순단어 빈도(TF)값을 곱한 것으로, 모든 문서에서 자주 출현하는 상투어를 걸러내기 위함이며 이는 단순한 단어의 빈도 처리가 아닌 단어의 출현 확률을 기준으로 빈도를 재가공한 것이다.


즉, TF-IDF는 특정 문서에서의 단어 중요도를 나타내는 TF에 전체 문서와 관계된 단어의 중요도인 IDF를 곱한 값으로, 특정 문서 내에서 단어 빈도가 높을수록 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을수록 그 값이 커짐을 알 수 있다. 이러한 TF-IDF를 통해 언론기사나 댓글 텍스트 데이터 전체에서 공통적으로 혹은 무의미하게 반복적으로 출현하는 특정 단어를 제거할 수 있다.


TF-IDF의 수식은 아래 <표 1>과 같다.

<표 1> TF-IDF 수식


이렇게 TF와 TF-IDF 분석을 하면 언론이 자주 언급하는 아젠다를 간단하게 추출할 수 있으며, 분석 목표나 필요에 의하여 언론이 설정한 아젠다가 시간의 흐름에 의하여 어떻게 변화되었는지도 파악이 가능하다.


                                              > 비플라이소프트 뉴스레터 구독하기 <




코로나 바이러스에 대한 3개월간의 언론 아젠다 변화 추이


지난번 글에서 코로나 바이러스 이슈가 국내에 소개 된 시점(2019년 12월 말)부터 최근 시점(2020년 3월 21일)까지 일주일 단위로, 총 12번의 기간 동안 네이버 뉴스에서 입력 키워드(코로나 바이러스, 우한폐렴, COVID19)와 수집 기간을 기준으로 검색된 뉴스 기사를 모집하였다. 여기에는 비플라이소프트의 실시간 미디어 모니터링 플랫폼인 WIGO MON에 탑재되어 있는 자체 크롤러를 이용했다.


이번 글에서는 모집된 대량의 언론 기사에 대한 데이터의 텍스트 분석 결과 중 언론의 주요 아젠다를 앞서 언급한 TF와 TF-IDF 개념으로 추출하고 시계열적으로 분석하여, 언론이 코로나 이슈와 연관한 의제를 어떻게 변경하였는지 탐색하고자 하였다.


분석결과를 보면, 아래 <표 2>에서 보듯이 12주기 동안 언론 기사 상 코로나바이러스 연관 TF와 TF-IDF의 변화가 있었다.


먼저 국내 언론에서 코로나 바이러스 연관 기사가 처음 보도되었던 첫 번째 주기부터 두 번째 주기 까지는 ‘중국’, ‘우한’, ‘폐렴’, ‘환자’라는 키워드에 대한 빈도(TF)가 많았고, 이에 따른 TF-IDF 값도 언급한 키워드의 중요도가 높게 나타났다. 세 번째 주기부터는 중국 우한에서 발생한 폐렴에 대한 전 세계적인 관심도가 높아지고, 바이러스 및 면역학자에 의해 명명된 ‘코로나’라는 전문용어가 나타났으며 그 빈도 수도 증가했음을 알 수 있다.


또한, WHO(세계보건기구)에서 ‘코로나 바이러스’라 공식 명명한 2월 초(여섯 번째 주기)부터 ‘우한’과 ‘폐렴’의 단어는 더 이상 언론에서 언급되지 않았으며 발원지 ‘중국’에 대한 언급도 줄어듬과 동시에, ‘코로나 바이러스(COVID 19)’라는 키워드가 TF 최상단에 위치했다. 여덟 번째 주기인 2월 중순에는 대구광역시에서 신천지 집회에 의한 집단감염이 발생하면서 국내 언론의 아젠다는 ‘해외(중국)에서의 신종 바이러스 출몰과 명명의 변화’의 중점에서 ‘국내 바이러스 감염과 확진자’로 변화하게 됨을 보여줬다. TF-IDF 기준으로도 여덟 번째 주기를 기점으로 아홉 번째 주기부터 ‘(국내 대구 감염자 확산에 따른) 속보’ 기사가 최상단에 위치하며, 신종 바이러스 감염자 수, 확진자 수 등의 업데이트된 뉴스를 중요하게 언급한 것으로 분석되었다.

<표 2> 일주일 간격의 12주기 동안 언론 상 코로나 연관 TF와 TF-IDF


종합적으로 약 3달 간 국내 언론 기사 내 주요 키워드 빈도(TF) 추출과 중요도(TF-IDF) 추출을 통한 분석만으로도 코로나 바이러스 출몰과 확산이라는 범 국가적이고 사회적인 이슈에 대한 언론의 아젠다 추이를 탐색할 수 있었다. 본 사례에서는 반년이 다 되어가도록 종식되거나 잠잠해 질 조짐이 아직까지는 보이지 않는 코로나 바이러스의 국가적 중요도와 그 이슈의 지속성 때문에, 12주기 동안 급격한 아젠다 변화가 포착되지는 않았지만, 몇몇 세부적인 상황들(예 : WHO 공식 명명, 국내 집단 감염 등)에 의해 언론 기사 아젠다가 조정되고 설정되었음을 확인할 수 있었다.


텍스트 분석을 통한 TF 및 TF-IDF 추출은 아젠다 설정과 변화 추이에 대한 함의를 제공하는 것에 유용하지만, 각 아젠다 별 연관성을 보여주지 못하는 단점을 갖고 있다. 주요 키워드의 빈도와 중요도 순위를 나열할 수 있지만, 단어 간 의미 연결성에 대한 추정이 어렵기 때문이다.


이에, 다음 편에서는 이러한 단점을 상쇄할 수 있는 보완적인 텍스트 분석인 ‘의미연결망 분석(Semantic Network Analysis, SNA)’에 대하여 알아보고, 이를 활용하여 의제설정 기능의 범위를 확대한 언론의 프레임 기능에 대하여 논하고자 한다.


저작권자 Bflysoft ⓒ 무단전재 및 재배포 금지




[위고몬 X 전문가 칼럼] 데이터마이닝과 빅데이터 분석 시리즈 보기 


                                              > 비플라이소프트 뉴스레터 구독하기 <



매거진의 이전글 4. 일상에서 활용되는 데이터의 함정
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari