brunch

매거진 B Magazine

You can make anything
by writing

C.S.Lewis

1.웹크롤링과 데이터마이닝을 통한 빅데이터 분석과 활용

비플라이소프트 - B's Magazine

                                              > 비플라이소프트 뉴스레터 구독하기 <



PR학 / 빅데이터 분석 전문가가 비플라이소프트의 WIGO-AI를 활용해 
우리 사회의 다양한 이슈를 분석한 칼럼 연재를 시작합니다. 독자 여러분의 많은 관심과 성원 바랍니다. 
- 저자: 정원준(수원대학교 미디어커뮤니케이션학과 부교수)

인공지능, 머신러닝, 딥러닝, 블록체인, 빅데이터, 초연 결과 네트워크 등은 제4차 산업혁명을 대변하는 핵심적인 키워드들이다. 이 중, 아날로그 환경에서의 정형화된 데이터에 비하여 실시간으로 생성되어 주기가 짧은 데이터와 텍스트 및 이미지 등을 포함하는 방대한 규모의 데이터를 활용하여 사회적 가치를 창출하고자 하는 빅데이터 분석과 활용에 대한 관심과 수요는 나날이 높아지고 있다.


학문적으로도 빅데이터를 분석 기반으로 하는 다양한 연구들이 양적으로 늘어나고 있으며, 민간기업 및 연관 산업에서도 빅데이터를 분석하고 이를 통한 효과적인 마케팅과 커뮤니케이션 전략을 수립하고 집행하고 있다. 또한 빅데이터 분석을 통한 수익화를 위해 다양한 비즈니스가 등장하고 있으며 사물인터넷(loT)과 클라우드 컴퓨팅의 발전으로 빅데이터 분석 기법의 정교화도 더욱 가속화되고 있는 실정이다.


특히 설문지, FGI, 실험연구 등을 통한 변인 간 관계 및 영향력 등을 단순하게 규명하는 전통적인 연구방법을 넘어, 과거에는 분석하기 어려웠던 비정형데이터를 포함한 방대한 양의 데이터와 다양한 속성 간 패턴을 찾아 이를 해석하여 새롭게 문제를 해결하거나 새로운 방안을 제시하는 필연성이 날로 강조되고 있다.


나아가, 그 데이터 안에 숨겨져 있는 이용자들 간 네트워크 구조와 이를 통한 이용자의 행동을 측정하고 분석하여, 궁극적으로 정확도 높은 실질적인 인간의 심리나 행동을 예측할 수 있는 방법론적인 지평이 날로 확장하고 있다. 이에, 이론과 방법론 그리고 실무적 측면에서 마케팅과 광고PR 등 소비자 혹은 이해관계자와의 커뮤니케이션이 중요한 대부분의 영역은 새로운 도전에 직면하고 있으며 연결과 융합의 차원에서 더욱 진화할 것을 요구 받고 있는 시점이다.



데이터에 숨어 있는 가치를 찾아내는 텍스트마이닝 기법


최근, 전 세계의 가장 큰 관심을 받는 이슈는 코로나바이러스 감염증(COVID-19)이라 할 수 있다. 2019년 12월 중국 우한에서 발생한 본 이슈에서도 보듯이, 신종 바이러스의 위험이 전 세계에 주는 위험성은 날로 심각해가고 있다. 매일 뉴스를 통해 날씨예보를 제공하듯, 신종 바이러스 감염에 의한 확진자와 사망자 수 및 역학조사를 통한 오염지역 등의 정보는 미디어를 통해 실시간으로 전달되는 시대가 되었다. 이는 현대사회에서 나타나는 신종 바이러스 위험은 공중의 안전 및 생명과 결부되어 있기 때문이며, 나아가, 국제관계, 의료분쟁, 내수시장 및 글로벌 경제에 까지 광범위한 영향을 주고 있다는 방증이다.



신종 바이러스 감염증이 도래할 때 마다 주목 받는 개념 중 하나가 ‘위험인식(Risk Perception)’이라는 용어이다. 위험인식이란 하나의 특정 위험요소에 대하여 개인적으로 느끼는 주관적 판단이며, 사회 구성 요소와 구성원들과의 소통에 의해 재구성되기도 한다. 특정 위험에 대한 위험인식 정도를 결정하는 데 중요한 역할을 담당하는 것 중 하나는 언론이며, 언론은 그 사안에 대한 연관 정보를 직접 제공할 뿐만 아니라 이와 연관된 사회세력의 의도와 목표, 실행에 대한 평가, 전망 등에 대해 보도함으로써 커뮤니케이션 메시지의 영향력을 확대하는 경향이 있다.


이를 아젠다(Agenda)와 프레이밍(Framing)이란 용어와 연관하자면, 아젠다는 하나의 위험요소가 사회에 만연 되었을 때 그 위험요소와 연관된 세부적이고 부수적인 의제 혹은 토픽으로 나타날 수 있다. 또한, 세부적인 키워드들이 하나의 군집을 이루어 하나의 시각이나 관점 혹은 담론을 제시할 수 있는데, 이를 프레이밍이라 한다. 종합하자면, 하나의 이슈가 발생 시 그 이슈와 연관한 아젠다와 프레이밍 현상은 언론을 통하여 정의(Definition)되어지기도 하고 연관 세부 의제와 시각이 재정립되어 일반 독자들에게 전달된다. 이에, 그 이슈와 관련 있는 조직들에게는 언론의 아젠다와 프레이밍을 수시로 분석하고, 시간에 흐름에 따른 그 추이를 정리하여 필요시 대응 논리 등을 개발하는 대 언론 대응방안을 마련하는 시스템을 구축할 필요가 있다.


빅데이터의 분석 기법은 다양하지만, 그 중 널리 사용하는 방법 중 하나가 텍스트마이닝’ 기법이다. 텍스트마이닝은 자연어 처리 기술에 기반하여 방대한 양의 비/반정형 텍스트 데이터에서 유용한 정보를 추출, 가공하여 데이터 내에서 관계 또는 패턴을 추출하여 가치 및 의미 있는 정보를 찾아내는 것을 주요 목적으로 한다.



12~3월, 코로나 바이러스에 관한 언론 보도 분석


본 글에서는 언론 상에서 코로나 바이러스에 대한 어떤 아젠다가 존재하고 어떤 프레임으로 구성되어 있는가를 이해하는 데 텍스트마이닝 기법을 사용 할 수 있다. 또, 시간의 흐름에 따른 코로나 바이러스 감염증이라는 주요 이슈의 전개를 이해하고 보다 나은 통찰력을 얻을 수 있다. 종합적으로 이러한 텍스트 분석 기법은 특정 이슈나 조직과 연관하여 발생했거나 발생할 수 있는 이슈의 비물질적 측면에 대한 이해의 폭을 넓히는 데 기여할 수 있다.


특히, 이번 편에서는 코로나 바이러스 이슈가 국내에 소개 된 시점(2019년 12월 말)부터 최근 시점(2020년 3월 21일)까지 일주일 단위로, 총 12번의 기간 동안 발행된 언론 기사에 대한 데이터의 텍스트 분석 결과 중 감성분석*을 먼저 소개하고자 한다. 해당 데이터는 비플라이소프트의 실시간 미디어 모니터링 플랫폼인 WIGO MON에 탑재되어 있는 자체 크롤러를 이용해 네이버 뉴스에서 입력 키워드(코로나 바이러스, 우한폐렴, COVID19)와 수집 기간을 기준으로 검색된 뉴스 기사를 모집한 데이터다.


* 감성분석 : 소비자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트마이닝 기술의 한 영역으로 해당 콘텐츠나 상품에 대한 사용자의 좋고 나쁨에 대한 감정을 표현한 결과


아래 <표 1>에서 보듯이 12 기간 동안 코로나바이러스 연관 키워드로 검색 된 기사 건수는 12월 말 중국 발 외신의 개념으로 코로나바이러스 발생을 소개 하는 정도의 기사(기간 1 : 2019-12-29 ~ 2020-01-04)에서, 국내 확진자가 처음 발생한 1월 초중순(기간 2 : 2020-01-05 ~ 2020-01-11)부터 기사 수가 증가하기 시작하였다. 그러다 1월 말(기간 5 : 2020-01-26 ~ 2020-02-01) 신천지에 의해 증가된 집단감염자 및 확진자 수의 증가 등의 계기를 기점으로 기사 수가 급격하게 증가하였다.


다만, 정부의 후속 대응에 의한 집단 감염 가능성을 낮추는 정책 실현 및 이에 따른 확진자 감소 추세와 정부의 ‘사회적 거리 지키기’ 캠페인이 시작된 2월 중순 경(기간 7 : 2020-02-09 ~ 2020-02-15) 연관 기사건수가 일시적으로 감소됨을 볼 수 있다. 이후 3월 중순(기간 11 : 2020-03-08 ~ 2020-03-14) 이후 다시 증가된 기사 건수 추이를 보였다.


<표 1> 일주일 간의 12 기간 동안 코로나 이슈의 기사 건수와 감성분류 추이


시계열적 기사 건수 변화를 그래프로 나타내면 아래 <그림 1>과 같다.

<그림 1> 일주일 간의 12 분석 기간 동안 코로나 이슈의 기사건수 변화


전체 기사건수를 시계열적으로 단순하게 분석하는 범위를 확장하여, 긍정, 중립 그리고 부정적 감성으로 구분하여 분석 한 결과는 <그림 2>와 같다.

<그림 2> 일주일 간의 12 분석 기간 동안 코로나 기사에 대한 감성분석 변화


감성분석 변화 추이를 보면, 분석 기간 1(2019-12-29 ~ 2020-01-04) 부터 기간 7(2020-02-09 ~ 2020-02-15) 까지는 부정적인 기사(확진자 및 사망자 수 증가와 정부의 초기 대응 실패를 질타하는 기사)가 긍정적인 기사 보다 많았으나, 분석 기간 8(2020-02-16 ~ 2020-02-22)을 기점으로 긍정적인 기사가 많아지며, 시간이 지날수록 더욱 격차가 발생되었음을 보였다.


특히, 가장 최근 시점인 분석 기간 12(2020-03-15 ~ 2020-03-21)에는 긍정 기사는 9,019 (30.2%) 건수로 부정기사 건수(1,228, 4.1%)와 상당한 차이를 보였다. 이는 국내는 다소 진정세 혹은 소강국면에 들어간 반면, 북미와 유럽의 확진자와 사망자 수가 급증하고, 종전의 정부 대응에 대한 부정적인 기사 보다는 해외 발 국내 방역의 성공 성과와 찬사 등이 많아지면서, 이를 보도하는 긍정적 기사가 증가했음을 보여준다고 할 수 있다.


종합적으로, 약 3달 간 국내 언론 기사의 총합과 긍 · 부정 변화 추이만을 분석하여도, 하나(본 사례의 코로나바이러스)의 사회적 이슈에 대한 언론의 시각 변화를 볼 수 있으며, 각 증감 변곡점 마다 세부적인 전환점 혹은 계기가 존재하였음을 알 수 있다. 언론과 같은 정보전달자의 정보행동은 어떠한 시점이나 계기로 정보의 증감과 콘텐츠의 변화를 가져오고, 이러한 추이 파악과 세부적인 담론의 변화를 분석하여 주체 간(정부-언론-국민 간) 커뮤니케이션의 효율성을 전략화 할 필요가 있다.



다음 편에서는 더욱 정교한 분석을 통하여 언론의 세부적인 아젠다와 프레이밍을 시계열적으로 분석할 예정이다.


저작권자 Bflysoft ⓒ 무단전재 및 재배포 금지




[위고몬 X 전문가 칼럼] 데이터마이닝과 빅데이터 분석 시리즈 보기 



                                              > 비플라이소프트 뉴스레터 구독하기 <




매거진의 이전글 베넷 밀러 감독의 ‘머니볼’, <정형과 비정형의 균형>

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari