brunch

You can make anything
by writing

C.S.Lewis

by 밤코딩 밤치 Sep 11. 2021

제1화. 빅데이터는 다음 대통령을 이미 알고 있다

제20대 대통령 선거 주요 후보에 대한 빅데이터 분석


본 리포트는 해시스크래퍼의 "빅데이터 트렌드 분석 서비스 - 트렌드패드" 소개를 목적으로 제작되었으며, 본문에 언급되는 특정 후보와 무관함을 미리 알립니다.


수집기간: 2021.08.06 ~ 2021.09.06

수집채널: 블로그, 카페, 주요 커뮤니티 10개


구글 트렌드는 2016년 미국 대선 결과를 제대로 예측한 것일까?


  2016년 미국 대통령 선거 직후, 구글 트렌드 트럼프의 당선을 예측했다는 사실이 미디어의 주목을 받으며 이슈를 불러일으켰습니다. 실제로, 다수의 여론 조사는 힐러리가 우세하다는 결과를 내놓았지만, 구글 트렌드의 관심도 변화를 살펴보면 트럼프에 대한 검색량이 힐러리를 명백히 앞서고 있었고 결국 트럼프가 대통령에 당선되었습니다.


 그러나, 2018년 서울 시장 선거, 2020년 미국 대통령 선거에서 구글 트렌드는 선거 결과를 예측하지 못했습니다. 그 이유는 해당 데이터는 단순 검색량 추이를 제시할 뿐 특정 후보에 대한 호불호를 판단의 근거가 되지 못하기 때문입니다.



관심도 뿐 아니라, 호불호까지 측정하는 트렌드패드


  구글 트렌드와 달리 트렌드패드는 단순 해당 검색량뿐만 아니라 해당 키워드에 대한 감정 분석을 수행합니다. 이 감정분석 과정에서 인공지능은 문맥을 분석해 해당 문장이 키워드에 대해 긍정적인지 부정적인지 측정하고 점수화합니다.



인공지능은 어떻게 사람의 말을 이해하는 것일까?


그렇다면 인공지능은 어떻게 사람이 작성한 문장이 어떤 의미인지 알 수 있을까요? 이 질문에 대한 답은 ‘감정분석’에 있습니다. 감정분석이란 주관적인 텍스트에서 긍정과 부정 또는 기쁨, 슬픔, 분노 등 인간의 정서에 대한 분류를 하는 작업을 말합니다.


트렌드패드의 인공지능은 딥러닝을 통해 수많은 문장 데이터를 학습하며 감정분석에 대한 사전 준비를 마쳤습니다. 그리고 SNS, 유튜브, 블로그, 커뮤니티 등 모든 웹사이트에서 키워드가 포함된 문장들을 수집합니다. 


이제 인공지능은 앞서 학습한 데이터를 토대로 수집된 문장들을 각각 감정에 따라 분류합니다. 특히, 변형이 심하고 다양한 뉘앙스나 동음이의어 등이 있는 한국어의 경우 감정분석을 정확히 수행하는 것은 매우 까다로운 작업입니다. 그러나 트렌드패드의 인공지능은 문장의 최소 단위인  형태소부터 품사까지 분석하고 구분해 문맥을 정확하게 짚어낼 수 있습니다. 한국어뿐만 아니라 15개 국어를 지원하여 해외 웹사이트의 외국어

에도 문제없이 감정분석을 수행합니다. 

분류 작업이 끝나면 인공지능은 분류된 문장들을 살피며 이 문장이 얼마나 긍정적인지, 부정적인지 판단하고 -100 ~ +100 사이의 점수를 매깁니다. 그 결과, 문장 하나를 입력하면 인공지능은 사람이 독해를 하듯 그 문장에서 작성자의 생각과 감정을 읽고 수치화할 수 있습니다.



감정분석 결과 사례 ‘B사 베개’



이 그래프는 위 과정을 통해 추출한 ‘B사 베개’에 대한 감정분석 결과 예시입니다. 


인공지능은 SNS, 유튜브, 블로그, 카페, 커뮤니티, 언론 기사 등 모든 웹상의 문서에서 

‘B사 베개’라는 키워드가 포함된 모든 문장을 수집합니다.


수집 후 단순히 해당 키워드 언급량만을 측정하는 것이 아니라, 키워드가 포함된

문장 속 단어와 품사, 형태소 등을 토대로 문맥을 분석합니다. 그리고 마치 사람이

글을 읽고 생각하듯 이 문장이 키워드에 대해 어떻게 평가하는지 긍정/부정 평가

점수를 부여합니다.


이렇게 수치화된 감정분석 결과는 대시보드에서 기간별, 제품군 별로 받아볼 수

있으며, 원하는 데이터 형태로 변경할 수 있습니다.  이 결과를 통해 소비자들이 ‘B사 

베개’에 대해 높이와 사용감, 복원력은 좋지만, 냄새가 나는 경우가 있고 세탁이 불편

하다는 의견을 보이는 것을 한눈에 알 수 있습니다.


트렌드패드는 감정분석 과정과 분석 결과를 라이브러리와 플랫폼 형태로 만들었습니다. 이를 통해 제품과 서비스의 종류나 사업 성격에 관계없이 최대 3일 안에 원하는 데이터를 수집하고 감정분석한 결과를 제공합니다.


트렌드패드는 대한민국의 미래가 달린 제20대 대한민국 대통령 선거를 맞아, 주요 대선 후보들(이재명, 이낙연, 정세균, 윤석열, 홍준표, 유승민 후보)의 데이터를 수집하며 감정분석을 진행하고 있습니다. 그리고 여러분에게 분석 리포트 시리즈로 결과를 공유하며 선거일인 2022년 3월 9일까지 어떤 일들이 벌어지는지 추적하고 대선 결과를 예측해보고자 합니다.


이번 리포트에서는 2021년 8월 6일부터 9월 6일까지 약 한 달간 대선 주요 후보에 대한 실시간 고객반응의 결과를 살펴보며, 트렌드패드의 인공지능이 감정분석한 대선 후보들에 대한 유권자들의 관심과 반응을 소개하겠습니다.


들어가기에 앞서, 분석에 활용된 데이터 수집 기간은 2021년 8월 6일부터 2021년 9월 6일이며, 수집된 전체 문서 수는 80,753건, 문장 수는 301,433건입니다. 각 후보별 분석 문장은 윤석열(104,072건), 이재명(76,876건), 홍준표(43,652건), 이낙연(43,486건), 유승민(26,314건), 정세균(7,033건)입니다. 또한, 해시스크래퍼는 본문에서 언급되는 특정 정당이나 후보와 무관함을 미리 알려드립니다.






본 리포트는 해시스크래퍼의 서비스 소개를 목적으로 제작되었으며, 본문에 언급되는 특정 후보와 무관함을 미리 알립니다.


대선후보 분석 데이터 미리보기


       

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari