brunch

You can make anything
by writing

C.S.Lewis

by 이영민 Nov 24. 2016

공간 감성어 사전 구축 결과

설문조사 결과 분석을 바탕으로

지난번에 공간 감성어 사전(spatial sentiment lexicon)을 구축하기 위해서 관광지를 표현하는 형용사와 동사를 추출하고, 이에 대한 설문조사를 하고 있다는 내용으로 포스팅을 했다. 오늘은 그때 실시한 설문조사 결과와, 분석 과정, 그리고 결과로 구축된 공간 감성어 사전에 대해 다뤄보려 한다.



1. 설문조사 현황


설문조사는 2016.07.28. ~ 2016.08.10. 동안 구글 설문지를 이용하여 진행되었다. 설문 문항은 형용사(53개), 동사(9개), 명사+'많다' 조합(12개)으로 구성되며, 총 74개의 질문이 제시되었다. 


설문지는 아래 그림과 같이 생겼는데, 특정 단어(품사)와 그 단어가 사용되는 예시를 보여주고 해당 단어가 장소를 표현하는 맥락에서 쓰였을 때 긍정, 부정, 중립, 또는 공간(장소)을 표현하는 단어로 적절치 않음 중 어디에 속하는지를 선택하도록 하였다.  


설문지 예시


50개 정도의 답변만 받아도 좋겠다고 생각했는데 무려 151개의 응답을 받았다. 설문에 참여해 주신 모든 분들께 감사의 뜻을 전하고 싶다. 



2. 오답 처리


151개의 응답을 가지고 제일 먼저 해야 할 일은 해당 답변들의 신뢰도를 파악해서 신뢰도가 낮은 답변, 즉 오답을 제거하는 것이다. 그 방법은 선행연구(안정국과 김희웅, 2015)를 참고한 것으로, 아주 간단하다. 


애초에 설문 문항에 답이 확실한 두 개의 단어('좋다'와 '싫다')를 삽입하여 답변자가 두 문항을 동시에 틀릴 경우, 나머지 문항의 답변들도 오류로 인식하여 결과에 반영하지 않는 것이다.  


그런데 이게 막상 결과를 보니 좀 애매했다. 151개의 응답 중 2건이 '좋다'와 '싫다'를 모두 '공간(장소)을 표현하는 단어로 적절치 않음(부적절)'으로 선택했기 때문이다. 뭐, 그럴 수도 있다. 만약 '좋다'를 '부정'으로 '싫다'를 '긍정'으로 선택했더라면 오답으로 처리해 버리기가 쉬웠을 텐데 말이다. 고민 끝에 2건은 제외해 버리기로 결정했다. 따라서 총 149개의 응답에 대해 결과 분석을 실시했다.



3. 극성 분류 및 확률 점수 계산 방법


이제 74개의 단어(및 단어 조합)에 대한 149건의 투표 결과를 정리해야 하는데, 이때 각 단어에 대해서 두 가지를 파악하면 된다. 그것은 ① 각 단어들의 극성(polarity), 즉 '긍정', '부정', '중립', 또는 '부적절' 여부와 ② 해당 극성을 가질 때의 확률 점수이다. 이 두 가지를 파악하기 위한 분석 과정을 수도코드(psedo code)로 정리하면 아래와 같으며, 이 역시 안정국과 김희웅(2015)의 연구를 참고하였다. 


공간 감성어 점수화 알고리즘


이해를 돕기 위해 아래에 각 단계별 설명을 글로 풀어써 놓았다.


1) 1단계 : 부적절 판단


'긍정', '부정', '중립', '부적절'에 대한 투표 결과를 바탕으로, '부적절'로 투표한 사람이 '긍정', '부정', '중립'으로 각각 투표한 사람보다 많을 경우, 해당 단어는 ‘부적절’로 판단하고 공간 감성어에서 제외시킨다. 그렇기 때문에 확률을 계산할 필요가 없으나 궁금해서 계산해 보았다. 물론 사전에는 포함되지 않는다.


2) 2단계 : 중립 판단

 

각 단어에 대해 '중립'으로 투표한 사람이 '긍정'이나 '부정'으로 각각 투표한 사람보다 많은 경우, 해당 단어는 ‘중립’으로 판단하고, 전체('긍정', '부정', '중립')에 대한 확률을 계산한다. 


3) 3단계 : 긍정 또는 부정 판단


'긍정'과 '부정'에 대한 투표수를 비교하여, 투표수가 더 많은 경우에 대해 ‘긍정’ 또는 ‘부정’의 확률을 계산한다.


4) 4단계 : 긍정, 부정, 중립의 투표수가 같을 때


'긍정', '부정', '중립'에 대한 투표수가 같아서 2단계와 3단계에 해당되지 않는 경우는 100% ‘중립’으로 계산한다.



4. 공간 감성어 사전 구축 결과 


위와 같은 분석 과정을 거쳐서 74개 단어(및 단어 조합)에 대한 극성과 확률점수를 계산하였으며, 그 결과는 아래에 표로 정리하였다. 


결과를 보면, '긍정' 100%인 단어가 총 19개(형용사 13개, 조합 1개, 동사 5개), '부정' 100%인 단어가 총 2개(형용사) 도출되었는데, '중립'과 '부적절' 100%로 도출된 단어는 없었다. 앞에서도 얘기했듯이 '부적절'로 판단된 단어는 공간 감성어 사전에 포함되지 않는다. 그런데 좀 아쉬운 부분이 있다. '부적절'로 판단된 단어 중에 ‘맛있다(형용사)’가 있는데, 이는 음식을 판매하는 장소를 긍정적으로 평가하는 단어라고 볼 수도 있을 것 같은데 말이다. 설문조사 결과 응답자의 59%가 부적절로 판단했다. 




5. 끝으로


지금까지 서술한 내용을 정리하여 지난 10월에 열렸던 2016 공동추계학술대회(한국지형공간정보학회와 한국공간정보학회 공동 개최)에 제출하였다(저작권 문제가 어떻게 되는지 몰라서 논문 파일을 올리지는 못하겠음). 


김영서, 조선우, 이영민. (2016). 장소 리뷰를 이용한 공간 감성어 사전 구축 연구: 서울시 관광지를 중심으로, 2016 공동추계학술대회 논문집, 한국지형공간정보학회 & 한국지형공간정보학회, pp. 71-73.


일단 1차적으로 공간 감성어 사전을 구축해 본 것인데, 부족한 점이 많다. 앞으로의 포스팅에서 발전 방향을 모색해 보겠다.

 


참고문헌

안정국, & 김희웅. (2015). 집단지성을 이용한 한글 감성어 사전 구축. 한국경영정보학회, 21(2), 49-67.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari