https://uppity.co.kr/21대-대선-후보자에게-청년의-목소리를-직접-전하다-20/
설문조사 분석 결과를 보았다. 특히 주관식 답변을 분석한 부분이 인상적이었다.
객관식 답변은 음 단순하게는 상관관계나, 집단별 분산분석 정도 할 수 있을테고
분석이 복잡하지는 않은 것 같다.
그런데 주관식 답변은 의미있는 주제/문장을 뽑아낼 수 있다는 점에서 굉장히 의미있게 느껴졌고,
무엇보다도 분석 방법론에 대학원 시절에 귓동냥으로 들어본 k-mean cluster 분석을 사용하길래
마음에 장벽이 낮아지고, 한 번 도전해볼까 싶었다.
그래서 온라인에서 적당한 설문조사 데이터를 구해서 분석을 해보았는데,
몇 가지 문제가 있었다.
우선 내가 구한 데이터는 표본이 너무 적어서 클러스터가 하나로 밖에 나뉘지 않았다.
이런 경우라면 굳이 클러스터 분석이 필요하기 보다는
단순하게 모든 답변을 ChatGPT에게 요약해달라고 하는 편이 낫다고 생각한다.
그리고 무엇보다도 한국어 형태소 분석이 거림돌이었다.
조사 같은 경우는 간단하게 제거하면 되는데,
동사/형용사는 가다, 갔다 등 받침이 붙으면서 변하기 때문에,
모든 경우에 대해서 사전을 만들 수도 없고.. 그런 상황이었다.
예전에 누군가 한국어 분석 했던 사람이 기억나서 물어보니
카카오에서 개발한 khaiii가 형태소 분리 잘 해준다고 했다.
설치해보는데, 자꾸 에러가 난다..
지피티의 도움을 받아 이것 저것 해봤는데도 자꾸 설치과정에서 에러가 난다.
휴우...
동사/형용사 분석은 하지 말고 그냥 조사를 떼고 명사만이라도 제대로 건져야 하나...
[결혼을, 결혼에, 결혼] 이게 각각 다른 단어로 잡히는 것만 통합해줘도
훨씬 나은 분석이 될 수 있지 않을까 그런 생각....