brunch

You can make anything
by writing

C.S.Lewis

by jd Aug 16. 2020

단어 빈도 분석기

글파도(글밥 먹는 노동자의 파이썬 도전기)

은연 중에 자주 입에 담는 말이 있다. 글도 다르지 않다. 물론 글에서 중복되는 단어는 최대한 쳐내는 게 미덕이겠지만, 한편으론 내가 왜 그 단어를 자주 쓰는지 가만히 생각하다 보면 나의 사고방식까지 되짚어볼 수 있는 경우가 있다. 일종의 메타인지 촉진제라고 해야 할까. 오늘은 문서에서 자주 등장하는 단어를 빈도순으로 정리해 한 눈에 살펴볼 수 있는 프로그램을 만들었다. 이를 통해 문서의 정체를 파악할 수 있음은 물론, 주제를 어떤 개념과 연결 지어 다뤘는지 쉽게 살펴볼 수 있다.


자주 쓰거나 말한 단어는 그 자체로 굳이 거듭하는 수고를 들일 만큼 중요하다는 이야기다. 이 점에서 빈도 높게 등장한 단어를 파악하는 것은 '핵심 메시지를 단편적으로 읽는 방법'이라고 할만하다. 단어 빈도 분석기가 유용한 이유다. 특히 다음 업무에서 이 프로그램을 유용하게 쓸 수 있을 것 같다.


대통령, CEO 등 각계 인사의 연설문 분석

보고서, 기획안, 제안서의 핵심 메시지 파악

장문으로 온 피드백의 긍·부정 평가

특정인의 친밀도 및 평판 분석

관심 있는 소설에서 자주 쓰인 단어 살펴보기 등


월간 사보를 만드는 나는 매달 발행하는 호별로 어떤 단어가 얼마만큼 등장했는지 파악하기 위해 단어 빈도 분석 프로그램을 짰다. 폴더 안에 문서 파일을 넣고 파일명을 호(vol.) 번호로 맞춘 후, 파이썬 프로그램을 실행하면 엑셀 파일을 자동 출력해주는 프로그램이다. 결과 공개.



엑셀에 자동으로 업데이트되는 부분은 '단어'와 '등장 횟수' 열이다. 맨 오른쪽 '연관어' 열의 단어 구름은 별도의 프로그램을 짜서 이미지를 출력한 후 붙여넣은 것이다. 예시로 2018년 5월호를 살펴보자. 필자란에 내 이름이 처음 올라간 호로서 나에겐 특별한 호다. 당시 주제가 Old & New였는데, 단연 돋보이는 핵심어는 '세대'다. 2018년 문재인 대통령이 청와대 직원들에게 선물한 책이 《90년생이 온다》였을 정도로 세대 간 소통은 기업, 기관을 아우른 모든 조직의 변치 않는 화두다. 두 번째로 등장한 단어가 '필요'인 것을 보니 구세대는 신세대를, 신세대는 구세대를 위해 소통하려는 노력이 필요함을 강조한 듯하다. 이처럼 달마다 정해진 주제를 어떤 내용으로 풀었는지 확인할 수 있다.


이렇게 2018년 1월호부터 현재까지. 약 3년치 사보 데이터를 엑셀에 정리했다. 향후에도 매달 업데이트하며 데이터를 축적해갈 계획이다. 달마다 기획안을 쓰며 머리가 하얘질 때가 있다. 아이디어가 바닥났음에도 어떻게든 짜내야 할 때.(그럴 때마다 왠지 모르게 우주가 생각난다.) 이때 단어 빈도 분석기를 통해 과거에 다뤘던 내용 중 이번 달 주제와 관련된 연관어 있었는지 죽 훑는 것만으로 생각을 확장하는 데 도움이 되리라 기대한다. 이 연관어들은 그 자체로 과거 선배들이 아이디어를 끌어모아 기록해온 결실들일 테니.


코드를 공개한다. 늘 그렇듯, 단 한 명이라도 유용하게 썼으면 하는 바람에서다.


단어 빈도 검색기: 자주 등장한 단어를 등장 횟수순으로 정렬해 보여줌.


단어 구름 제조기: 자주 등장한 단어를 크게, 드물게 등장한 단어를 작게 배치해 단어 구름을 출력.


프로그램을 짜며 '지행합일'이라는 말이 떠올랐다. 쓰고 말하는 대로 사는 삶의 태도를 뜻한다. 내 삶의 목표 중 하나이기도 하다. 사실 내가 자주 써온 말을 단어 빈도 분석기가 한 눈에 보여주니 솔직히 조금 섬찟했다. '네가 이런 말을 꽤 자주 써놨던데, 실천은 하고 있는 거야?'라며 추궁을 받는 느낌도 들었다. 혹시 지행합일 측정기가 있다면 내 점수는 몇 점 정도일까. 주저리주저리 변명거리는 끝도 없이 많겠지만, 아무튼 높진 않을 것 같다. 스스로 되새기는 마음에서 읽을 때마다 감명 깊은 문장을 공유한다.


《번역자를 위한 우리말 공부》(이강룡 저, 유유출판사) 中, 글쓰기에 관심이 깊은 주변인들에게 입이 닳도록 추천해온 책.



작가의 이전글 딱 겪은 데까지만 쓴 이야기
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari