brunch

You can make anything
by writing

C.S.Lewis

by 금융앱빌런 Jun 25. 2020

데이터 분석 공고 분석, 주제 읽어주는 LDA

구인공고 분석를 통해 취업하기(3)

첫번째 글에서는 데이터 분석 공고에 대한 기초적인 분석을, 두번째 글에서는 구인 공고 본문에 대한 네트워크 분석을 하며 이런저런 점들을 살펴보았습니다. 대략적으로 어떤 특징이 있는지 알게 되었지만, 주제별로 분류를 해 살벼 본다면 색다른 인사이트가 있을까요? 이번에는 토픽 모델링을 통해 주제들을 살펴보겠습니다.


검색창은 어떻게 비슷한 글을 보여줄까?


 하루에도 수십번 인터넷을 켰다 끄면서 다양한 것들을 검색합니다. 그런데 이 검색어에 맞는 문서들을 컴퓨터는 어떻게 보여주는 걸까요? 그 방법 중 하나는 Tf-Idf라는 값을 바탕으ㅇ로 코사인 유사도를 사용하는 것입니다. 이 글은 정확한 원리를 살펴보는게 목적은 아니므로 일단은 넘어가겠습니다. 그러면 그 코사인 유사도라는 친구를 활용해서 공고의 본문들을 분석해 보겠습니다. 총 7개로 분류가 되었습니다.


문제는 대부분의 단어들이 중요도는 고려되지 않은 채 '유사도'로 분류했다는 것입니다. 어떤 결과가 나오는지보려고 진행해 봤는데, 대부분의 단어들이 공고에서 모집이나 요건과 관련된 단어들만 묶여져 있었습니다. 그래서 전체 문서에서 어떤 주제들이 있는지 파악하는게 어려웠습니다. 그나마 인사이트가 있어 보이는 클러스터가 하나 있었는데, 데이터 분석가에게 필요한 역량들 같습니다. 내용은 아래와 같습니다.


context, deep learning, machine learning, 비즈니스, roadmap, statistics, tensorflow, 아이디어, 발표, cloud, architecture, 데이터베이스, 아키텍트, robotic, 컴플라이언스, 조직문화, 포용, 통찰, aws서비스, 발표, 키노트 등...


그렇다면 주제를 탐색해 보려면 어떤 방법을 사용해야 할까요?


확률을 활용한 주제 탐색해 보기


 위의 방법이 유사도를 활용한 것이라면, 확률을 활용해서도 주제를 탐색해 볼 수 있습니다. 특정한 주제를 바탕으로 글을 쓸 경우에, 들어갈 확률이 높은 단어들을 찾아가는 방식입니다. 이 결과는 LDAvis라는 패키지를 사용해 시각화 해 볼 수 있는데요. 결과는 아래와 같습니다. 토픽의 개수는 알고리즘을 통해 34개로 정했습니다.



이 중 주요 단어나 주제가 비슷한 것들을 모아 대략적으로 살펴 보면 아래와 같습니다.


1. 데이터를 다룬 경험을 찾습니다! (1번 동그라미)

- 데이터, 개발, 분석, 서비스, 경험, 설계 등의 키워드가 등장하는 토픽입니다.


2. 이런 복지가 제공됩니다. (2번 동그라미)

- 생일, 선물, 건강검진, 세미나, 컨퍼런스 등의 키워드가 등장하는 토픽입니다.


3. 마케팅에 데이터를 접목할 수 있는 사람이 필요합니다. (3번 동그라미)

- 마케팅, 모바일, 디지털, 효율, 캠페인, 대항사 등의 키워드가 등장하는 토픽입니다.


4. 커머스에 데이터를 접목할 수 있는 사람이 필요합니다. (4번 동그라미)

- 상품, 전략, 유통, 구매, 커머스, 수요, 예측, 손익관리 등의 키워드가 등장하는 토픽입니다.


5. 게임에 데이터를 접목할 수 있는 사람이 필요합니다. (5번 동그라미)

- 크리에이티브, 게임, 모바일, 글로벌, 디지털, 컨텐츠 등의 키워드가 등장하는 토픽입니다.


6. 데이터 분석에는 이런 역량이 있으면 합니다. (6번 동그라미)

- 지표, 도출, 인사이트, 통계, python, spark 등의 키워드가 등장하는 토픽입니다.


이 정도가 주요 토픽이었고 나머지는 유사한 내용을 담고 있거나, 채용 프로세스에 대한 내용이었습니다. 네트워크 분석에서는 또 보이지 않았던 주요한 주제들이 나타나는 것이 흥미롭네요.


Comming Next, 데이터를 활용한 이력서/포토플리오


 지금까지 데이터 분석 공고에 대한 다양한 측면을 분석해 보았습니다. 분석을 통해서:


- 데이터분석가에게 요구되는 역량들

- 데이터분석가를 채용하는 기업은 마케팅, 커머스, 게임 분야들에 집중되어 있는 모습이 있음


 이상의 것들을 알게 되었습니다. 하지만 이게 단순한 분석으로만 끝나서는 안되겠죠. 이제 이 분석 내용을 바탕으로 이력서포토플리오를 만들 시간입니다. 발견한 주요 키워드를 삽입하고, 데이터 분석 직무에서 중요하게 보는 경력들을 어떻게 부각할 수 있을지 고민해야 겠습니다. 그리고 이전과 반응을 비교해 얼마나 효과가 있었는지 A/B 테스트를 해 보겠습니다.




작가의 이전글 데이터 분석, 공고는 답을 알고 있다
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari