우리 회사 직원들은 정말 무슨 생각을 하는 걸까?
모든 리더와 HR 담당자들이 품고 있는 질문입니다.
이 질문에 답하기 위해 회사는 만족도 설문조사, 1대1 면담, 포커스 그룹 인터뷰 등 다양한 노력을 기울입니다. 하지만 직원들은 솔직하게 속마음을 드러내기를 꺼려하고, 정제된 답변만을 내놓기 일쑤입니다.
만약, 직원들이 익명으로 자유롭게 털어놓은 수십만 건의 '진짜 목소리'를 AI를 통해 심층적으로 분석할 수 있다면 어떨까요?
이것을 가능하게 하는 기술이 바로 자연어 처리(Natural Language Processing, NLP), 특히 생성형 AI의 기반이 되는 거대 언어 모델(Large Language Model, LLM)입니다.
과거의 텍스트 마이닝이 단어의 빈도나 감성 점수를 계산하는 수준에 머물렀다면, 이제 LLM은 문맥의 미묘한 뉘앙스, 숨겨진 감정, 논리의 흐름까지 파악하며 인간의 언어를 이전과는 비교할 수 없는 수준으로 이해하게 되었습니다. 어떻게 AI로 사람의 마음을 읽어내는지, 그 최신 기술의 세계로 여러분을 안내합니다.
직원의 목소리를 분석하는 기술은 지난 10년간 극적인 발전을 이루었습니다. 제가 데이터 분석을 시작한 이후 사용해본 방법론을 간단하게 세대로 구분해보면 아래와 같습니다.
특정 단어가 얼마나 자주 등장하는지를 세는 가장 단순한 방식입니다. "불만", "문제", "힘들다" 같은 부정적인 단어가 많이 나오면 문제가 있다고 판단합니다.
하지만 문맥을 전혀 고려하지 못합니다. "불만 처리가 빨라서 좋다"는 긍정적인 문장도 '불만'이라는 키워드 때문에 부정적으로 분류되는 오류를 범합니다.
긍정/부정 단어 사전을 만들어두고, 텍스트의 전체적인 감성 점수를 계산합니다. "최고", "만족", "좋다"는 +1점, "최악", "불만", "싫다"는 -1점을 주는 식입니다.
여전히 문맥에 취약합니다. 특히 비꼬는 표현("참 잘하는 짓이다")이나 미묘한 감정(아쉬움, 불안함)을 잡아내지 못합니다.
사전 학습된 언어 모델(BERT, ELECTRA 등)을 특정 감정 데이터셋으로 파인튜닝하여, 단순한 긍/부정을 넘어 세분화된 감정을 분류합니다.
대표적인 예가 KOTE(Korean Online That-gul Emotions)입니다. [2] 서울대 연구팀이 한국어 온라인 댓글 5만 건(25만 사례)에 43개 감정 레이블을 부여한 데이터셋으로, '안타까움/실망', '지긋지긋', '부담/안 내킴' 같은 한국어 고유의 세밀한 감정 범주를 포함합니다.
제가 직원 리뷰를 분석할 때도 이 KOTE 모델을 활용했습니다. 2세대 사전 기반 분석이 "이 리뷰는 부정적이다"에서 멈췄다면, KOTE 기반 분석은 같은 부정적 리뷰에서도 '짜증'인지, '서러움'인지, '절망'인지를 구분해줍니다. 이 차이는 조직 진단에서 매우 큽니다.
다만 한계도 있습니다. BERT 계열 모델은 사전에 학습된 감정 범주 안에서만 분류가 가능합니다. 학습 데이터에 없는 새로운 맥락이나, 문장 이면의 의도까지 파악하기는 어렵습니다.
ChatGPT와 같은 거대 언어 모델을 사용하여 문장 전체의 문맥적 의미를 깊이 이해합니다. 사전 정의된 감정 범주에 구애받지 않고, 텍스트의 숨겨진 의도까지 파악할 수 있게 되었습니다.
예를 들어, "성과급이 작년이랑 똑같네요. 우리 팀이 얼마나 고생했는데…"라는 문장에서, 3세대 모델이 '안타까움/실망'이나 '화남/분노'로 분류하는 데 그쳤다면, LLM은 '실망감'과 '부당함'이라는 복합 감정을 추출하고, 나아가 '공정한 보상 요구'라는 숨은 의도까지 읽어냅니다.
물론 한계도 존재합니다. 한국어 특유의 우회적 표현이나 세대별 신조어, 조직 내부에서만 통하는 맥락은 여전히 사람의 해석이 필요한 영역입니다. 하지만 수십만 건의 텍스트를 일관된 기준으로 빠르게 분석한다는 점에서, LLM은 인간 분석가를 대체하는 것이 아니라 강력하게 보완하는 도구입니다.
마이크로소프트 리서치(Microsoft Research)의 'New Future of Work Report 2025'는 기술과 사회과학이 결합된 AI 시스템의 중요성을 강조합니다. [1] 단순히 정확한 출력을 내는 것이 아니라, 인간 중심의 지표와 근로자의 가치를 설계에 반영해야 한다는 것입니다.
제가 꿈꾸는 것도 바로 이 방향입니다. 텍스트를 분석하는 것을 넘어, 조직심리학 이론을 바탕으로 직원의 발언에 담긴 심리적 배경까지 추론하여 리더에게 실행 가능한 통찰력을 제공하는 시스템입니다.
예를 들어, 보상에 대한 불만이 감지되면 공정성 이론의 렌즈로 해석하고, 번아웃(소진) 신호가 포착되면 자원 보존 이론의 관점에서 개입 방안을 제안하는 식입니다. 4~5년 전 KOTE 모델 기반으로 기반으로 시스템을 구축한 적이 있는데, LLM을 활용한다면 당시보다 훨씬 뛰어난 시스템을 만들 수 있을 것 같습니다.
직원들이 이야기하는 숨겨진 주제를 찾아내는 토픽 모델링(Topic Modeling) 역시 LLM을 만나 한 단계 더 진화하고 있습니다.
과거의 토픽 모델링이 단순히 단어 묶음을 통해 '워라밸', '보상'과 같은 주제를 찾아내는 데 그쳤다면, 이제는 주제들 간의 연결 패턴과 시간에 따른 변화까지 동적으로 분석할 수 있게 되었습니다.
이러한 진화된 분석은 리더에게 훨씬 깊이 있는 통찰을 제공합니다. '보상에 대한 불만'이 단순히 존재하는 것을 넘어, 이것이 '조용한 사직'과 함께 나타나고, 결국 '이직 의도'를 높이는 핵심적인 '위험 경로'임을 데이터로 보여줄 수 있기 때문입니다.
조직은 이를 통해 문제가 더 심각해지기 전에, 가장 효과적인 지점에 개입할 수 있게 됩니다.
AI가 직원들의 목소리를 놀라운 수준으로 분석해주는 시대가 되었습니다. 하지만 그렇다고 리더의 역할이 줄어드는 것은 아닙니다. 오히려 더 중요해졌습니다.
AI 텍스트 분석은 '어디에 문제가 있는지'를 짚어줍니다. 하지만 '왜 그런 문제가 발생했는지', 그리고 '어떻게 해결해야 하는지'에 대한 최종적인 답은 결국 사람의 몫입니다.
AI가 분석한 데이터를 출발점으로 삼되, 그 뒤에는 반드시 직접 대화로 맥락을 확인하는 과정이 필요합니다. "텍스트 데이터에서 3분기에 '업무량'과 '소진' 토픽이 급증했는데, 어떤 일이 있었나요?"라는 질문이, 리더의 막연한 직감보다 훨씬 구체적이고 생산적인 대화를 열어줄 수 있습니다.
한 가지 더 짚어야 할 것이 있습니다. 이 기술이 가져오는 윤리적 질문입니다.
직원들의 텍스트를 AI로 분석한다는 것은, 아무리 익명이 보장되더라도 '내 말이 분석당하고 있다'는 심리적 부담을 줄 수 있습니다. 분석 결과가 특정 부서나 개인을 식별하는 데 오용될 가능성도 배제할 수 없습니다.
따라서 AI 텍스트 분석을 도입하려는 조직이라면, 분석의 목적과 범위를 사전에 투명하게 공유하고, 결과가 징벌적 목적으로 사용되지 않을 것임을 제도적으로 보장해야 합니다. 직원의 신뢰 없이는 솔직한 목소리도, 정확한 분석도 불가능하기 때문입니다.
References
[1] Butler, J., Jaffe, S., Janßen, R., Baym, N., Hecht, B., Hofman, J., Rintel, S., Sarrafzadeh, B., Sellen, A., Vorvoreanu, M., & Teevan, J. (Eds.). (2025). New Future of Work Report 2025 (Tech Report MSR-TR-2025-58). Microsoft Research.
[2] Jeon, D., Lee, J., & Kim, C. (2024). User Guide for KOTE: Korean Online That-gul Emotions Dataset. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 17254–17270.