CultureBERT로 다시 본 경쟁가치모형
조직문화나 리더십을 고민하다 보면 국밥처럼 빠지지 않고 등장하는 프레임워크 중 하나가 Quinn의 경쟁가치모형(Competing Values Framework)이다. 이 모형은 조직을 내부 지향–외부 지향, 유연성–통제라는 두 축으로 나누고, 그 교차점에서 집단문화(Clan), 혁신문화(Adhocracy), 성과문화(Market), 위계문화(Hierarchy)라는 네 가지 문화 지향을 설명한다. 조직은 이 네 가지 가치를 모두 일정 부분 가지고 있지만, 상황과 맥락에 따라 어떤 가치를 더 강조하고 어떤 가치를 상대적으로 덜 선택하는지가 달라진다는 점에서 ‘경쟁가치’라는 이름이 붙었다.
이처럼 경쟁가치모형은 조직을 이해하는 데 직관적이고 설명력이 높은 틀임에도 불구하고, 실제 조직 안에서 이 문화들이 어떻게 받아들여지고 있는지를 확인하는 데에는 늘 한계가 있었다. 설문이나 선언을 통해 “우리는 어떤 문화를 지향한다”라고 말할 수는 있지만, 구성원들이 그 지향점을 같은 방향으로 체감하고 있는지는 별개의 문제이기 때문이다. 그래서 경쟁가치모형은 익숙하지만, 동시에 다소 추상적인 프레임워크로 남아 있는 경우가 많았다.
늘 많은 학습과 시도를 할 뿐만 아니라 여러 정보 공유를 통해 자극을 주시는 배수정 박사님께서 소개해 주신 “CultureBERT: Measuring Corporate Culture With Transformer-Based Language Models” 연구는 이 부분에서 흥미롭게 다가왔다. 이 연구는 경쟁가치모형을 새롭게 정의하거나 대체하려 하지 않는다. 대신 조직 안에서 실제로 수집된 텍스트 데이터를 통해, 경쟁가치모형의 각 문화 유형에 대해 구성원들이 호의적으로 반응하는지, 혹은 반대의 신호를 보내고 있는지를 살펴볼 수 있는 가능성을 보여준다.
연구진은 직원 리뷰 텍스트를 기반으로 경쟁가치모형의 네 가지 문화 차원 각각에 대해, 해당 내용이 그 문화에 부합하는지(positive), 반하는지(negative), 혹은 판단하기 어려운지(neutral)를 사람 손으로 먼저 라벨링 했다. 이후 이 데이터를 활용해 Transformer 기반 언어모델을 학습시켜, 새로운 텍스트가 각 문화 차원에 대해 어떤 방향의 신호를 담고 있는지를 분류하도록 했다. 이는 특정 문화 가치에 대해 구성원이 지지하고 있는지, 아니면 그 가치가 실제로 작동하지 않는다고 인식하는지를 구분하는 작업에 가깝다. 그 결과 기존의 키워드 기반 방식보다 훨씬 높은 정확도로 조직문화 관련 신호를 포착할 수 있음을 보여준다.
과정이 번거로웠겠지만 기술적으로 구현이 극도로 어려웠을 것 같지는 않았을 듯하다. 그럼에도 불구하고 수많은 텍스트를 일일이 해석하고 라벨링 하는 수고로운 과정을 대신 감당해 준 연구진의 노고 덕분에, 조직 맥락의 텍스트 분석에 실제로 활용해 볼 만한 도구를 하나 알게 된 듯해 반가운 마음이 들었다. 많은 사람들에게 유용할 수 있는 알고리즘을 구현했다는 의미에서 IEEE라는 무대에서 발표되었겠지만, 이 연구의 가치는 단순히 기술적인 모델 구현 그 자체에만 있지는 않아 보인다.
한때는 가장 어렵다고 생각되었던 ‘모델을 만드는 일’ 그 자체가 이제는 더 이상 “수고했다” 이상의 의미로 다가오기 힘든 세상이 되었다. 오히려 중요한 것은 그 모델을 통해 무엇을 읽어내고, 조직 맥락에서 어떤 의미를 부여하느냐에 있다. CultureBERT이 경쟁가치모형이라는 익숙한 국밥을 따뜻하게 데워주었다면, 그 국밥에 어떤 새로운 양념을 더해 해석하고 어떤 질문으로 다시 조직에 되돌려줄지는 나를 비롯한 모델 사용자들의 몫으로 남아 있다. 결국 HR과 조직을 다루는 일에서 점점 더 중요해지는 것은 기술 그 자체가 아니라, 조직과 사람에 대한 이해를 바탕으로 한 해석의 깊이, 그 한 끗이 아닐까 싶다.
Koch, S. & Pasch, S. (2023). CultureBERT: Measuring Corporate Culture With Transformer-Based Language Models. 2023 IEEE International Conference on Big Data (BigData), pp. 3176-3184.
본 연구는 트랜스포머 기반 언어 모델을 기업 문화 측정에 최초로 적용한다. 인간 평가자가 레이블링 한 2,000개의 직원 리뷰 데이터셋으로 BERT와 RoBERTa 모델을 미세조정(fine-tuning)하여 기업 문화 분류기를 개발한다. 개발된 CultureBERT 모델은 기존 사전 기반 방법 대비 17~30% p, TF-IDF 기반 머신러닝 대비 3~15% p 높은 정확도를 달성한다.
기존 기업 문화 측정 연구는 두 가지 주요 한계를 가진다. 첫째, 대부분의 계산언어학 기법이 단어의 의미적 맥락(semantic context)을 고려하지 않는다. 둘째, 측정 결과가 인간 평가자의 판단과 얼마나 일치하는지 검증하지 않는다. 또한 대부분의 연구가 사용한 언어 모델을 공개하지 않아 다른 연구자들이 벤치마킹하기 어렵다. 저자들은 이 세 가지 문제를 해결하고자 한다.
경쟁 가치 프레임워크(Competing Values Framework, CVF): 조직을 초점(내부/외부)과 구조 선호(안정성/유연성) 두 차원으로 구분하여 네 가지 문화 유형(clan, adhocracy, market, hierarchy)을 정의하는 프레임워크
트랜스포머 기반 언어 모델(Transformer-based Language Models): BERT, RoBERTa 등 주변 맥락을 고려하여 텍스트의 복잡한 측면을 포착하는 최신 자연어처리 모델
사전 방법(Dictionary Method): 특정 문화 특성을 나타내는 단어 집합을 구성하고 텍스트와의 유사도를 측정하는 전통적 접근법
지도 학습(Supervised Learning): 인간이 레이블링 한 데이터셋으로 알고리즘을 훈련시켜 예측하는 머신러닝 방법
2008~2018년 직원 리뷰 웹사이트에서 Compustat 등재 미국 기업의 리뷰 2,000개를 무작위 추출한다. 세 명의 평가자가 각 리뷰를 CVF의 네 가지 문화 차원에 대해 긍정/부정/중립으로 레이블링하고, 가장 적합한 지배적 문화 유형을 할당한다. 데이터셋을 훈련(1,400개), 검증(200개), 테스트(400개)로 분할한 후, BERT와 RoBERTa의 base 및 large 버전을 미세조정한다. 성능 비교를 위해 사전 방법과 TF-IDF 기반 분류기(로지스틱 회귀, 랜덤 포레스트, XGBoost)도 적용한다.
RoBERTa-large가 모든 분류 과제에서 최고 성능을 달성한다. 지배적 문화 예측에서 63% 정확도(사전 방법 33%, XGBoost 47%), 개별 문화 차원 분류에서 clan 68%, adhocracy 89%, market 77%, hierarchy 81%의 정확도를 기록한다. RoBERTa-large가 사전 방법보다 우수한 이유는 세 가지이다: (1) 사전에 없는 표현 인식, (2) 다른 맥락에서 사용된 사전 단어 구분, (3) 부정이 없어도 반대 의미를 가진 표현 해석.
계산언어학의 발전으로 경영학자들은 혁신, 시장 지향성, 기업 문화 같은 정량화하기 어려운 개념을 더 잘 이해할 수 있게 되었다. 기업 문화 측정을 위해 연구자들은 직원 리뷰, 연례보고서, 이메일, 실적 발표 콜 등 다양한 텍스트 데이터를 분석해 왔다.
그러나 기존 연구들은 두 가지 주요 약점을 가진다. 첫째, 대부분의 계산언어학 기법이 단어의 의미적 맥락을 고려하지 않는다. 둘째, 측정 결과가 인간 평가자의 판단과 얼마나 일치하는지 평가하지 않는다. 추가로 대부분의 연구가 언어 모델을 공개하지 않아 벤치마킹이 어렵다.
본 연구는 이러한 문제들을 해결한다. 인간 평가자가 기업 문화에 대해 레이블링 한 직원 리뷰 데이터셋을 구축하고, 이를 활용해 최신 트랜스포머 기반 언어 모델을 미세조정한다.
연구 절차는 다음과 같다.
주요 직장 리뷰 웹사이트에서 2,000개의 직원 리뷰를 무작위 추출한다.
각 리뷰에 대해 CVF의 네 가지 문화 차원과의 부합/상충 여부를 판정하고, 가장 적합한 지배적 문화 차원을 할당하여 레이블링 된 데이터셋을 생성한다.
이 데이터셋의 일부를 사용해 트랜스포머 기반 언어 모델을 미세조정한다.
CultureBERT 모델은 기존 방법 대비 17~30% p 높은 정확도를 달성하며, TF-IDF 기반 분류기보다 3~15% p 우수하다. 모델은 Hugging Face(https://huggingface.co/CultureBERT)에 공개되어 다른 연구자들이 활용하고 벤치마킹할 수 있다.
2.1 경쟁 가치 프레임워크 (Competing Values Framework)
O'Reilly와 Chatman(1996)의 정의에 따르면, 기업 문화란 "무엇이 중요한지 정의하는 공유 가치 체계와 조직 구성원의 적절한 태도와 행동을 정의하는 규범"이다.
CVF(Quinn & Rohrbaugh, 1983)는 기업 문화 측정에 가장 널리 사용되는 프레임워크 중 하나이다. CVF에 따르면 조직은 두 가지 기본 가치 차원으로 설명된다.
초점(Focus) 차원: 내부 역량과 통합을 강조하는 내부 초점 vs 외부 기회와 차별화를 강조하는 외부 초점
구조(Structure) 차원: 안정성과 통제를 선호 vs 유연성과 변화를 선호
이 두 차원을 2차원 공간에 배치하면 네 가지 문화 유형이 도출된다.
CVF의 네 가지 문화 유형은 상호 배타적이지 않고 정(正)의 상관관계를 가진다. 즉, 기업은 여러 문화 유형을 동시에 나타낼 수 있다.
2.2 계산언어학 기법을 통한 기업 문화 측정 (Measuring Corporate Culture by Computational Linguistic Techniques)
기업 문화 측정의 전통적 방법인 설문조사는 대규모 샘플 평가에 시간과 자원이 많이 소요된다. 컴퓨팅 파워 향상과 새로운 텍스트 데이터베이스의 등장으로 경영학자들은 계산언어학을 대안으로 활용하고 있다.
사전 방법(Dictionary Method)
초기 연구들이 사용한 방법으로, 측정하려는 문화 특성을 나타내는 단어들로 사전(dictionary)을 구성하고, 분석 대상 텍스트와 사전 간의 텍스트 유사도를 측정한다. Grennan(2019)은 WordNet 어휘 데이터베이스를, Li et al.(2021)은 단어 임베딩 모델을 사용해 사전을 구축했다.
확률적 토픽 모델링(Probabilistic Topic Modeling)
텍스트에서 다루는 주제를 분석하는 비지도 학습 방법이다. Corritore et al.(2020)은 LDA(Latent Dirichlet Allocation)를 적용해 직원 리뷰에서 문화적 이질성을 측정했다. 그러나 분석 대상 텍스트가 기업 문화에 특화되지 않은 경우, 토픽 모델이 발견하는 주제 중 상당수가 기업 문화와 무관할 수 있다. 따라서 직원 리뷰에서 특정 문화 차원을 식별하는 용도로는 토픽 모델링이 적합하지 않다.
트랜스포머 기반 언어 모델
본 연구는 최신 지도 학습 접근법인 트랜스포머 기반 언어 모델을 기업 문화 측정에 도입한다. BERT(Devlin et al., 2018)로 시작된 트랜스포머 기반 언어 모델은 주변 맥락을 고려하여 텍스트의 복잡한 측면을 포착하며, 대부분의 자연어처리 과제에서 전통적 머신러닝 접근법을 능가한다. 금융 감성 분류에서 BERT는 나이브 베이즈, 서포트 벡터 머신뿐 아니라 CNN, LSTM 같은 딥러닝 알고리즘도 능가하는 것으로 나타났다.
2008~2018년 주요 직원 리뷰 웹사이트에 게시된 리뷰 중 다음 두 기준을 충족하는 2,000개를 무작위 추출했다: (1) 미국 근무 직원 또는 전직 직원이 작성, (2) 고용주가 Compustat 데이터베이스에 등재.
각 리뷰에는 직원이 고용주에 대해 좋아하는 점, 싫어하는 점, 권고 사항을 자유롭게 기술하는 여러 자유 텍스트 섹션이 포함된다. 서로 다른 섹션의 자유 텍스트를 무작위 순서로 결합하여 각 리뷰당 하나의 텍스트를 얻었다. 자유 텍스트 외의 정보는 모두 제외했다.
두 명의 저자와 연구 보조원("레이블러")이 독립적으로 모든 리뷰를 검토했다. CVF의 네 가지 문화 차원 각각에 대해 리뷰를 세 가지 클래스 중 하나로 분류했다.
해당 문화 차원에 부합하는 정보 포함("긍정 리뷰")
해당 문화 차원에 상충하는 정보 포함("부정 리뷰")
해당 문화 차원에 대한 추론이 불가능("중립 리뷰")
추가로, 리뷰의 전반적 톤에 가장 부합하는 지배적 문화 차원 하나를 할당했다. 기업이 여러 문화 차원으로 특징지어질 수 있지만, 일반적으로 하나의 차원이 지배적이기 때문이다.
다섯 가지 레이블링 과제 모두에서 완전 합의가 가장 빈번한 결과이다. 지배적 문화에서 완전 합의 빈도가 상대적으로 낮은 것은 리뷰가 둘 이상의 문화 차원을 동등하게 가리키는 정보를 포함하는 경우가 많기 때문이다.
데이터셋은 훈련(N=1,400), 검증(N=200), 테스트(N=400) 세트로 분할되었다.
4.1 트랜스포머 기반 모델 (Transformer-Based Models)
트랜스포머 아키텍처(Vaswani et al., 2017)를 기반으로 하는 가장 널리 사용되는 두 언어 모델인 BERT(Devlin et al., 2018)와 RoBERTa(Liu et al., 2019)를 시작점으로 삼는다. 두 모델 모두 책과 위키피디아 기사를 포함한 대규모 비레이블 텍스트 코퍼스로 사전 훈련되었다.
RoBERTa(Robustly optimized BERT approach)는 BERT를 기반으로 하지만, 개선된 훈련 절차와 훨씬 큰 훈련 데이터셋으로 표준 자연어처리 과제에서 더 높은 성능을 달성한다. 두 모델 모두 약 1억 개 파라미터의 base 버전과 약 3.5억 개 파라미터의 large 버전이 있다.
1,400개의 인간 레이블 직원 리뷰를 사용해 네 모델을 기업 문화 분류 과제에 미세조정했다. 200개 레이블의 검증 세트로 하이퍼파라미터를 평가하고 성능을 비교했다. Liu et al.(2019)과 일치하게, RoBERTa가 base와 large 버전 모두에서 BERT를 일관되게 능가했다.
4.2 TF-IDF 기반 텍스트 분류기 (TF-IDF-Based Text Classifiers)
지도 학습이 기업 문화 측정에 거의 사용되지 않았으므로, 텍스트 임베딩을 아직 포함하지 않는 다른 지도 학습 텍스트 분류 방법과 벤치마킹한다. 이러한 방법들은 입력 텍스트를 bag-of-words 표현으로 정량화하고, 단어의 출현과 동시 출현을 기반으로 텍스트를 분류하는 머신러닝 알고리즘을 적용한다.
TF-IDF(Term Frequency-Inverse Document Frequency) 행렬로 텍스트를 정량화한 후, 로지스틱 회귀, 랜덤 포레스트, XGBoost 알고리즘을 적용한다.
4.3 사전 방법 (Dictionary Method)
Grennan(2019)과 Pasch(2018)를 따라, Quinn과 Kimberly(1984)에서 언급된 가정, 신념, 가치, 행동, 효과성 기준을 설명하는 단어들로 CVF의 각 문화 차원에 대한 사전을 생성한다. WordNet 라이브러리를 사용해 이 단어들의 동의어와 하위어도 포함한다.
직원 리뷰와 사전 간의 유사도를 측정하기 위해, 각 리뷰와 문화 차원에 대해 해당 사전에 나타나는 단어 비율을 계산한다. 사전과 리뷰 모두 어간 추출(stemming)을 하고 불용어(stop words)를 제거한다. 또한 "not"이나 "never" 같은 부정어와 함께 나타나는 사전 어간의 비율을 빼서 부정을 고려한다.
사전 방법의 연속적 유사도 점수를 레이블링의 이산적 분류(3클래스 또는 4클래스)로 변환하기 위해, 클래스의 상대 빈도가 훈련 데이터셋의 분포와 일치하도록 임계값을 설정한다.
5.1 정확도 점수 (Accuracy Scores)
텍스트 분류 방법
사전 방법은 무작위 분류기보다 모든 범주에서 우수하지만, clan 범주를 제외하면 다수 클래스를 항상 예측하는 분류기를 능가하지 못한다. TF-IDF 기반 분류기는 다수 클래스 분류기와 사전 방법 모두를 모든 범주에서 능가한다. RoBERTa-base와 RoBERTa-large 모두 모든 범주에서 모든 벤치마크를 능가한다. RoBERTa-large는 base 버전보다 일관되게 높은 정확도를 보인다. 전체적으로 RoBERTa-large는 사전 방법보다 17~30% p, TF-IDF 기반 분류기보다 3~15% p 우수하다.
5.2 RoBERTa-large가 사전 방법을 능가하는 이유 (Why Does RoBERTa-large Outperform the Dictionary Method?)
사전 방법이 여전히 텍스트에서 사전 정의된 문화 차원을 측정하는 표준 접근법이므로, RoBERTa-large보다 정확도가 낮은 이유를 상세히 분석한다. RoBERTa-large는 인간 평가자와 동일하게 분류했지만 사전 방법은 오분류한 리뷰 중 50 단어 미만의 짧은 리뷰를 분석했다.
사전 방법이 오분류한 리뷰를 RoBERTa-large가 정확히 분류한 세 가지 주요 이유를 발견했다.
1) 사전에 없는 표현 사용
Clan과 hierarchy 차원에서 가장 빈번한 이유이다. 해당 문화 차원에 부합하거나 상충하는 증거를 제공하는 표현이 있지만, 해당 사전에 포함된 어간을 사용하지 않는다. 예: "they are quick to throw you under the bus"는 clan 문화에 상충하지만, 이 문장의 어간 중 clan 사전에 포함된 것이 없어 사전 방법은 중립으로 분류한다.
2) 다른 맥락에서 사전 단어 사용
리뷰가 사전에 포함된 단어를 사용하지만 다른 맥락에서 사용하는 경우이다. 사전 방법은 긍정 또는 부정으로 잘못 분류하지만, RoBERTa-large는 주변 맥락을 고려하므로 중립으로 정확히 분류한다. 예: "offers competitive compensation"은 "competitive"를 사용하지만 경쟁적 기업 문화를 나타내지 않는다.
상당수의 오분류가 제한된 어간 집합에 의해 발생한다. Market 사전의 "benefit", hierarchy 사전의 "time", adhocracy 사전의 "advanc", "develop", "growth", "grow" 등이 기업 문화와 무관한 맥락에서 자주 사용된다.
3) 반대 의미를 가진 표현 해석
RoBERTa-large는 부정 없이도 단어 자체가 시사하는 것과 반대 의미를 가진 표현을 정확히 해석하는 능력이 우수하다. 예: 명령형 사용에서 "communicate more with your employees"는 "communication" 단어를 사용하지만 소통 부족을 나타내므로 clan 문화에 상충한다. "very slow in change"는 "change"가 나타나지만 adhocracy 문화의 반대를 나타낸다.
본 연구는 CVF의 네 가지 문화 차원에 대해 직원 리뷰를 분류하는 트랜스포머 기반 언어 모델을 미세조정했다. 원칙적으로 CVF가 아닌 다른 프레임워크를 사용해 분석을 반복할 수 있다. 다른 문화 차원 집합으로 레이블링 된 새 직원 리뷰 데이터셋을 생성하면 된다. 단어 의미 이해와 맥락 고려의 장점 때문에, 다른 문화 차원을 사용해도 트랜스포머 기반 언어 모델이 다른 텍스트 분류 접근법을 유사하게 능가할 것으로 예상된다.
토픽 모델링은 기업 문화에 특화되지 않은 텍스트 문서에서 특정 문화 차원을 식별하는 데 적합하지 않아 적용하지 않았다. 직원 리뷰는 자유 텍스트로서 기업 문화와 무관한 다양한 직무 관련 주제를 포함한다. 따라서 토픽 모델을 직원 리뷰에 적용하면 기업 문화와 무관한 단어 그룹이 주로 도출된다.
트랜스포머 기반 언어 모델이 기업 문화 측정에서 전통적 텍스트 분류 접근법보다 정확하다는 것을 보여주는 데 초점을 맞추면서, 이 높은 정확도의 원인에 대한 통찰도 제공했다. 향후 연구는 모델 예측에 대한 설명을 제공하는 것을 포함하여, 기업 문화나 다른 조직 현상 측정에서 트랜스포머 기반 언어 모델의 장점과 한계를 더 철저히 탐구해야 한다.
머신러닝 기반 언어 모델의 공통적 단점은 예측을 설명하기 어렵다는 것이다. 본 연구의 모델도 예외가 아니다. Huang et al.(2023)은 관측치의 단어를 무작위화했을 때 정확도가 어떻게 변하는지 분석하여 트랜스포머 기반 언어 모델의 우수한 분류 성능을 탐구했다. 트랜스포머 기반 모델의 정확도는 크게 떨어지지만 다른 머신러닝 알고리즘의 정확도는 적당히만 감소하여, 트랜스포머 기반 언어 모델이 맥락 정보를 훨씬 더 잘 포착함을 시사한다.