부록 : 데이터로 언론의 미래 고민하기
지난 이야기
공무원의 근무 만족도(조직문화)는 시민의 공공 서비스 만족도(성과)에 영향을 주는가. 목표는 거창했지만, 실제 그것을 검증하지는 못했다. 가장 큰 문제는 적합한 데이터를 찾지 못한데서 나왔다. 공개된 데이터를 끼워 맞추다 보니 비약은 곳곳에서 나타났다. 프로젝트는 새롭게 진행할 수밖에 없었다. 새로운 데이터를 찾는 것부터 다시 시작이다.
새로운 HR 데이터를 찾아야 됐다. 공개된 국내 기업 데이터는 찾지 못했다. 공공 데이터 포탈에서 찾은 공무원의 HR 데이터도 우리가 원하는 분석을 하기에 적합하지 않았다. 새로운 곳으로 눈을 돌렸다.
팀원 중 한 명이 ‘캐글(Kaggle)’이라는 사이트를 소개해줬다. 캐글은 기업이나 기관이 데이터를 올리고, 데이터과학에 관심 있는 다양한 사람들이 그 데이터를 열람하여 해결방식에 대해 자유롭게 토의하는 예측모델 및 분석대회 플랫폼이다. 실제 문제 해결에 대한 상금이 걸린 경연이 벌어지기도 한다.
우리는 캐글에서 익명의 한 기업이 올린 인사 데이터를 찾았다. 이 기업에서 근무하는 직원 15,000명의 근무 만족도(Satisfaction Level), 평가지수(Last Evaluation), 프로젝트수(Number Project), 근무시간(Average Monthly Hours, Time Spend Company), 퇴사여부(Left), 직군, 연봉수준이 정리된 자료다.
우리가 이 데이터셋에서 중요하게 본 결과값은 퇴사여부(Left)다. 직원의 직군, 연봉, 근무 만족도, 근무시간과 같은 요인들이 퇴사에 미치는 영향을 알고 싶었다. 한 팀원이 이야기를 꺼내길. 다양한 변수들의 영향을 조합하여, 특정 직원의 직군과 근무상황을 넣어서 퇴사할 확률을 구하는 툴을 만들 수 있다고 했다.
그렇게 만들어진 것이 아래의 솔루션이다. 하루 근무시간, 평균 한 달 근무시간, 근무 만족도, 지난해 평가지수, 프로젝트수, 지난 5년간 승진횟수 등을 입력하면 해당 변수를 종합적으로 판단하여 이 직원이 퇴사할 확률을 수치로 제시해준다. 단순히 퇴사 확률만 제시하는데 멈추지 않고, 변수를 조정하여 퇴사율을 낮추는 방법(개선책) 또한 제시했다.
이 솔루션이 한국의 인사 담당자들의 고민을 일부 해소해줄 수 있을 것이라 생각했다. 필자 또한 재직중인 회사에서 채용, 교육과정을 맡아 진행해본 적이 있었다. 이 때 채용 이상으로 어려웠던 것은 직원들이 오랫동안 근무하도록 만드는 것이었다. 경험상 직원들의 퇴사에 영향을 미치는 요인은 대개 ‘조직문화’와 같은 정성적인 요인에서 나왔다. 느낌적인 느낌으로 퇴사의 이유를 예측할 수는 있지만, 퇴사자는 말이 없기에 그 이유를 정확하게 알기는 어려웠다. 만약 그 이유를 정량적으로 측정 가능하게 만들 수 있다면? 퇴사를 일으키는 조직문화를 개선하기 위한 조치를 취할 수도 있지 않을까.
물론 이 솔루션에는 근원적인 한계가 있다. 캐글에 업데이트된 ‘한 개’ 기업의 15,000개 표본 데이터만을 사용했기에 범용성을 갖추기가 어렵다. 우리는 비공개로 데이터를 업데이트한 이 기업의 이름이 무엇인지, 어떤 국가에 소재한 기업인지, 글로벌 기업인지, 어떤 산업군에 속해있는지 알 수 없다. 그렇기에 이 툴은 이 이름 모를 기업 하나의 조직문화 개선을 위해서만(넓게 봤을 때는 이 기업과 유사한 특성을 지니는 기업까지. 그렇지만, 그것을 알 수 있는 방법은 없다.) 사용하기 적합하다고 추측할 수 있을 따름이다.
한국기업과의 연결성을 만들기 위해 조금 더 욕심을 내봤다. 인사 담당자들은 퇴사를 막으려고 노력하기도 하지만, 때로는 인력 효율화라는 이름으로 퇴사를 종용하기도 한다. 이 때 퇴사율은 ‘기업 성과’에 어떤 영향을 미칠까?
흔히 퇴사율이 높은 조직의 분위기는 좋을 수가 없다. 대규모 해고가 있었던 기업들의 잡플래닛 평점만 보더라도 그것은 여실히 들어난다. 그렇다면 이 분위기가 조직의 ‘성과’에도 악영향을 미칠까. 여기서 성과측정 지표는 조직 부서마다 다르겠지만, 우리는 데이터를 얻기 쉬운 성과지표인 ‘매출’을 성과로 산정했다.
분기별 기업 매출 데이터는 전자공시시스템(DART)에서 확인 가능하다. 기업의 고용인원과 입퇴사자 숫자와 관련된 데이터는 국민연금공단의 데이터를 통해 확인 가능하다. 우리는 전자공시시스템에 매출이 공개된 기업 182개를 추렸다. 여기에 국민연금공단 데이터를 입혀서 16년 1분기부터 17년 3분기까지 매출과 퇴사율이 정리된 하나의 데이터셋을 만들었다. 182개 기업들의 각 데이터를 4명의 팀원이 분담하여 일일이 정리하고 취합하는 고된 작업이었다.
우리는 이 데이터셋을 통해 전분기의 퇴사율이 다음 분기의 매출증감율에 영향을 미치는지 알고 싶었다. 가령 16년 2분기에 구조조정이 있어 약 60%의 퇴사율이 발생한 기업의 16년 3분기 매출은 과연 어떨까. 높은 퇴사율은 기업의 매출에도 부정적인 결과를 가지고 올 것이라는 게 우리의 가정이었다. 단순히 분위기의 문제는 아니다. 퇴사와 함께 새로운 직원을 채용하더라도 새로 합류한 직원 교육에 있어 시간이 소요될 것이기에 매출에도 악영향을 미칠 것이라는 판단이었다.
결론부터 말하자면 전분기 퇴사율과 매출증감율은 상관관계가 존재하지 않는 것으로 나타났다. 데이터만 보자면 퇴사율은 매출에 영향을 주지 않았다. 물론 여기에는 분석 자체가 틀어져 있을 가능성이 있다. 우리가 분석에 활용한 원본 데이터 자체가 맞지 않을 수 있기 때문이다.
이 부분을 확인한 것은 우리 회사의 데이터를 통해서였다. 내가 알고 있는 퇴사자와 입사자의 숫자와 입퇴사 시점이 맞지 않았다. 정부 데이터라는 건 각 회사 담당자의 신고에 맞춰 반영될 터인데, 신고 시점과 실제 퇴사 시점이 달랐기에 차이가 나타나지 않나 생각해본다.
그리고 우리는 단 3개월에 불과한 분기 데이터를 비교, 분석하여 결과를 산정했다. 이런 상황에서 1-2개월의 시점 차이는 결과 자체를 왜곡할 수 있는 요소다. 잘못된 원본 데이터 분석에 대한 맹신은 꽤 큰 파급을 가지고 올 수 있겠다는 생각을 해봤다.
우리의 프로젝트는 이렇게 마무리됐다. 한정된 8주라는 시간 안에서 꽤 많은 실패를 반복했고, 완성된 결과도 부족한 점이 많았다. 그럼에도 한 가지 교훈은 있었다. 만약 일정 규모 이상을 갖춘 기업의 각 부서에서 적합한 HR 데이터를 수집할 수만 있다면. 이러한 방법론에 대한 고민이 기존 주먹구구식으로 이루어지던 인사 시스템을 바꿀 수 있는 계기가 되지는 않을까.
실제 IT기업을 중심으로 HR 데이터 활용에 대한 연구는 계속되고 있다. 구글이 그 대표격인데, 말하자면 길어지니 <구글의 아침은 자유가 시작된다>라는 책의 일독을 권한다. 국내에서도 카카오의 파이랩(PILAB, Peole & Innovation Lab)과 같은 조직들이 HR과 관련된 데이터를 연구하며, 정성적인 인사 프로세스를 정량적으로 바꾸고자 하는 노력을 계속하고 있다.
5편의 연재를 통해 HR 이야기를 했지만, 본업에 대한 이야기를 잠깐 해보겠다. 내가 지금 소속된 산업군인 언론은 콘텐츠 생산과 유통에 ‘데이터’를 활용할 수 있을까. 시쳇말로 뜨는 콘텐츠를 정량적으로 분석할 수 있을까. 더 나아가 콘텐츠로 얻어지는 누군가의 정성적인 이익을 정량적으로 측정할 수 있을까. 이를 기반으로 ‘콘텐츠’를 판매하는 선순환 구조를 만들 수는 없을까.
우리 이야기를 하자면, 기껏해야 페이스북 참여도(좋아요, 공유, 댓글)가 ‘조회수’에 긍정적인 영향을 미친다는 뻔한 이야기만 할 수 있는 정도다. 물론 ‘제목’, ‘시의성’, ‘콘텐츠 가공 방식’과 같은 요인들도 조회수에 영향을 미친다. 근데 그건 그냥 내 생각이다. 감으로 그렇다 생각할 뿐 그것을 측정할 수 있는 ‘데이터’와 분석 방법론을 우리는 갖고 있지 않다. 비단 우리만의 이야기일까. 국내 언론 중에 데이터로 콘텐츠의 성패를 파악할 수 있는 곳이 몇 군데나 있을까. 생각이 많아진다.
언론의 광고 수익모델은 날로 힘을 잃어가고 있다. 가성비가 떨어지기 때문이다. 더 많은 사람들이 보는 채널이 널려있다. 같은 돈이면 페이스북이나 네이버에 광고 태우는 것이 훨씬 효율적이다. 이것을 모르는 광고 담당자는 없을 것이라 생각한다.
그럼 기업들은 왜 언론 광고를 하는가. 애초에 목적 자체가 다르다. 기업의 매출 증진보다는 ‘관계’를 사는 것을 목표로 한다 생각한다. 어떤 기업이라도 위기는 온다. 그런 상황에서 광고라도 들어가 있으면 조금은 덜 아프게 기사가 나가진 않을까. 어떤 상황에서 홍보 담당자들이 언론사 데스크에 전화를 걸며 득달같이 달려오는지. 우리는 그것을 기억해야 한다. 막말로 언론 광고는 광고가 아닌 ‘보험’이다.
언론사가 ‘콘텐츠’로 돈을 버는 것은 참 어렵다. 공짜 콘텐츠가 난립하는 세상 속에서 언론사들이 어떻게 살아왔는지, 그리고 그게 어떤 결과를 가지고 왔는지 우리는 기억한다. 이런 상황에 ‘데이터’가 활로를 제시해줄 수는 없을까. 합리적으로 콘텐츠에 대한 과금을 할 수 있는 정량적인 지표를 확보한다면. 그것으로 기업 혹은 개인고객을 유인할 수 있다면. 당당하게 콘텐츠로 돈을 버는 환경을 만들 수 있지는 않을까.
이걸 찾는 게 나에게 주어진 앞으로의 과제다. 사실 얼리버드에서 데이터과학 스터디를 시작했던 이유도 이것 때문이었다. 물론 그 답은 아직도 찾지 못했지만 말이다. 꽤 긴 시간이 될 것 같다.
(연재) 물류기자의 데이터사이언스 도전기
Special Thanks : 얼리버드 프로젝트팀(엄지용, 이인영, 김진, 양동욱)
0. '얼리버드'가 무엇인고 하니
1. 물류기자의 데이터사이언스 도전기
2. 기본의 쓴 맛, 프로젝트팀에 참여하기까지
3. HR프로젝트팀 발족 "무엇이 공무원의 성과를 이끄는가"
4. 데이터로 공무원의 성과를 만드는 동기요소 찾기
5. 퇴사는 기업 성과에 악영향을 미칠까