파생변수
본인이 HR로 직무를 이동하고 가장 처음 한 일은 임직원들에게 의학정보에 대한 교육을 기획하고 운영하는 일이었다. 그러다 보니 의학정보에 대해 공부해야 하는 경우가 많고 제약산업에 대해 지속적으로 관심을 가져야 하는데 제약 바이오산업은 알면 알수록 재미있는 곳으로 특히 신약개발은 제약회사의 꽃이라고 할 수 있다. 실제로 제약회사의 최대 사회공헌은 신약개발을 통해 인류에게 건강과 행복을 선물하는 것이다.
하지만 신약개발이라는 것이 말처럼 쉽지는 않다. 지금까지 우리나라는 1999년 sk케미컬의 선플라주 1호 신약 이후 총 33개의 신약을 허가받았다.(2021년 7월 기준) 대부분의 제약회사들이 매년 매출액의 10% 정도를 R&D에 쏟아붓는 것에 비하면 매우 적어 보일 수 있는 수치이다. 그 마저도 2020년 기준으로 국내에서 100억 이상의 매출을 보인 제품은 7개뿐이며 가장 매출이 높은 LG화학의 당뇨치료제 ‘제미글로’ 또한 1000억이 넘지 않는다. (참고로 세계에서 가장 매출이 높은 제품으로 애브비사의 자가면역치료제 ‘휴미라’는 연간 약 23조 원의 매출을 보이고 있다.)
그러다 보니 이미 개발된 신약도 다른 효능을 찾으려 하거나 이미 만들어진 다른 성분을 합쳐 복합제를 출시하기도 한다. 실제로 전문의약품 중 잘 알려진 화이자의 ‘비아그라’ 역시 처음에는 협심증 치료제로 개발했지만 기존 협심증 치료제보다 효과가 약해 고민하던 중 부작용으로 인해 발기부전 개선에 효과가 있는 것을 발견하고 용도를 변경한 후 블록버스터 제품이 되었다. 뿐만 아니라 비아그라는 고산병을 치료하거나 난임 여성을 돕는데도 사용되고 있다.
이렇듯 여러 의약품들은 다른 효능을 찾거나 다른 의약품과의 복합제를 통해 더 큰 가치를 창출하려 하는데 이런 변신은 데이터 분석에서도 예외는 아니다. 오늘은 데이터가 변신하는 파생변수에 대해 이야기해 보겠다.
파생변수란?
기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미한다. 예를 들어 어떤 집단의 신장과 체중이 있을 때, 두 변수를 사용하여 BMI라는 새로운 변수를 만들 수 있는데, 이 변수를 파생변수라고 한다.
“우린 분석할 데이터가 없어” 전에도 이야기하였듯 많은 조직은 분석을 하고 싶어도 데이터가 분석을 할 수 없는 상태로 존재하는 경우가 많다. 하지만 어려운 상황에서도 누군가는 비범한 분석을 하는데 People Analytics든 마케팅이든 분석이 가능한 상태의 데이터를 제대로 바라보는 것은 제로 베이스라고 할 수 있다. 이 마저도 하지 못하는 것은 마이너스 상태이며 무의미한 데이터 속에서 의미를 만들어내는 것이 플러스라 할 수 있다. 그렇다면 어려운 상황에서도 비범한 분석을 할 수 있는 몇 가지 사례를 예시로 설명해 보겠다.
먼저 임직원들의 주소를 통해서도 좋은 분석을 할 수 있다.
아마 거의 모든 기업의 HR시스템에 임직원 주소가 기입되어 있을 것이다. 그렇다면 이 데이터를 가지고 무슨 분석을 할 수 있을까? 여러분도 예상하였듯 출퇴근 소요시간이라는 데이터를 만들 수 있다. 특히 우리나라는 대중교통 API가 잘 구축되어 있어 퀄리티 높은 데이터를 만들 수 있는데 해당 데이터를 통해 지점배치 및 사무실 이전에 따른 효과, 거점 오피스나 통학버스 운용에도 활용할 수 있다. 최근 치솟는 주택가격으로 인해 결혼 후 점점 서울 외곽으로 이사를 가게 되는 경우가 많은데 실제 우리 임직원들의 출퇴근 시간이 어떻게 변화되고 있는지에 대한 데이터도 재택근무나 거점오피스, 그리고 통학버스 운용 등에 활용할 때 중요한 데이터가 될 수 있다. 또한 성과나 퇴사와 관련하여 통학시간이 어떠한 영향을 미치는지도 증명할 수 있다면 재택근무나 거점오피스 같은 제도 도입에 데이터가 큰 힘을 더해 줄 것이다.
다음으로 많은 기업들이 쌓고 있는 출퇴근기록 또한 그 조직을 바라볼 수 있는 기회를 제공한다.
단순히 출퇴근 기록 그 자체로는 의미가 없을 수 있지만 이 데이터를 통해 평균근로시간, 야근빈도와 주말 근무여부 등을 뽑아내는 것은 기본이고 팀 문화도 살펴볼 수 있다. 예를 들어 A라는 조직은 관리자가 있을 때에는 팀원들이 항상 자리를 지켜야 하는 조직이라고 가정해 보자 또한 B라는 조직은 시니어에서 주니어로 갈수록 근무시간이 길어진다고 가정하고 C라는 조직은 이러한 것과 무관하게 자율적으로 출퇴근하는 문화라고 가정해 보자. 이렇듯 출퇴근 시간으로 조직을 A, B, C 그룹으로 나누어 살펴본 후 집단을 시니어와 주니어로 더 나누고 성과 또는 퇴직 관련 데이터와 함께 의사결정나무(Decision Tree)로 바라본다면 이 정도 변수로도 멋진 분석을 할 수 있을 것이다.
지금까지 People analytics에서 파생변수가 가지는 매력에 대해 이야기해 보았다. 이렇듯 PA에서 파생변수는 사람과 조직에 대한 본질적인 이해가 뒷받침될 때 좋은 변수를 뽑아낼 수 있다. 즉 파생변수는 도메인지식과 데이터 분석이 만났을 때 피어날 수 있는 데이터분석의 꽃이라 할 수 있다.
꽃 - 김춘추
내가 그의 이름을 불러 주기 전에는 그는 다만 하나의 몸짓에 지나지 않았다.
내가 그의 이름을 불러 주었을 때 그는 나에게로 와서 꽃이 되었다.
내가 그의 이름을 불러 준 것처럼 나의 이 빛깔과 향기에 알맞은 누가 나의 이름을 불러다오.
그에게로 가서 나도 그의 꽃이 되고 싶다.
우리들은 모두 무엇이 되고 싶다.
너는 나에게 나는 너에게 잊히지 않는 하나의 눈짓이 되고 싶다.
데이터도 우리에게 이렇게 말하고 있다.
해당 글은 2021년 인살롱에 게시되었습니다.