4.3.1 팅커링과 린스타트업 인사이트

, 그리고 데이터를 바라보는 관점

Oct 30. 2022

Ben E. King - Stand By Me (Official Vinyl Video)

린스타트업 방법론의 핵심은 현실화 목표 관리의 맥락을 구체적으로 이해하는 데 도움이 되고 특히 우리가 현실화 목표를 추구하는 과정에서 경계해야 할 것이 무엇인지를 알려준다는 측면에서 조금 구체적으로 그 맥락을 탐구해볼 필요가 있습니다.

핵심가설 세우기

린스타트업에 따르면 다분히 무작위적인 시장에 진출하려는 기업은 우선적으로 제품에 대한 ‘핵심 가설’을 세워야 합니다.

사실 모든 사업은 그들의 비전(북극성 목표)을 향하고 있는 몇 가지 가설로 시작합니다. 주어진 가정을 토대로 만든 전략을 펼치고 회사의 비전을 어떻게 실행할지 보여주며 나아갑니다.

가설은 사실로 증명되지 않았고 사실 잘못될 때도 있으므로 기업은 이 가설을 세우는 데 장시간 고비용을 들이기 보다는 ‘가설을 테스트해 배운다’는 팅커링 루프에 초점을 맞춰야 합니다.

핵심 가설을 세울 때 기업이 고려해야 할 것은 [가치 가설]과 [성장 가설]입니다.

새 제품이나 서비스를 이해하는 첫 단계는 그것이 근본적으로 사용자로부터 어떤, 얼마만큼의 가치를 창조하는지를 알아내는 것입니다.

동시에 고려해야 하는 것은 [성장가설]입니다. 이는 기업의 생존 차원에서 제품이나 서비스가 얼마만큼의 성장을 가져다 줄 수 있을 것인가에 대한 가설이기도 합니다.

단 성장가설을 세울 때는 전통적인 회계기준에 의한 것이어선 안됩니다. 동시에 성장(ex. 매출상승, 이용자 수 증가 등)에 매몰되어 궁극적으로 가치를 파괴하는 것이 되어서도 안됩니다. 예컨대 투자자로부터 계속 투자를 받고 많은 유료 광고를 해 외형적으로는 성장하지만 사실상 가치 창조적인 제품을 개발하지 못하는 사업이 그 예가 될 수 있습니다. 가설 수립 시 또 중요한 것은 ‘탁상공론’과 ‘무 개념 실행’ 양쪽 모두를 경계하며 균형을 찾는 것입니다. 어떤 조직은 계획을 끝없이 정교하게 하고 발전시키느라 정작 현실과는 괴리된 ‘문서 상의 유토피아’를 구축하고 여기에 이미 수많은 시간과 비용을 낭비하는 경우가 많습니다. 또 어떤 조직은 ‘그냥 일단 해보자’에 치우쳐 시장과 상황을 분석하고 방향성을 수립하는 노력을 제대로 기울이지 않아 시도에서 유효한 학습을 도출하지 못한 채 밑빠진 독에 물붓기만 계속하는 경우도 있습니다. 핵심 가설을 수립할 때 우선적으로 해야 할 것은 문서상의 수치보다, 조직이 진출하고자 하는 시장의 잠재 고객을 찾아 그들의 목소리를 듣는 것이 되어야 합니다.

최소요건 제품 만들기(MVP: Minimum Viable Product)

제품에 대한 핵심가설을 세웠다면 다음은 그것을 신속히 제품화해 테스트하는 것입니다. 이때 제품은 완벽할 필요가 없습니다. 오히려 신속히 시장에 테스트하기 위해 최소 요건만 갖춘 제품-MVP, minimum viable product-을 만드는 것이 좋습니다. MVP는 조직이 가능한 빨리 학습과정을 시작하는 데 도움이 됩니다. MVP는 상상할 수 있는 가장 작은 제품이라기 보다는 최소의 노력으로 팅커링 루프 순환을 가장 빨리 돌 수 있는 수준의 제품을 의미합니다. 전통적인 제품 개발에서는 대개 길고 신중한 계획이 포함되고 완벽한 제품을 만들려 애쓰는 반면 MVP의 목적은 학습과정을 시작하는 것이지 끝내는 것이 아닙니다. MVP는 시제품 테스트가 아니라 근본적인 비즈니스 가설을 테스트하는 것입니다.

드롭박스(Dropbox)는 클라우드 기반의 파일 공유 어플리케이션을 만드는 회사로 기업가치가 약 100억달러에 달합니다. 이회사의 제품 애플리케이션을 설치하면 드롭박스 폴더가 컴퓨터 바탕화면에 나타납니다. 그 폴더에 아무거나 끌어다 놓으면 드롭박스 서비스에 자동으로 업로드되고 나서 즉시 사용자의 모든 컴퓨터와 기기에 복제됩니다. 사실 파일 공유 제품, 서비스는 이미 존재한 상황입니다. 다만 드롭박스의 핵심 가설은 그것이 ‘신속하게 이뤄질 때’, 즉 속도 측면에서 뛰어난 고객 경험을 제공하는 것이 가치 있을까? 하는 것이었습니다. 이 것은 단지 포커스 그룹에 묻거나 대답을 기대할 수 있는 성격의 것이 아니었습니다. (대부분은 그것이 구체적으로 어떤 느낌이고 어떤 방식인지 상상하지 못했다. 드롭박스의 최선은 그것을 만들어 보여주는 것이었지만 드롭박스의 비전은 말그대로 고도의 기술적 어려움을 해결하는 것이었기 때문에 단기간에 제대로 동작하는 시제품을 만드는 것은 어려웠습니다. 아무도 바라지 않는 제품을 개발하느라 수년을 허비하고 싶지 않았던 드롭박스 창업자 드루 휴스턴(Drew Houston)은 매우 간단히 이 문제를 해결했습니다. 3분짜리 비디오를 만든 것입니다. 휴스턴은 얼리어답터 커뮤니티를 대상으로 자신들의 서비스가 마치 실제 구현된 것처럼 파일 공유가 매끄럽게 작동하는 비디오를 보여줬습니다. 베타버전의 대기명단이 하룻밤 사이에 5000명에서 7만 5000명이 되는 것을 보고 드롭박스는 핵심가설의 타당성을 확보할 수 있었습니다.

어느덧 기업가치 1,000억달러를 상회하는 거대 숙박공유기업 에어비앤비(AirB&B) 역시 시작은 매우 가벼운 MVP로 핵심가설을 검증했습니다. 2007년, 브라이언 체스키(Brian Chesky)와 죠게비(Joe Gebbia)는 사업을 시작하고 싶었지만 샌프란시스코의 아파트 월세를 내기도 어려운 상황이었습니다. 당시 미국 산업 디자인 협회(IDSA) 콘퍼런스가 다가오고 있었고 그들은 이 기간 중 저렴한 숙소가 충분하지 않다는 것을 깨달았습니다. 그들은 일단 월세라도 어떻게 해결해보자는 의도로 인근 호텔을 구하기 어려운 컨퍼런스 참가자들을 대상으로 자신들의 아파트 거실을 제공하기로 마음을 먹었습니다. 간단한 블로그 스타일로 인터넷 예약을 가능하게 하자 곧 세 명의 유료 손님이 나타났습니다. 임시로 에어 매트리스를 설치하고 아침을 제공해 월세 문제를 쉽게 해결할 수 있었습니다. 잠재 고객과 바로 옆에서 지내면서 체스키와 게비아는 잠재고객이 원하는 것에 대한 통찰을 얻었습니다. 거주공간 공유가 사업 기회라는 것을 인식한 두 친구는 2008년 풀네임(airbreadandbreakast.com)으로 사업을 시작했습니다. 첫 시작 역시 허술했습니다. 하지만 꾸준히 사용자 피드백과 경험을 반영했고 그 결과 점차 매우 효과적이면서도 세련된 애플리케이션으로 진화했습니다.

일련의 MVP는 컨시어지 MVP라 불립니다. 호텔에 가면 컨시어지(Concierge) 코너가 있습니다. 고객들의 여행 관련 교통편, 식당 예약, 각종 안내 서비스를 포괄적으로 간략히 제공해 주는 것을 말합니다. 서비스를 출시하더라도 초기부터 수요가 급증하는 경우는 별로 없습니다. 그렇기에 처음부터 모든 것을 다 개발해서 자동화할 필요는 없습니다. 겉으로 자신이 무엇을 하려하는지를 잠재고객에게 보여줄 수 있는 수준이면 충분합니다. 에어비앤비는 자신의 핵심가설 정도를 확인할 수 있는 컨시어지 서비스를 통해 다음 두 질문(앞서 목표와 ‘문제’의 맥락에서 폴 그레이엄이 던졌던 질문)에 대한 답을 얻을 수 있었습니다.

- 누가 이것을 지금 당장 원할까?

- 누가 이것을 듣도 보도 못한 이름없는 2명짜리 회사가 갓 만든 엉성한 버전임에도 불구하고 그렇게 원할까?

[Insight] MVP와 품질의 딜레마

실제 기업현장에서 제품을 만드는 조직을 보면 MVP를 만드는 과정에서 ‘품질’을 두고 의외로 많은 갈등이 벌어집니다. 실제 조직 내 최고의 기술 전문가, 장인들이 있는 경우에는 더 그렇습니다. 제품의 프로토타입을 만듦에 있어서 종종 전문가들은 ‘그럼에도 불구하고’ 제품의 코드 퀄리티가 엉성하거나, 디자인이 허술하거나 하는 부분을 그냥 허용한 채 그 제품이 시장으로 나가는 부분에 있어서 매우 민감한 경우가 많습니다. 사실 그도 그럴 것이 엉성한 작업이 과정에 들어오면 필연적으로 (훗날) 변화와 고생을 야기합니다. 그것은 고객 눈에도 들어올 것입니다. 때문에 이들은 ‘그럼에도 불구하고’ 고품질 경험을 처음부터 만들어야 한다고 주장합니다.

하지만 품질에 대한 이런 논의는 회사가, ‘고객이 가치 있다고 인식할 제품 속성을 이미 알고 있다고 확신’하는 경우입니다. 하지만 스타트업에서 이는 위험한 가정입니다. 시장, 고객이 정확히 누구인지 모를 때가 있기 때문입니다. 린스타트업에서는 다음과 같은 품질 원칙을 믿습니다.

"고객이 누구인지 모른다면 우리가 집중해야 하는 품질도 무엇인지 모른다."

눈에 보이는 디자인적 미학이나 백엔드 차원의 코드 퀄리티는 궁극적으로 모든 제품의 품질에 포함되는 교집합이겠지만 그것은 오히려 ‘배움의 시작’ 단계에서는 (너무 당연하기에) 중요하지 않은 부분일 수 있습니다. MVP의 핵심은 비즈니스의 핵심가설을 확인하고 배운다는 측면에서 핵심 질문에 대한 답을 잠재 고객으로부터 신속하게 얻는 것이 무엇보다 중요합니다. 더욱이 그 과정에서 기능과 미적 구현 방향성마저 바뀔 수 있기 때문에 제품 초기단계에서는 ‘확인하고자 하는 질문’에 초점을 맞추는 것이 다른 그 무엇보다 중요합니다.

MVP는 가설을 테스트하는 용기가 필요합니다. 고객이 기대한 대로 반응한다면 그것은 가설이 어느정도 일리 있다는 확신으로 받아들이면 됩니다. 만약 초라한 디자인으로 제품을 출시했는데 초기 고객이 그로 인해 ‘실제로’ 제품의 사용성 자체에 비판적인 피드백을 하고 사용하지 않는다면 그것은 ‘거봐 내가 뭐랬어’라 내부 전쟁을 할 것이 아니라 반대로 뛰어난 디자인에 투자할 필요가 있음을 확인하는 것입니다.

린스타트업은 고품질 제품을 만드는 것을 반대하는 것이 아니라 다만 실제 고객이 생각하는 최우선 품질이 무엇인지를 확인하고, 고객을 끌어들이는 목표를 우선시하는 철학을 가진 방법론입니다. 가능한 제품의 본질, 핵심 가설에 집중해 되도록 빨리 유효한 학습을 시작하는 것으로 의사결정의 무게중심을 옮기자는 것입니다.

측정하고 만들기를 반복하기(Feat. 정량과 정성의 반복)

MVP 제품을 통해 출발선을 설정하고 나면 이를 학습의 기준점 삼아 제품을 개선해야 합니다. 이때는 만들고-측정하고-회고하는 과정을 반복함으로써 제품을 점진적으로 발전시켜 나갑니다. 이 과정은 앞서 소개한 집안에서 손목시계 찾기, 혹은 난파선 찾기 예로 잠시 돌아가봅시다. 우리가 손목시계, 혹은 난파선을 찾을 확률을 높이기 위해서는 먼저 찾은 곳이 ‘명확하게 손목시계가 없다는 것’을 제대로 확인해야 가능합니다.

이처럼 MVP제품을 배움을 시작점으로 내놓았을 때 다음으로 우리가 초점을 맞춰야 할 것은 이것이 반드시 ‘유효한 학습’이 되도록 하는 것입니다. 유효한 학습을 위해서 최우선적으로 경계해야 할 것이 있습니다. 바로 ‘확증 편향’입니다. 이는 사업 초기 신념에 가득 찬 조직이 빠지기 매우 쉬운 함정입니다. 다음은 어떤 제품개발 팀 리더의 인터뷰입니다.

“제품의 실패를 경험하기 전, 우리는 잠재 고객과 대화를 나누면 우리가 맞는 길을 가고 있다는 확신이 쉽게 들었습니다. 그런데 이를 되짚어 보면 그 시기 우리들은 고객들을 회사로 초대해 포커스 그룹 인터뷰와 사용성 테스트를 한 다음 부정적인 피드백은 은연중에 무시했습니다. 어떤 고객이 우리 서비스를 사용하고 싶어하지 않으면 단순히 우리의 대상 고객이 아니라고 생각했습니다. 어느 순간 우리는 우리 서비스를 좋아해줄 만한 혹은 좋아할 수 밖에 없는 사람-제품 개발 관계자의 가족 등-을 찾아 피드백을 얻고 있었고 점점 제품은 시장의 현실과 멀어졌습니다.”

특히 ‘제품’을 다루는 영역에서 가능한 객관적일 수 있는, 측정 가능한 데이터 수집을 강조하는 맥락이 여기에 있습니다. 제품에 대한 시장 데이터는 때로 조직의 확증 편향을 교정할 수 있는 강력한 객관적인 도구가 될 수 있기 때문입니다. 『린스타트업』의 에릭리스(Eric Ries)는 이 지점을 강조하며 제품 조직은 적절한 데이터가 있을 때 고객과의 생산적인 상호작용을 통해 유효한 학습을 ‘근거 기반’으로 진행할 수 있다고 주장합니다.

“데이터를 손에 쥐고 나서부터는 고객과의 인터랙션이 바뀌었습니다. 대답을 들어야만 하는 중요한 질문이 너무 많았습니다. 왜 우리가 만들어내는 제품 ‘개선’에 고객들이 반응하지 않는 것일까? 왜 노력이 성과로 돌아오지 않은 것일까?’ 데이터를 통해 우리가 무엇을 봐야 하는지 알게 되자 상황을 훨씬 빨리 이해하게 되었습니다.”

에릭리스(Eric Ries)에 따르면, MVP이후의 유효한 학습 과정은 정량적인 나쁜 성과로부터 실패를 인정하고, 정성적인 연구를 위한 동기, 상황, 여지를 만드는 과정과도 같습니다. 이러한 활동에서 새로운 아이디어 즉 새로운 가설을 만들어 내고 실험을 하고 이를 통해 방향을 좀 더 나은 방향으로 수정합니다. 그리고 이 패턴을 반복하는 것입니다.

그런데 여기서 다시 우리가 주의해야 할 것이 생깁니다. 우리의 인식 오류는 단지 ‘정량 데이터’를 수집하는 행위 만으로 해결되지 않습니다. 그리고 다수의 기업이 이 지점에서 오히려 길을 잃고 가장 중요한 ‘열망’마저 잃는 경우를 많이 봤습니다. 단지 데이터를 수집하는 행위, 그리고 목표를 정량화 하는 행위 자체만으로 제대로 된 객관적인 통찰을 얻을 수 있는 것은 아닙니다. 그것은 무엇보다 ‘어떤 데이터를 어떻게 해석하고 활용할 것인가’에 대한 제대로 된 고민이 수반되어야 가능한 것입니다. 우리가 정량적 데이터를 충분히 수집할 수 있는 환경에 있다하더라도 정작 의사결정, 유효학습을 위해 정확히 어떤 데이터를 봐야 하고 그 데이터를 어떻게 해석해 다음 실험에 활용할 것인지에 대해 제대로 이해하고 주의 깊게 접근하지 않는 다면, 그것은 ‘난파선을 대충 찾아 먼저 거쳐간 곳에 사실상 난파선이 있을 수도 있는’ 난감한 상황을 만드는 것과도 같을 것입니다.

그런데 이미 수많은 조직과 기업이 그러한 난감한 상황에 처해있는 것으로 보입니다. 목표의 가장 본질인 ‘좋은 욕망’을 자극하는 것보다 맹목적으로 ‘측정’을 강조하는 조직, 그런데 그 측정을 너무 강조하다 못해 정확한 측정이 어려운 목표에서조차 억지로 이를 만들어 본말을 전도하는 조직, 잘못된 지표를 목표로 삼고 가다 결국 조직적인 착각과 갈등으로 침몰하는 조직 등 ‘측정의 함정’에서 방향을 잃는 조직이 이미 매우 많습니다.

제품과 서비스를 시장에 내놓았을 때 그로부터 얻을 수 있는 데이터는 매우 많습니다. 예를 들어 여러분이 디지털 웹/앱 제품을 만들었다면 단순 방문 수, 회원 가입 수, 로그 인 수, 이탈 율, 일간 활성 사용자 등 ‘객관적인 데이터’는 쉽게 수집할 수 있습니다. 그런데 진짜 문제는 여기서 부터 입니다. 우리가 수집할 수 있는 모든 데이터가 우리 제품과 조직에 유효할까요?

아래는 어떤 IT 서비스 제품에 대한 동일한 데이터를 나타낸 그래프입니다. 먼저 왼쪽은 제품의 전체 회원 수와 전체 유료 회원 수의 누적그래프를 나타냅니다. 이렇게 살펴보면 제품을 잘되고 있는 것처럼 보입니다. 마치 급성장하는 회사들이 공통으로 보여주는 지수적 성장 그래프를 보게 되는 것입니다. 가입 고객이 늘어가는 수치를 보면서 제품 개발 팀이 엄청난 성과를 내고 있고 제품이 시장에 제대로 반응하고 있다고 생각할 것입니다. 이 누적 그래프를 보자면 매달 새로운 고객이 유입되고 투자에 대한 이익이 발생한다고 생각할 수 있습니다.

전체 회원, 유료 회원 수의 누적 그래프[1]

유저 행동에 대한 코호트 분석 그래프[2]

하지만 동일한 데이터를 좀 다르게 봅시다. 그것이 아래 그림입니다. 이는 코호트 형태로 데이터를 재구성한 그래프입니다. 코호트 분석(cohort analysis) 이는 전체 매출이나 전체 사용자 같은 누적 데이터를 보는 것이 아니라 특정 사용자 그룹의 결과를 보는 것입니다. 색이 같은 그룹이 동일 코호트라고 보면 됩니다. 이 그래프는 각 달에 가입한 제품 사용자의 코호트 별 전환율을 보여줍니다. 각 전환율은 그 달에 가입한 사용자 중 특정 활동을 수행한 사용자 비율을 의미합니다. 예를 들면 2005년 5월에 가입한 제품 사용자 중에서 약 50.5% 사용자가 서비스에 최소한 한번 이상 로그인했음을 보여줍니다.

이 코호트 그래프로 다시 추이를 봅시다. 그럼 이야기가 좀 달라집니다. 제품에 새로운 고객들은 계속 들어오고 있지만 코호트 그룹에서 성과는 없다는 것을 알 수 있습니다. 일부 제품 개선을 통해 최소 다섯번 서비스를 이용한 고객 비율이 처음에는 5% 미만에서 20% 가까이 늘어나긴 했지만 정작 유료 고객 비율은 계속 약 1%에 머물러 있는 것을 볼 수 있습니다. 이에 대해 생각해봅시다. 몇 달간 수천 가지 개선 사항을 구현하고, 수많은 비용과 노력을 기울였음에도 유료 고객 비율은 거의 변하지 않은 것입니다. 이 데이터는 제품에 대해 좀 더 정확한 진실을 이야기해주고 있습니다. 제품은 문제없이 성공하고 있는 것이 아니라 실패하고 있다는 것을.

이 데이터는 에릭리스(Eric Ries)가 기업을 운영하던 시절 스스로 경험했던 중요한 실패사례입니다. 그는 초기 왼쪽과 같은 총 고객 수 지표를 목표삼아 측정하고 제품에 아무런 문제가 없다고 착각했습니다. 이것이 데이터 기반의 측정과 개선 시 주의해야 할 가장 중요한 함정입니다.

경영자 혹은 사업 추진자들은 우리 제품이 성공적이라는 것을 보여주고 싶다는 충동에 사로잡힌 나머지 실제 현실을 나타내는 데이터, 지표를 찾으려 하기 이전에 우리의 믿음을 ‘확인’시켜 주는 데이터에 무의식적으로 더 끌립니다. 보고자 역시 좀 더 그렇게 보이는 데이터를 찾고 가공하는데 많은 노력을 기울입니다. 때로는 아무 생각 없이 가장 보편적이고 그럴듯한 데이터를 찾아 목표, KPI에 집어넣습니다. 이는 아무런 소용없는, 오히려 조직을 망칠 수 있는 ‘허무 지표 (vanity metrics)’에 다름아닙니다.

목표의 현실화를 위한 실험을 추구하고, 또 그를 위해 객관적인 정량 데이터 수집 및 분석을 통해 객관적인 상황을 보려 하는 조직이 첫 단계에서 해야 할 일은 이 ‘허무 지표’를 철저히 경계하고 집중해야 할 본질적인 지표가 무엇인지 제대로 파악하는 것입니다. 예컨대 제품에서 본질적인 지표가 무엇인지 알려면 제품의 핵심 가치를 경험하는 사용자와 가장 직접적으로 연관되는 활동을 찾아야 합니다. 이는 제품과 서비스의 성격에 따라 다르다는 측면에서 무분별한 벤치마킹도 경계해야 합니다.

한 때 IT 제품/서비스에서 ‘일간 활성사용자’는 대부분의 기업이 추구해야 할 본질적인 현실화 목표라고 여겨졌습니다. 실제 이는 페이스북과 같은 사업에는 매우 중요합니다. 하루 동안 페이스북을 방문하는 횟수에는 거의 제한이 없고 한계가 있더라도 엄청나게 높기 때문이며 광고기반 수익 모델은 이 사이트에서 상당한 시간을 보내는 많은 사용자가 있다는 것을 전제로 하기 때문입니다. 그러나 이렇게 한회사의 성장의 핵심지표가 다른 회사에는 무용지물일 수 있습니다.

일례로 에어비앤비(Airbnb)처럼 여행 서비스를 제공하는 회사에게 일간 활성 사용자는 지표로서의 의미가 전혀 없습니다. 사람들이 아무리 서비스를 선호하더라도 매일 같이 휴가지를 검색하고 예약하지는 않기 때문입니다. 에어비앤비(Airbnb)에서는 가장 활성도가 높은 사용자라 하더라도 일 년 서너 차례 휴가지를 예약할 뿐입니다. 일주일에 한 두번 사이트를 들르는 정도를 가장 정기적인 이용으로 보는 것이 오히려 타당합니다. 이러한 제품들은 단일 고객이 서비스를 필요로 하는 빈도의 면에서 구조적으로 분명한 한계가 있습니다. 이런 제품에 ‘일간 활성사용자’를 늘리기 위해 집중하는 것은 매우 잘못된 전략일 수 있는 것입니다.

때로는 정량적 데이터, 혹은 ‘측정’이라는 명제 자체가 허무지표가 되기도 합니다. 정량적인 데이터만이 모든 문제를 해결할 수 있다는 환상에 빠지는 경우가 그렇습니다. 맥락에 맞지 않는 영역에서조차 정량적인 형식의 현실화 목표를 강제하는 기업도 있습니다. (불행히도 이런 경우도 기업 현장에 만연합니다.)

예컨대 어떤 기업은 ‘효과적인 채용을 위해’ 최근 유행하는 OKR(Objective-Key Result) 제도를 활용한 정량적 목표를 제시합니다. 월 인당 5명 채용을 목표(Objective)로, 핵심결과(Key Result)로는 주 100개 이상 이력서 스크리닝, 5회 이상 인터뷰 성사와 같은 식의 정량 지표를 제시합니다. 정말 일련의 방식을 따르는 것이 조직에 실질적인 득이 되는 ‘효과적인 채용’일까요?

우리가 관찰한 이 조직은 목표의 층위 측면에서 추상과 구체, 문제와 문제의 영역을 유연하게 넘나들지 못한 채 ‘측정’의 벽에 갇혀 담당자가 오히려 정작 조직에 중요한 것을 생각하지 못하도록 막고 있었습니다. 진단 과정에서 목표의 맥락을 조직 구성원에게 충분히 설명하고 목표설정을 다시 이끌었을 때 전혀 다른 문제의식이 도출되었습니다. 가장 효과적인 채용이란 무엇일까? 라는 질문에 대해 ‘적합한 포지션에 적합한 인재를 채용하는 것’이라는 답이 나왔습니다.(일종의 채용의 목적, 북극성 목표라 할 수 있겠다.) 그 과정에서 채용 담당자, 나아가 인사조직 구성원은 조직 내 많은 채용 포지션이 정말 필요한 포지션인지 회의적으로 인식하고 있음이 관찰되었습니다.

정작 채용이 되어서 장기간 할 일이 없거나, 애초 약속한, 그래서 자신이 기대한 업무와는 동떨어진 업무를 하다가 회사에 실망하고 금방 그만두는 경우가 조직에 만연했기 때문입니다. 이 기업은 그간 채용 수요나 포지션에 대한 특별한 검증 없이 실무팀이 필요하다고 생각하는 포지션, 수요를 채용팀에 바로 이야기하는 구조를 가지고 있었습니다. 이 조직의 채용에 관한 목표는 사실상 채용하고자 하는 포지션이 ‘실제 적합한 포지션’인지를 검증하는 것부터 실행되는 것이 채용의 궁극적인 목적에 다가서기 위해 필요한 조치였습니다. 채용 수요를 전달하는 현장실무 조직 역시 ‘왜 그런 수요가 있는지, 혹은 그렇게 생각하는지’에 대한 진지한 검토가 내부적으로 부족한 상황이었습니다. 더욱이 이 조직엔 팀 리더를 처음 경험하는 신임리더가 많아 그들이 생각한 수요, 포지션의 역할 책임이 실제 직무 시장에서는 찾기 쉽지 않은 무리한 요구로 이어지는 경우도 많았습니다.

결국 이 기업의 채용에 대한 목표수립은 좀 더 근본적인 차원에서 조정되었습니다. 해당 조직과 인사운영, 채용 담당자가 정기/상시적으로 논의를 진행해 채용에 대한 실수요를 파악하고 그 과정에서 실제 조직에서 작동할 수 있는 포지션을 정의하거나, 채용이 아닌 대안이 있다면 문제를 함께 조정하는 것을 새로운 절차, 목표로 삼았습니다. 나머지 현실화 목표 역시 ‘정량’을 고집하기 전에 ‘문제의 본질’이 무엇인지, 그 목표가 실제 그 문제를 해결하는 방향에 놓여있는 것인지를 우선순위로 정한다음 구체화했습니다. 정량적 지표는 그 우선순위 안에서 담당자가 충분히 공감하고 맥락상 필요한 상황에서 쓰일 수 있도록 했습니다.

채용에 대한 이전의 ‘정량’ 목표는 속으로 조직 내 문제를 삭이고 주어진 과제를 기계적으로 수행하도록 자극해 오히려 담당자를 무기력하게 하거나 수동적으로 만들었습니다. 새로운 현실화 목표 수립 이후 유관 담당자들이 조직의 이슈에 직접적으로 다가서고 또 그 과정에서 유연하게 스스로의 재량을 발휘할 수 있게 되면서 이전보다 능동적이면서 포괄적으로 채용 문제를 해석하고 해결하려 하는 문화가 조성되었습니다. 변경된 목표 수립 이후 각 조직이 선형적으로 업무를 주고받던 기존 흐름에서 쌍방향의 상호작용이 발생하기 시작했습니다. 유관 담당자간 논의 과정에서 실제 채용보다는 업무 프로세스 조정, 혹은 내부 협업 부서와의 협력 및 상호 직무 맥락에 대한 이해 강화 등 다른 대안으로 문제를 해결하는 경우가 많아졌습니다. 맥락에 따라서는 포지션 혹은 포지션 내 직무기술 내용이 변경되거나, 추가 포지션 채용을 선제적으로 인사 측에서 제안하고 네트워크를 연결하는 것도 자연스러운 일이 되었습니다.

‘측정의 함정’은 영업 현장에서도 빈번히 나타나는 문제입니다. 많은 기업들은 측정이라는 명목 하에 ‘주 4 회 고객 방문’ 등과 같은 목표를 필수적으로 채택하고 있습니다. 더욱이 이런 현실화 목표를 수정하기도 힘든 구조입니다. 코로나 시대에 하루 수차례 고객을 직접 방문하기도 어려울 뿐더러 영업 지역, 상황 맥락에 따라 고객방문 자체보다는 기존 고객관리와 신규고객 확보를 위한 창의적 마케팅 활동 등과 같은 다른 노력이 훨씬 더 효과적일 수 있는 상황에서 이런 류의 ‘바꾸기 힘든, 현실과 동떨어진, 피상적인’ 정량 지표는 오히려 구성원의 거짓 행동을 유발하는 부작용을 낳기도 합니다. 방문 숫자를 채우기 위해서 방문할 필요가 없는 병원을 억지로 방문해 미팅을 하는 시늉만 하거나, 거짓으로 일지를 꾸미기까지 하는 것입니다. 방문지표가 평가, 보상 그리고 영업 마케팅 비용 할당에도 영향을 미치게끔 제도가 설계된 덕분입니다. 현실화 목표에서 중요한 것은 시행착오, 그리고 시행착오 다음의 의사결정을 위한 합리적인 근거를 마련하는 것입니다. 합리적인 근거를 마련하기 위한 도구로서 데이터가 중요할 수 있지만, 북극성 목표와 맥락에 대한 고민이 빠진 ‘측정가능한 데이터’, ‘정량 지표’ 자체가 중요한 것이 아닙니다. 측정은 현실화 목표의 중요한 수단일수는 있어도 그 자체가 목표이자 본질이 되어서는 곤란합니다.

현실화 목표를 위해 (맥락상 필요한) 데이터를 수립하고 측정하는 과정에서 우리가 또 주의해야 할 것은 ‘인과 관계의 오류’입니다. 데이터를 해석하는 과정에서 우리가 매우 빈번하게 저지르는 실수는 상관관계와 인과관계를 혼동하는 것입니다.

1999년 미국 펜실베이니아 대학교 연구팀은 2세 이하 아동을 대상으로 연구한 결과 수면 중에 불이 켜져 있었던 아이일수록 근시가 되는 비율이 높다고 발표했습니다. 『네이처』지에 발표된 이 연구 결과에 대해 당시 언론은 “불을 켠 채 재우면 아이가 근시가 된다”고 대대적으로 보도했습니다. 그런데 나중에 오하이오 주립 대학교 연구팀이 실시한 연구에서는, 이것이 단순한 상관관계임을 밝혀냈습니다. 그들의 연구에 따르면 부모가 근시일수록 아이가 자는 시간에도 불을 켜 놓는 일이 많았고, 부모가 근시일수록 아이가 유전적으로 근시가 되기 쉽다는 것이었습니다. 즉 수면 중에 불을 켜놓은 것이 아이를 근시로 만든 것이 아니라, 부모가 근시인 것이 수면 중에 불을 켜 놓은 것과 아이가 근시가 된 것 둘 다에 영향을 미쳤던 것입니다. 이처럼 두 개의 변수는 상관관계를 가지고 있지만 그저 우연의 일치일 뿐 서로 인과관계가 없는 경우가 많습니다. 통계학적으로는 오히려 현실에서 아무렇게나 고른 두 변수를 조사했을 때 두 변수가 전혀 관계없는 경우보다 작게라도 상관관계를 가지는 경우가 더 흔합니다.

조금 다른 경우도 있습니다. 예를 들어 어느 학자가 범죄문제에 대해 연구과제를 수행했습니다. 주요 도시의 인구 1000명당 경찰관 숫자와 강력범죄 발생빈도를 비교했는데, 앞의 데이터와 뒤의 데이터 사이에 밀접한 관계가 있음을 발견했습니다. 즉 경찰관 숫자가 많은 도시일수록 강력범죄 발생빈도가 높았습니다. 학자는 이 결과를 토대로 경찰관을 줄여야 한다고 주장했습니다. 이 학자의 주장은 무엇이 잘못됐을까요? 앞뒤가 바뀌었다고 할 수 있습니다. 경찰관이 많아서 강력범죄가 늘어난 것이 아니라 강력범죄가 많은 도시에서 경찰관을 많이 뽑은 것입니다. 이처럼 전후관계가 뒤바뀐 해석으로 오류를 낳는 경우 역시 흔합니다.

실제 우리 비즈니스 현장 역시 데이터가 있다 하더라도 그 해석이 모호한 경우가 많습니다. 원인과 결과가 뒤바뀌기도 하고 양쪽이 모두 동시에 원인이면서 결과일 수도 있습니다. 예컨대 광고와 매출에는 상관관계가 있습니다. 많은 조직은 광고를 하면 매출액이 증가한다고 생각합니다. 매출액이 증가하지 않을 땐 광고, 프로모션을 충분히 집행하지 않기 때문이라고 단정짓기도 합니다. 하지만 이 역시 사실은 제품의 속성마다 다릅니다. 어떤 제품에 대해서는 실질적인 인과관계를 형성하기도 할 수 있지만, 어떤 경우에서는 상관관계에 그치고 그보다 오히려 다른 핵심 대안이 존재하는 경우도 흔합니다. 마찬가지로 어떤 조직에서 학벌, 학점과 조직에서 발휘하는 성과에 상관관계가 있다는 결과가 나오더라도 그것이 채용에 있어 학벌이 좋은 사람, 학점이 좋은 사람을 뽑아야 하는 이유가 되는 것은 아닙니다.

상관관계가 인과관계를 어느정도 명백히 드러내더라도 이를 해석할 때는 주의해야 합니다. 흡연자가 비흡연자에 비해 폐암에 걸릴 확률이 높은 것은 사실이지만, 그것을 일반화하는 것은 문제가 될 수 있습니다. 다시 말해 흡연이 폐암발생의 유일한 원인인 것처럼 해석해서는 안 된다는 것입니다. 폐암환자 중에는 흡연을 전혀하지 않는 사람이 15%나 된다는 사실은 폐암의 원인에 흡연 뿐 아니라 여러가지가 있다는 점을 시사합니다.

이처럼 데이터가 있다는 사실 자체가 객관적 근거기반의 접근을 하는 것이 아님에도 여전히 많은 조직이 필요에 의해 자신이 보고 싶은 데이터만을 모아 임의대로 가공하고 이를 ‘전략적’, 혹은 ‘객관적’ 의사결정이라 포장하고 안위하는 경우가 너무 많습니다. 이는 때로는 데이터가 없는 것만 못한 경우를 초래하기도 합니다.

비즈니스 현장과 같은 의사결정의 열쇠가 되는 것은 인과관계이지, 상관관계가 아닙니다. 상관관계는 문제해결 과정에서 우리가 쉽게 해볼 수 있는 ‘탐색’적 과정 중 하나라는 사실을 반드시 의식해야 합니다. 탐색이라 하는 것은 불확실한 상황에서 가설을 세울 수 있는 ‘힌트’를 얻고자 함이지 탐색을 통한 상관 자체가 결론이요, 정답은 결코 될 수 없습니다. 상관관계를 여러 가능성 있는 신호 중 하나로 여기고 가설을 세워 인과관계를 검증하는 과정이 추가로 필요합니다.

두 변수의 관계가 인과관계인지 상관 관계인지를 밝히는 효과적인 검증 방법 중 하나는 무작위 비교 시행(RCT)이라고 불리는 A/B 테스트입니다. 여러분은 임상 시험이라는 말을 들어본 적이 있을 것입니다. 이는 신약의 효과와 안전성을 확인하기 위해 실시하는 테스트를 말합니다. 예를 들어 실험용 쥐를 이용한 실험에서는 병에 걸린 쥐를 ‘랜덤하게’ 두 그룹으로 나눈 다음 투약한 쥐(실험군)와 투약하지 않은 쥐(대조군)를 비교합니다. 여기서 랜덤이란 의미는 대상이 되는 쥐를 실험군과 대조군 중 어느 한쪽으로 분류할 때, 실험군에 배정될 확률이 모든 쥐에서 100퍼센트 동일한 방식을 이르는 것입니다. 랜덤, 즉 무작위 비교군 설정은 A/B 테스트의 핵심 조건입니다.

무작위 조건이 왜 중요할까요? 무작위로 나눌 경우 어느 정도의 표본 수가 확보되면 두 집단은 통계적으로 동질의 집단이 됩니다. 임의로 할당을 한다는 것은 비교집단 분류에 있어 어떤 선택 및 개입의 요소를 없애는 것입니다. 예컨대 남성과 여성집단으로 분류하거나 혹은 짝수 시간대와 홀수 시간대로 집단을 분류하거나, 첫 일주일동안 방문한 사용자와 그 다음 일주일 동안 방문한 사용자를 분류하는 등의 방식은 성별, 시간대, 기간이라는 선택적 개입 요소가 포함되었기에 임의적 할당이라 할 수 없습니다. 이렇게 임의할당된 실험군 대조군을 비교 분석해서 가설을 검증하는 것이 RCT 혹은 A/B 테스트의 기본 개념입니다. A/B Test의 결과는 통계적으로 검증할 수 있는데 여기에도 필요한 조건이 있습니다. 먼저 ‘통계적 분석에 충분한 표본 수’가 확보되어야 합니다. 그렇게 해서 분석했을 때 결과는 ‘통계적으로 유의미하나’, 혹은 ‘통계적으로 유이미하지 않다’로 이야기할 수 있습니다. 통계적으로 유의미하다는 것은 두 그룹의 차이가 우연의 산물일 화률이 약 5%이하일 때 오차나 우연으로는 설명할 수 없는 의미있는 차이가 있다는 말입니다. 반면 5%를 넘을 경우 ‘통계적으로 유의미하지 않다’고 하며 두 그룹의 차이는 오차와 우연으로 설명할 수 있다는 뜻이 됩니다.(5%라는 값은 경제학, 통계학 분야에서 오래전부터 그 기준으로 사용되어온 수치다.)

랜덤화 비교 시행은 정확히 시행했을 때 과학적 근거가 될 수 있어 유용합니다. 최근 제품개발, 마케팅 분야에서 데이터 수집 및 애드테크(ADtech) 기술의 발달로 인해 과거보다 상대적으로 현실에서 이를 접목할 수 있는 기회가 많아졌고, 그에 따라 그로스해킹(Growth Hacking) 이라는 일종의 애자일 방법론이 등장해 문화적으로 ‘근거 기반의 성장’을 추구하는 흐름을 만들어 내고 있는 것은 상당히 고무적인 일입니다. 하지만 그럼에도 불구하고 정작 현실에서 이를 엄밀한 정의로 실현하는 것은 여전히 많은 곳에서 쉽지 않습니다. 연구 대상이 되는 사람이나 회사 등을 인위적으로 램덤화해 나누는 작업은 대상의 반발이 있을 수도 있고 때로는 윤리적인 문제와 결부되어 있을 수도 있고, 당장의 현실에 영향을 미칠 수도 있는 등 여러 현실적인 문제를 안고 있기 때문입니다. 때문에 통계 과학자들은 마치 ‘결과적인 상황을 랜덤화 설정 상황’처럼 맞추는 자연실험, 이중차분법, 조작변수법, 회귀불연속 설계, 매칭법 등의 다양한 통계 기법을 활용해 인과분석의 질을 높이려 애씁니다.

그만큼 일상 현실에서 인과관계를 과학적으로 증명하는 것은 쉽지 않은 일입니다. 우리는 측정가능하고 데이터가 있는 곳, 그리고 나아가 유의미한 데이터를 가공해 분석할 가능성이 있는 상황맥락에서는 이러한 과학적 접근을 하려 다양한 형태의 조직적 노력을 기울여야 할 것입니다.(이와 관련해선 시장에 이미 많은 방법론들과 도구가 소개되어 있습니다.) 그러나 좀 더 중요한 것은 우리의 일상에서 우리가 잘못된 인과관계의 오류에 빠진 것은 아닌지를 한번 멈추어 생각하고 신중히 점검하는 ‘태도’를 습관화하는 것입니다.

우리는 어떤 문제 해결을 위한 시도를 함에 앞에서 우리가 세운 가설이 적어도 상관관계에 의한 것인지, 인과관계라 확신하는 것인지 점검이 필요합니다. 둘 사이의 관계를 확인하기 위해서는 우리는 다음을 사전 점검해보면 됩니다.

- 우연의 일치는 아닌가?

- 제 3의 변수는 없을까? 있다면 무엇일까?

- 역의 인과관계는 존재하지 않을까?

앞에서 살폈듯 세상에는 높은 상관관계를 갖는 것처럼 보여도 사실상 우연의 일치인 관계가 많습니다. 이것은 ‘거짓 상관’입니다. 우리가 우연의 일치에 의한 상관을 인과로 확신하는 것은 아닌지 늘 점검할 필요가 있습니다. 또 원인과 결과 모두에 영향을 미치는 ‘교란 요인’으로서의 제3의 변수도 있습니다. 흔히 우리는 체력이 좋으면 공부도 잘한다고 생각하는 경우가 있습니다. 그러나 체력과 공부사이에 인과관계가 있다고 단정짓기에는 성급한 감이 있습니다. 체력과 성과 모두에 영향을 비치는 제 3의 변수가 있을 지도 모르기 때문입니다. 예를 들어 전인격 교육에 대한 관심과 이해도가 높은 부모는 아이에게 스포츠를 배우게 하면서 동시에 공부, 학습에 대한 가이드도 적극적으로 주려 할 것입니다. 이런 경우 아이들의 성적을 향상시키는 것은 체력이 아니라 부모의 관심입니다. 마지막으로 검토해보면 좋을 것은 ‘역의 인과관계’ 존재여부입니다. 지역별 경찰관의 수와 범죄 발생 건수가 비례관계에 있다고 할 때 당연히 경찰관이 많다는 것이 원인이 되어 범죄 발생건수가 많은 결과를 발생시켰다고 보기는 어렵습니다. 그런데 이를 오해해 경찰관이 많으면 오히려 범죄가 발생한다고 해석하면 큰 오류를 범하는 것입니다. 두 변수가 진짜 인과관계라면, ‘우연의 일치’, ‘교란 요인’, ‘역의 인과관계’는 존재하지 않습니다. 한편 두 변수의 관계가 상관관계에 지나지 않는다면 ‘우연의 일치’, ‘교란 요인’, ‘역의 인과관계’ 중 하나가 존재할 것입니다. 상관관계의 경우 그 원인이 다시 일어나도 같은 결과를 얻게 된다고 보기는 어렵습니다.

지금은 데이터의 시대라 하지만 빅데이터가 대체로 우리에게 직접적으로 분석해 가시화시켜 줄 수 있는 것은 대체로 인과관계 보다는 ‘상관관계’에 가깝습니다. 기술의 발달과 다양한 방법론으로 인해 우리는 이를 통해 어느정도 인과관계를 확인할 수는 있지만 여전히 그것은 매우 제한적입니다. 결국 빅데이터가 우리에게 남겨주는 대부분은 다시 인간의 해석과 판단의 영역인 것입니다.

References

[1] 에릭 리스Eric Ries | 이창수, 송우일 옮김, 『린스타트업 The Lean Startup』, 인사이트, 2012, 129p

[2] 에릭 리스Eric Ries | 이창수, 송우일 옮김, 『린스타트업 The Lean Startup』, 인사이트, 2012, 122p

keyword