brunch

매거진 책과 함께

You can make anything
by writing

C.S.Lewis

by 미리 Mar 19. 2021

뇌피셜은 팩트를 이기지 못한다

실험의 힘


데이터 홍수의 세계에서 현명한 결정을 내리는 법




작년 한 해 동안 우리는 얼마나 많은 실험에 참가했을까? 이 질문을 던졌을 때 대부분의 사람들은 말할 것이다. “실험? 나는 그런 거 참여 한 적 없는데?” 그렇다. 과거 우리에게 실험이라 하면 길거리에서 하는 설문조사나 직접적으로 인원을 모집하여 각 잡고 행하는 연구라던지 전형적인 눈에 보이는 현상에 대해서만 떠올릴 것이다. 하지만 세상은 변했다. 디지털의 도래로 인터넷을 사용하는 우리는 지금 이 순간에도 수많은 실험에 노출되고 있다. 페이스북에 접속해 눈에 띄는 콘테츠의 광고를 읽는 순간, 구글에서 무언가를 검색하거나, 넷플릭스에서 어떤 영화를 보았을 때도 회사의 고객 지원과에 전화를 걸었을 때도 우리는 피실험자가 될 수 있다.


그럼 실험이란 왜 하는 것일까?


결국 원하는 결과를 얻기 위한 방향을 설정함에 있다 본다. 꼭 성공이 아니더라도 실험을 통해 무엇인가를 깨닫고 발견하면 나쁠 것이 없다. 실험 결과를 통해 국민에게 더 나은 서비스를 제공할 수 있고, 인적 자원의 운용을 개선하고 더 나은 제품을 생산할 수 있고, 실험 방식을 정교하게 설계하여 치밀하게 관찰하면 정부, 조직, 회사, 국민, 소비자 등등 모두에게 좋은 결과를 안겨 줄 수 있다. 그래서 우리는 실험의 성공 사례들, 그리고 이 사례들에서 끌어낼 수 있는 교훈에 집중해야 한다.


하지만 실험의 설계와 해석은 까다롭다. 다양한 능력이 복합적으로 요구된다. 실험 결과를 바탕으로 올바른 결정을 내릴 수 있어야 하며, 나도 모르는 사이 기업의 데이터 베이스에 축적되는 나의 프라이버시에 대해 불안감을 안겨줄 수도 있다. 내재한 위험이 있지만, 그 가능성도 높이 평가하는 것이 실험이다. 실험에서 얻는 통찰만이 아니라 실험이 대중적 담론에 미치는 영향까지, 실험의 역할을 정확히 알고 있다면 공통된 실수를 피하고 실험으로부터 통찰을 끌어내고, 실험이 언제 어디서 가장 유용했는지 알 수 있다. 여러 시험들 중 하나인 무작위 대조 시험은 이제 주류가 되었다. 내놓으라 하는 대기업들도 플랫폼에서 혁신적인 변화를 시도하기 전에, 어떤 변화가 사용자의 행동에 영향을 미치는지 파악하기 위한 실험을 필수적으로 거친다. 지금은 실험의 초기 시대이다. 실험은 증거를 기반으로 의사결정을 할 수 있도록 도움으로 직관과 추측을 보완한다. 즉 뇌피셜이 아닌 팩트를 따라갈 수 있는 중심을 제공한다.




(



실험의 힘


영국 세무 당국과 국세청은 국민이 제때 세금을 납부하게 하려고 열심히 일한다. 그럼에도 매년 수백억 파운드의 세금이 납부되지 않는다. 이렇게 되면 정부나 체납자나 모두 골머리를 앓게 된다. 물론 정부는 독촉 편지를 보낸다. 하지만 편지는 가볍게 무시되곤 한다. 기업과 정부에서 발견되는 많은 불완전한 시스템이 그렇듯, 누구도 열등한 시스템이 존속되는 이유를 알지 못했고, 심지어 그 시스템이 열등하다는 것도 인정하지 않았다. 국세청 직원은 체납자에게 편지를 보내는 게 치과 병원을 찾아가는 것만큼 짜증스러운 일이다. 그리하여 2010년 영국 정부는 8명의 사회과학자와 공무원으로 구성된 BIT(behavior insights team)이란 팀을 결성했다. 임무에 행동과학을 활용해 정부 정책의 효율을 개선하려 한 것이다!


bit는 체납자에게 하루빨리 세금을 납부하도록 동기를 부여하여야 했다. 편지의 단어를 다듬기로 했다. 그리곤 다시 쓴 편지의 효과를 측정하는 실험을 실시했다. 첫 단계에서, 실험자들은 편지를 보낼 체납자들을 일정한 기준에 따라 선택했다. 그리곤 무작위로 두 집단으로 분류한 후 수정전과 후의 편지를 보냈다. 수정된 편지엔 단지 “지금 선생님이 거주하는 도시에서 10명 중 9명이 세금을 완납하셨습니다.”라는 한 문장만이 더 들어갔을 뿐이다. 하지만 결과는 놀라웠다. 납부한 사람의 비율이 35.8%에서 37.8%로 증가했다. 총체납액을 고려하면 수백만 파운드를 징수한 것이다. bit는 세금 독촉 편지를 더 다양하게 쓰며 실험을 계속했다.



다양한 편지는 17000명의 체납자에게 보내졌고, ‘소수자 규범’이 가장 효과가 좋았다. 결국 영국 국세청이 보낸 첫 편지가 효율적이지 않아 연간 수천만 파운드의 세금이 더 체납되었다는 게 입증된 것이다. 그 후로도 bit는 여러 실험을 하고 있다. 학교 중퇴율을 낮추기 위한 실험, 실직자들이 일자리를 구할 수 있도록, 환자가 진료 시간에 늦지 않게 유도하는 실험 등 그들의 방법론이 세계 전역에 전해졌다. 정부나 기관뿐 아니라 새로운 상품이나 새로운 서비스의 가치를 입증하는 역할을 위해서도 사용되고 있다. 이젠 많은 대기업들도 매년 수천 건의 실험을 진행한다. 행동과학적 통찰 실험이 유행이 되었다.


실험은 증거에 기반한다. 실험은 자료를 해석할 때 쟁점에 대한 깊은 이해와 판단이 필요하다. 선택 편향의 가능성, 실험의 중요성, 처치 효과의 복잡성 등을 고려하지 않고 무분별하게 행하는 실험은 아무런 결과가 없다. 그래서 실험에도 제대로 된 방법론이 필요하다.


“아직도 실험은 초기 단계에 있을 뿐이다. 여전히 많은 조직이 의사결정을 내릴 때 증거보다 직관에 의존하는 경향을 띤다. 우리는 직관을 받고 싶어 하지만, 직관이 완전히 잘못되는 경우가 많다는 것은 널리 알려진 사실이다.”

-p.40




각 기업들의 실험


수백여 조직이 행동과학적 통찰을 정책에 반영하려고 고심하고 있다. 특히 테크 분야만큼 실험 방법론을 적극적으로 받아들인 분야는 없었다. 이제 테크 분야에서 실험은 경영을 위한 의사결정에서 빼놓을 수 없는 부분이 되었다. 실험은 장벽과 함께 한다. 테크 분야가 어떻게 실험의 온상이 되었는가를 제대로 이해하려면 조직이 공통적으로 부딪히는 장벽에 대해 알고 있어야 한다.


장벽 1: 충분하지 않은 실험 참가자

결과의 규모와 정확성까지 얻으려면 실험의 표본 규모가 중요하다. 표본 크기가 작으면 무작위로 할당된 두 집단 간의 차이가 크게 나타나더라도 객관적인 설득력을 가직 힘들다. 결과의 정확성을 위해선 많은 실험자가 필요하다.


장벽 2: 무작위로 추출하는 게 쉽지 않을 수 있다.

무작위 추출이 성실하게 행해지지 않으면, 예측 변인이 실험으로 드러나는 것에 실질적으로 영향을 주는지 판단하기가 어렵다.


장벽 3: 실험에는 그 효과를 측정하기 위한 데이터가 필요하다.

실험 효과를 평가하려면 그에 다른 결과 데이터가 뒤따라야 한다. 하지만 자료 확보는 비용도 많이 들고 과정이 복잡하다. 이런 데이터 부족은 실험의 주된 장벽이다.


장벽 4: 예측하지 못하는 의사결정자에 대한 저평가

모든 조건이 똑같다 할 때, 어떤 결과가 최선인지 모르는 경우 실험의 가치가 높아진다. 따라서 의사결정자들의 행동이 안정적이어서 예측 가능하다고 생각하는 사람은 실험의 가치를 과소평가하기 마련이다.


장벽 5: 어떤 조치에 대한 결과를 얼마든지 짐작할 수 있다는 지나친 자신감

많은 사람들은 결정을 내릴 때 본인의 직관이 틀릴 수 있다는 걸 인정하지 않는다. 예로 이베이도 자신들의 광고 전략이 실험으로 그렇지 않다는 게 밝혀질 때까지 흠잡을 데가 없다고 확신했다.


“우리가 의사결정을 내릴 때 직관에 의존하는 경우가 많기 때문에, 실험이 직관을 보완함으로써 정책과 경영의 결정을 영향을 미칠 수 있다는 게 이 실험에서도 확인되었다는 것이다.”

-p.85



실험은 팩트다. 문제 해결을 도모하며 직관이 아닌 결과로써 응답한다. 하지만 실험엔 위의 문제들이 뒤 따른다. 전체적 맥락에서 같은 주제를 놓고 다른 답이 모두 정답이 되기도 하며, 터무니없는 실험의 진행으로 소득도 없는 결과가 나오기도 한다. 그러나 인터넷이 도래된 지금, 실험은 한결 수월해졌다. 테크 기업들은 수백만 사용자들에게서 표본을 추출할 수 있다. 구글, 페이스북, 아마존 같은 테크 기업의 플랫폼은 고객에게 노출되는 화면을 훨씬 쉽게 바꿀 수 있어 무작위 추출과 실험도 간단히 해낼 수 있다. 또한 디지털 시대를 맞이하여 적어도 숫자에 관련되어 좀 더 결과를 추적하기가 쉬워졌다.



그럼 각 기업들은 어떻게 실험을 사용하고 있을까?


구글

광고의 배경색을 푸른색과 노란색 중 하나로 결정해야 한다. 직관적으론 푸른색 배경이 사용자의 관심을 더 끌 거라고 생각할 수도, 노란색을 선호하여 노란색이 더 편안한 느낌을 주기에 적합하다 생각할 수도 있다. 어떻게 결정을 내릴까? 초기에는 직원들의 열띤 토론으로 결정을 내렸다. 하지만 구글은 곧 이런 문제를 추측하거나 토론할 필요가 없단 걸 알았다. 실험을 실시하면 더 많은 정보를 근거로 결정을 내릴 수 있단 걸 알게 되었기 때문이다. 그들에겐 이미 수십억 명의 참가자가 있다. 구글 플랫폼에서 넘치도록 많은 데이터를 구할 수 있다. 이제 구글은 연간 1만 건 이상의 실험을 실시하고 있다. 이런 실험들의 결과는 다양한 상황에서 경영적 결정에 영향을 미친다.


부킹닷컴

상품 개발 관리자는 새로운 상품을 모든 고객에게 출시하기 전에 실험을 통해 그 상품의 가능성을 쉽게 검증할 수 있다. 실험 문화를 구축하기 위해 부킹닷컴은 데이터 전문가들이 운영하는 사내 교육부터 개별 실험에 대한 맞춤 분석 지원까지 경영적인 측면에서 다양한 변화를 시도했다. 실험은 중앙 저장장치에 기록되고, 새로운 실험을 시작하기 전 과거의 실험 결과를 참조할 수 있고 검증도 확인할 수 있다. 이런 실험 시스템이 잘 잡혀 있을 때 실험에서 얻은 증거를 기초로 상품과 관련된 결정을 내릴 수 있다. 또한 직원들은 가설 검정 실질적 유의성과 통계적 유의성의 개념과 결과를 측정하는 다양한 기준들의 장, 단점까지 실험 방법의 기본을 조금이나마 이해할 수 있다.


에어비앤비

성공한 기업가이자 투자자인 리드 케네디는 에어비앤비 플랫폼에서 반복해 거절당했다. 공교롭게도 리드는 흑인이고, 에어비앤비에 차별이 존재한다 의심하기 시작했다. 리드는 거부로 의심되는 사유를 에어비앤비에 알렸고, 에어비앤비 측에선 그럴 일이 없다 말했다. 플랫폼에서 차별이 있다는 증거는 모호했고, 그들은 플랫폼에서 차별은 없다는 확신을 뒤집을 만한 증거가 없는 한 차별을 쟁점거리가 아닌 것으로 계속 치부할 수 있었다. 하지만 그즈음, 마이클 루카와 벤 에더먼, 그리고 댄 스버스키가 팀을 꾸려 에어비앤비에서 집주인이 손님을 차별할 가능성이 있다는 분석을 완료한 뒤였다. 그들은 손님인 체하며 미국 전역의 6,400여 집주인에게 임대를 의뢰하는 편지를 보냈고 절반은 백인에게 무척 흔한 이름, 한쪽은 보편적으로 아프리카계 미국인에게 상대적으로 흔한 이름으로 보냈다. 심지어 프로필에 사진도 없었다. 결과는? 암울했다. 차별은 존재했다. 그러나 에어비앤비는 계속 부인하며 현실 도피적인 전략으로 일관했다. 이들의 연구가 발표되고, 더 이상 에어비앤비는 차별이 플랫폼의 문제가 아니라는 직관 뒤에 숨을 수 없었다. 에어비앤비는 결국 마이클 팀의 결과를 근거로 개선책을 모색하기로 결정했다. 저명한 인권 운동가들로 구성된 테스크포스 팀을 꾸렸고, 여러 가설을 세운 뒤 중간을 택하기로 했다. 집주인은 여전히 손님의 이름과 사진을 볼 수 있었고 거절 여부도 결정할 수 있었다. 그러나 테스크포스 팀을 이용하여 차별을 줄이기 위한 노력을 지속해 나갔다. 집주인에 대한 선택 편향 교육, 인종차별로 예약을 거절당한 손님의 숙소를 대신 찾아주는 등 변화를 시도했다. 이 사건을 계기로 에어비앤비는 현안을 연구하고 가능한 해결책을 모색하기 위한 데이터 사이언스팀을 창설하여 실험을 지속하였다.


이베이

구굴은 당신과 다른 사람이 과거에 행한 검색 결과를 분석하고 특정한 검색어에 어떤 웹사이트가 가장 유용한 지 알아내려는 알고리즘에 엄청나게 투자한다. 우리가 구글에게 검색 행위에 대한 돈을 지불하진 않지만, 구글은 우리의 검색 행위가 돈이 된다. 옆에 나타나는 광고를 팔기 때문이다. 기업에게 구굴은 광고 플랫폼이다. 인터넷 시대인 현재, 조직에게 광고 효과를 평가하는 새로운 기회가 주어졌다. 바로 실험이다. 이베이는 구글의 광고 시스템을 알게 되자 연간 5,000만 달러를 들여 마케팅을 벌이는 거에 꽤나 호의적이었으나 마케팅 담당자였던 스티브는 미심쩍었다. 선택 편향의 가능성을 염려했고 실험을 준비했다. 구글 광고를 게시하거나 중단하며 시장에 변화를 주었고, 구글 광고를 통해 이베이에 접속하는 사람들을 추적했다. 결과는? 구글 광고를 중단한 시장에서는 광고를 통해 이베이에 접속되는 흐름이 정말 끊겼다. 하지만 유기적 검색 결과를 통한 접속은 확연히 증가했다. 즉 이베이가 매년 구글에 지불한 거액의 광고비는 거의 낭비였지만, 이베이와 그다지 관련되지 않은 품목의 광고라면 매출 확대로 이어질 수 있다고 판단했다. 정보가 부족한 잠재고객에게 다양한 정보를 제공할 때 광고가 더 효과적이란 이론을 입증한 것이다. 이제 구글에서 이베이를 검색하면 유기적 결과만 나온다. 이베이는 중요한 경영 문제의 답을 구하는 데도 실험이 유용하단 걸 보여 줬다.


‘이베이의 무의미한 광고비 지출은 상관관계에 의존한 의사결정의 위험을 보여 준 극명한 증거, 또한 상관관계가 인과관계는 아니라는 걸 보여 준 증거이기도 했다.’

-p.155


알리바바

2016년 급속히 성장하여 2년 연속 매출이 분기별로 50% 이상 성장하는 기록을 세운 알리바바는 그 후로 끊임없이 눈부신 성장의 방법을 연구했다. 실험도 상당한 역할을 했는데, 자체 할인에 대한 실험을 실시했다. 고객들의 장바구니에 담긴 물건을 실제 구매로 연결하기 위해 그런 구매자를 대상으로 그런 물건에만 할인을 대폭 제공했다. 초특가 할인의 효과를 정확히 측정하기 위해 무작위로 100만 명을 선택해 대조군이나 실험군에 배치했다. 결과는? 장기적으로 봤을 때 알리바바에서 더 많은 돈을 지출하는 것 같지는 않았다. 할인 효과는 총비용에 비하면 그다지 크지 않았다. 알리바바는 이 실험을 바탕으로 더 이상 쇼핑 카트 할인 프로젝트를 확대하지 않기로 결정했다.


우버

우버는 어떻게 하면 각자의 목적에 합당한 방법으로 운전자와 탑승자를 최적으로 짝지을 수 있을까?라는 문제에 직면했다. 우버는 이런 쟁점을 해결하기 위해 매년 수천 건의 실험을 한다. 방대한 자료를 활용하여 더 원활하게 돌아가는 시장을 설계하고자 경제학자와 데이터 과학자들로 구성된 연구 팀을 운영하고 있다.


‘정말 반짝반짝 빛나는 실험이었다. 어떤 도시에서 탑승자에게 기다리라고 요구하는 시간을 대략 2분에서 4분 사이로 줄이는 실험을 실시하고, 그렇게 할 때 시장 전체가 어떻게 달라지는지 측정한다고 생각해 보라.’

-p.187


경쟁이 치열한 역동적이고 복잡한 시장에서 우버가 자신의 다른 상품들에게 손해를 주지 않고도 신상품을 개발하는 최선의 방법을 찾아낸 것이다.

                   


실험은 테크 기업들에게 상당한 수익을 안겨 주었다. 실험에 비용이 많이 들지만, 비효율적인 프로그램을 중단시키는 효과가 있고 처음부터 차단하는 이점도 있다. 테크 기업들이 실험을 위한 경제학 도구들의 가치를 깨닫는 데는 오랜 시간이 걸리지 않았고, 그들은 경제학 박사들을 대거 고용했다. 기업들은 앞으로도 계속 실험할 것이다.  많은 테크 기업들은 적절한 결과를 어떻게 선택하고, 실험을 언제 얼마나 오랫동안 실시해야 하느냐는 등 많은 쟁점을 두고 여전히 씨름하고 있다.


실험은 중추적 역할을 제시한다. 실험을 통해 어떤 설계를 선택하느냐에 따라 실제로 일어나는 결과에 영향을 받고, 회사가 취해야 하는 변화도 달라져야 한다는 걸 깨닫게 된다. 실험은 우리 주번 세계를 명확히 밝혀 주고 개선할 수 있다는 걸 입증해 준다. 실험을 적확히 실행하는 방법을 더 깊이 알아야 한다. 직관과 감정을 명백한 증거로 대체해야 한다. 가정과 메커니즘을 검증하고 반복된 실험으로 타협점을 파악하며 어떤 영향을 주는지 정책의 평가와 사실 확인도 이루어져야 한다. 또한 실험은 한번 보단 ‘일련의 설험’에서 얻는 것이 더 많다. 궁극적으로 조직이 실험을 성공적으로 해내려면, 올바른 대답을 얻는 것만큼이나 올바른 질문을 제기하는 게 중요하다. 올바른 기준틀을 개발하기 위해 실험을 어떻게 활용할 것인지도 고민해야 한다. 실험의 강점과 한계, 실험의 설계, 현재 가용한 데이터를 따져 봐야 한다.


실험은 기업뿐만 아니라 사용자에게도 가치가 있다. 데이터를 근거로 삼으면 더 나은 결정을 쉽게 내릴 수 있다. 직관적 결정의 결과에 비롯된 저급한 서비스를 원하는 사용자는 없을 것이다. 고로 사용자도 실험에 열린 마음을 가져야 하고, 기업은 실험 과정을 비밀로 감추지 않고, 실험과 관련된 의사소통을 게을리하면 안 된다.



테크 분야뿐 아니라 정부 기관들도 실험을 이용하여 여러 장점을 취한다. 이러한 행동과학 통찰 팀이 확산되어 현명하고 올바르게 실험을 활용한다면, 범죄, 대학 진학률, 세금 문제, 선거 등 교육계와 기금 제공자, 학교와 비영리 기관들도 실험을 통해 새로운 아이디어를 직접 실험하고 의사결정에 도움을 받을 수 있고, 더욱 건강한 사회적 정책이 확대되어 항구적인 행동변화가 일어날 것이다.


‘우리가 행동과 행동 변화를 연구하는 학문을 생각해 낼 수 있다면, 결국 무엇이 동기이고 어떻게 하면 사람들에게 동기를 부여할 수 있는지 알아낼 수 있다면, 또 좌절이 무엇이고 좌절을 관리할 수 있는 방법, 유혹이 무엇이고 유혹에 굴복하는 이유를 알아낼 수 있다면, 우리가 반도체와 다를 바가 없을 듯하다.’

-p.254







브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari