brunch

You can make anything
by writing

C.S.Lewis

by Dandelion Mar 04. 2021

문제해결 시 성공확률을 높이는 방법

이시대에 꼭 필요한 실험적 사고 기르기

우리는 살아가며 많은 크고작은 문제들을 직면한다. 하다못해 오늘 점심은 뭘 먹을까라는 문제에 대한 선택지를 놓고 고민하며 최선의 결정을 내리고자 노력한다. 인생은 문제에 대한 선택과 의사결정의 연속이다. 얼마나 문제를 효율적으로 해결할 수 있느냐에 따라 문제 해결에 드는 시간과 비용, 노력을 최소화 할 수 있고, 최선의 선택안으로 좋은 결과를 낼 수 있기에, 우리는 어떻게 문제를 해결할 것인가?에 대한 고민을 종종 하곤한다. 하지만 문제의 성격이나 중요성의 경중과 상관없이 우리는 대부분의 의사결정을 감정과 직관 또는 경험에의해 결정하는 경우가 대부분이다.

개인의 차원을 넘어서 정부의 정책안을 수립하고, 기업이 상품을 출시하고, 더 나은 교육환경과 교육제도를 제공하는 과정에서 정부, 기업, 영리/비영리 기관들은 더 나은 선택안과 문제해결(혹은 개선)을 위한 방법을 궁리한다. 이는 기본적으로 문제를 어떻게 해결할 것인가? 어떤 방법이 더욱 효과적일 것인가?라는 질문에서 출발한다. 하지만 최근 몇년전까지만 해도 정책안 입안과 상품출시와 같은 중대한 사안조차 감정과 직관에 의해 결정되는 경우가 대부분이었다. 다행스럽게도, 정부와 기업들은 보다 효율적인 의사결정을 위한 실험을 하기 시작했다. 더군다나 인터넷 온라인상의 정보와 데이터의 홍수로 인한 소위 "빅데이터 시대"가 열렸고 이를 활용하여 테크기업들은 수많은 실험을 통해 상품 출시와 광고의 수익적 측면에서 많은 성공적인 사례들을 보고하고 있다. <실험의 힘>은 실험을 이용해 사회과학적 통찰을 정책과 기업, 교육 등에 적용하는 과정을 보여주며, 직관이 실험적 증거로 대체되는 것으로 인한 효용성에 대한 증거를 보여준다.

실험이 조금 생소한 개념일지 모르지만 우리는 이미 살아가며 수많은 의도적/무의식적 실험들을 접하고 있다. 응용과학분야에서 수많은 실험을 설계하고 임상실험을 하고 있는 나조차 이 책을 읽으며 나도 모르는 실험들이 행해지고 있고, 나도 실험대상자가 되었다는 사실에 흠칫 놀라기도 했다. 인터넷에서 한번이라도 구글검색을 사용해본 인터넷 유저라면 이러한 테크기업이 제공하는 무작위 실험에 참여했을 가능성이 높다.

한편으로는 사회과학에서 행동학적 통찰(이론)을 (실제 현장의)실험설계에 반영해, 무작위대조군 실험을 통해 데이터를 수집하고, 데이터를 분석한 결과에 의미를 도출해서, 더 나은 의사결정을 하는데 실험을 활용하는 것은 자연응용과학 분야에서의 실험과정과도 유사함을 알게되었다. 사회과학 분야에서는 실험의 과학적이고 근거기반적 증거를 기반으로 수많은 상품, 서비스, 정책들의 개선과 효과적 운용을 도모하고있었고 이를 통해 실험의 힘을 체감할 수 있었다. 반면, 특히나 사회과학적 실험들은 사회적/경제적/문화적 파급효과를 무시할 수 없으므로 모든 인간대상 실험과정에서 발생할 수 있는 윤리적 문제와 실험과정의 오류를 최소화 하기위한 세세하고 체계적인 실험설계가 필수적이라는 교훈도 얻을 수 있었다.

또한 실험의 과정에서 의미있는 결과를 도출하기위한 중요한 요소들이 있는데, 이에대한 이해를 통해 개인의 의사결정과정에서 보다 효용성있는 선택안을 택할 확률이 높아질 수 있는 실험적 사고의 힘을 기를 수 있음을 깨닫게 되었다.

중요한것은 이제는 바야흐로 실험의 시대이다. 실험의 힘을 아는 것은 이시대를 살아가는 데 필수적이며 더욱 현명하고 효율적인 의사결정을 할 수 있는 방법이 될 수 있을것이다.

실험에서 중요한 것

사회과학은 인간의 사회적 행동을 탐구하는 과학의 한 분야로 자연과학의 발전에 영향을 받아 과학적 방법을 사용하여 경험적 지식체계를 구축하는 경험과학이라 할 수 있다. 사회과학은 복잡한 사회 현상과 인간 사이의 관계를 대상으로 하므로 구명하기 어렵고 인간윤리에 관한 가치관의 문제가 대두된다. 따라서 사회 현상을 일반적으로 설명할 수 있고, 이론에 대한 검증이 가능하며, 사회 현상에 대한 객관적 입장과 함께 가치관에 대한 상대적인 상호 주관성을 인정할 수 있고, 이론의 수정이 가능하여야 한다는 전제 조건하에 최근 활발한 실험이 행해지고 있다.

<실험의 힘>에서 보여주는 실험 과정은 이러한 사회과학적 실험방법의 발달과정을 살펴볼 수 있음과 동시에 인간의 행동을 수정하고 의사결정을 하는데 개인의 경험과 환경적 조작이 중요하다는 것을 다시한번 시사한다. 또한 <실험의 힘>에서 보여주는 실험 과정은 상황을 개선시키기 위한 합리적인 문제해결을 도출하는 절차에 대한 과학적 프레임으로 제시된다. 우리는 실험의 요소들이 시사하는 바를 통해 객관적이고 논리적인 방법을 이용한 더 나은 의사결정을 하도록 돕는 실험적 사고를 증진시킬 수 있다.

1) 실험을 하는 목적(의미)

나는 8년째 재활연구분야에서 개발된 치료법이나 재활로봇들에 대한 유용성과 효과, 임상적 의의를 조사하고 실험하는 일을 해오고 있다. 수십건의 임상연구를 설계하고,수백명의 피험자를 대상으로 평가와 치료중재를 진행하고, 한명 한명의 결과를 입력하고 통계를 돌리고 분석해서, 결과에 대한 의미를 도출하여 보고서와 논문을 쓰는 것이 주요 업무이다. 많은 실험연구를 반복해오며 얻은 가장 중요한 교훈은 “실험은 설계단계가 제일 중요하다”는 것이다.

실험설계는 우리가 당면한 현상과 문제에 대한 해결안이나 개선안을 찾기 위한 질문을 던지는 데서부터 시작된다. 연구자는 어떤게 문제이고 불편함을 유발하는가? 무엇을 개선하고싶은가? 해결방법은 무엇인가? 문제가 해결된다면 이를 객관적으로 측정 가능한 측정변수는 무엇인가? 등에 대한 질문을 끊임없이 던진 후, 아이디어에 적합한 실험의 주제, 목적, 가설을 세워 실험을 설계한다. 여기에는 이용가능한 연구비지원, 실험 환경, 협력 요청, 연구자 역량등의 사항들을 고려한 세세한 실험설계가 필요하다. 아무리 좋은 아이디어가 있어도 현실적으로 실현불가능하거나 실험을 방해하는 변수들이 많은 경우 결국은 실험을 지속하기 어렵기 때문이다.

실험을 실행하는 단 하나의 완벽한 방법은 없다. 당신이 제기하는 의문에 따라 실험에 접근하는 방법이 달라져야한다는 뜻이다. (...) 조직의 경우에는 실험을 설계하기 전에 답을 구하는 의문에 대해 신중하게 생각하는 단계가 반드시 필요하다. (...) 중요한 것은 어느 변인에 강조점을 두느냐는 것이다.

<실험의 힘>_마이클 루카, 맥스 베이저만

우리는 살아가면서 많은 문제들을 만난다. 이때, 문제를 파악하기 위한 질문을 떠올려보고, 해결할 수있는 방법에 대한 가설을 세우며, 객관적으로 측정할 수 있는 데이터로 결과를 측정해 보는 것은 효용성있는 답을 얻고 문제해결 과정에서 이후의 더 나은 결과를 내기위한 피드백을 얻는데 많은 도움이 된다.

2) 표본수

너무 작은 표본수(실험 대상자 수)는 통계적 분석이 어려우며 결국 실험의 신뢰성 또한 떨어진다. 도출된 결과를 일반화하고 효용성을 주장하기 위해서는 많은수의 표본수가 필요하나, 이는 실험의 효용성과 경제성이 떨어지므로(시간, 노력, 비용이 너무많이 든다) 적당한 표본수를 선정하는 것이 중요하다. 따라서 연구자는 실험 설계 단계에서 표본수(sample size) 통계분석을 통해 최소한의 표본으로 가장 통계적으로 의미있는 결과를 도출할 수 있는 적절한 표본수를 목표로 정한다.

단지 몇번의 경험, 몇명의 사례로는 우리가 생각하는 질문과 가설에 대한 정확성과 신뢰도가 떨어지는 답을 도출할 가능성이 많다. 최대한의 많은 경우의 수와 사례를 생각해 보는 것이 효과적인 답을 도출해낼 가능성을 높인다.

3) 무작위 대조군 설계

보통은 실험군(특별한 처치를 시행하는 군)과 대조군(처치를 시행하지 않거나 일반적인 처치를 시행하는 군)을 비교하는 것이 일반적이다. 대조군이 필요한 이유는 비교할 수 있는 기준 데이터의 확보가 필요하기 때문이다. A라는 처치가 훌륭하고 효과적이어도 비교할 수 있는 기준이 없다면 시간이 흐르면서 자연스럽게 좋아진 건지 A처치 말고도 결과에 영향을 준 다른요소는 없는지 알 수 없다. 또한 통계적 타당성의 이유(아래)로 의학연구분야에서 무작위 대조군 연구(Randomized Controlled Trials, RCT)은 임상 연구에서 표준(standard)으로 인정받고 있다.

<무작위 대조군 연구의 장점>

- 비뚤림과 오류의 가능성을 최소화하여 최상의 타당성을 확보할 수 있음

- 무작위로 배정한 후에 수집된 연구자료들은 통계적 분석의 전제조건인 무작위 확률(random probability)을 충족시키기 때문에 통계분석을 시행할 수 있음

하지만 인간을 대상으로 하는 실험연구(자연/응용과학, 사회과학 모두 포함)는 대조군에 배정되는 피험자들에 대한 윤리적 문제가 대두된다. 또한 실험의 피험자가된 대상자들은 자신이 실험에 이용된다는 생각에 “실험기피”하는 모습을 보이기도 한다. 특히, 환자를 대상으로 하는 재활연구분야에서는 대상자 20~30명 중 한명 꼴로 “내가 이 실험의 마루타가 된거 아니냐”는 식의 부정적 반응을 보이기도 한다. 하지만 경험상 대부분의 환자분들은 실험의 동의를 구하는 과정에서 실험의 목적과 중요성에 대한 설명을 드리면, 자신의 신체기능이 더 좋아질 수 있다는 기대와 함께 이 실험에 참여하는 자신으로 인해 다른 환자들을 위한 재활의 발전에 기여할 수 있음을 이해하고 보다 적극적으로 실험에 임하는 태도를 보이신다. 연구진은 환자들을 대상으로 하는만큼 실험으로 인한 부작용이나 위험성을 최소화하고 의미있는 데이터를 뽑아 진정으로 환자의 기능 증진에 도움이 될 수 있는 연구를 하고자 한다.

또한 자연/응용과학 분야에서는 윤리적 문제를 최소화하고 부작용과 위험을 최소화하여 실험 대상자들을 안전하게 보호하기위한 임상연구심의위원회(Institutional Review Board, IRB)를 조직하여 모든 인간대상 임상연구를 시행하기 이전 사전 승인을 받도록 규정되어있다. 사회과학 분야에서 행해지는 실험들은 이러한 실험기피에 대한 인식을 완화하고자 "실험" 대신 "AB 테스트"라는 명칭을 사용하기도 하며, 우리가 가입이나 등록 시 동의하는 조약들에 이러한 실험 데이터 수집에 대한 동의를 받아 이를 기반으로 실험을 수행하고 있다.

AB 테스트의 예시 (출처: 지식마블-티스토리)

중요한 것은 인간대상 윤리문제로 아무런 실험을 행하지 않는 것보다, 최소한의 안전장치를 마련한 무작위 대조군 실험 연구가 사회 현상을 개선하고 효용성 있는 결과들을 도출해내고 있다는 것이다. 결국 전체적인 사회적 발전과 성장을 위해 실험은 유익하며, 동시에 윤리적 안전장치에 대한 개발 또한 지속적으로 개발되어야 할 것이다. 또한 실험에서 대조군을 비교의 대상으로 삼는것 처럼, 우리의 의사결정에서 비교할수 있는 데이터를 확보하는 것이 내가 원하고 개선하고자 하는 상황의 전과 후 상황을 가시적으로 가늠해볼 수 있는 통계적인 "기준점"을 마련할 수 있는 방법이 될 수 있다.

4) 맹검법

측정된 데이터는 편향적인 연구자의 주관성을 배제해야 객관성과 논리성을 확보할 수 있다. 이때 측정과 처치의 적용 단계에서 실험 설계와 관련이 없는 평가자를 투입하고(평가자는 연구 대상자가 실험군인지 대조군인지 모름), 실험대상자도 자신이 실험군인지 대조군인지 모르게 하는(플라시보 효과 차단) 이중 맹검법(Blineded experiment)을 시행한다. 맹검법은 실험을 수행할 때 실험 설계자의 편향의 작용을 막기 위해 실험이 끝날 때까지 평가자 또는 연구대상자에게 특정한 정보를 공개하지 않는 것이다.

선입관과 편향은 우리가 문제를 정확하게 인지하기위해 배제해야하는 요소이다. 문제 해결 과정에서 어떻게 객관성과 논리성을 확보할 수 있을 것인가에 대한 생각이 도움이 될 수 있다.

5) 데이터 분석과 맥락에 맞는 의미도출

모든 실험은 설계부터 적용, 분석, 결과를 도출하는 모든 과정에서 자칫잘못하면 오류가 발생하기 쉽기 때문에 신경써야할 부분들이 아주 많다. 그래서 어떤 간단한 실험조차 쉽지않다. 많은 실험과정에서 오류가 발생하기 쉽고 연구자 편향이 들어가 잘못된 결과 해석으로 이어질 수 있는 부분이 "결과분석" 부분이다(연구자가 결과를 자기가 원하는 방향으로 의도적으로 분석하거나 분석 결과를 잘못 해석하는 경우).

1990년대 중반까지 미국 산부인과학회 등은 수차례 진행된 코호트 연구, 특히 대규모로 진행된 간호사 건강 연구의 결과를 근거로 심장 질환과 골다공증 등 여성의 노화와 관련된 증상들의 치료법으로써 호르몬 대체 요법을 추천했다. 그 후로 20년 동안 많은 의사가 폐경 이후에 심각한 증상을 보이는 여성의 치료제로 호르몬 대체 요법을 조치하였다. 하지만 이는 데이터를 잘못 해석한 결과였다. 이는 실험당시 모집단 간의 근본적인 차이를 혼돈한 선택 편향(selection bias)에서 비롯된 결과였다. (...) 이후 또다른 맨슨팀의 실험 결과에 따르면 호르몬 대체 요법이 심장 질환의 가능성을 낮추기는 커녕 오히려 증가시켰다.

<실험의 힘>_마이클 루카, 맥스 베이저만

여기에서 코호트 연구란 예를들어 2021년 3월에 심장질환이 있는 여성환자들을 대상으로 A그룹에는 호르몬 대체 요법을 시행하고 B그룹에는 기본적 처치만 시행한후, 일정 기간이 흐르는 동안 실험 대상자들을 추적하여 질병 발생률과 치료 효과를 관찰하는 것이다. 실험 결과 앞서 언급했던 A그룹과 B그룹의 무작위 할당이 제대로 이루어지지 않으면 선택편향(A, B그룹의 기본값이 달라 처음부터 편향된 그룹의 차이는 편향된 결과를 도출함)이 나타난다. 위의 실험에서는 처음부터 B그룹보다 심장질환에 대한 치료의 접근성이 용이했던 A그룹은 처치 종류와 상관없이 더 증상이 완화되는 모습으로 관찰되었고, 잘못된 결과의 발표로 인해 의료진의 잘못된 처방이 20년동안 환자들에게 내려졌다. 따라서 질환과 관련된 요소 뿐만 아니라 사회 경제적 지위, 다른 치료제의 접근 용이성 등 결과에 영향을 줄 만한 다른 주변 요소들에 대한 평가도 면밀히 진행되어야하며, 평가의 분석결과에 대한 해석 또한 신중해야한다.

맨슨 팀의 실험은 실험에서 무작위 할당의 중요성만이 아니라, 실험자료를 해석할 때 쟁점에 대한 깊은 이해와 판단이 필요하다는 걸 다시금 일깨워 준다. (...) 의료계는 선택 편향의 가능성, 처치 효과의 복잡성을 더 깊이 이해하게 되었고, 실험 자료를 근거로 의사결정을 내릴 때 필요한 판단의 중요성을 깨닫게 되었다.

<실험의 힘>_마이클 루카, 맥스 베이저만

6) 추적관찰

대부분의 실험은 장기적인 효과의 지속성을 살펴봐야한다. 일시적인 개선만으로는 효과적인 처치라고 말하기 어렵다. 많은 실험은 단기적인 효과에 그치지 않고 추적 관찰을 통한 효과의 지속성 보고에 큰 가치를 둔다. 꾸준함과 지속성의 힘은 여기서도 기지를 발휘한다.

실험에서도 강조되는 맥락의 중요성

구글이나 이베이와 같은 대형 플랫폼은 플랫폼 이용자라는 "방대한 표본수"와 다양한 웹페이지 환경 조작을 통한 "무작위 추출"을 이용하여 일년에도 1만건 이상의 실험(예를 들어, 다른 형태의 웹페이지를 보여주며 사용자의 행동이 웹페이지에 따라 어떻게 달라지는지 추적)을 실시하며 이를 통해 방대한 데이터를 모으고 있다. 모아진 데이터를 이용해 어떤 광고를 어떤 방식으로 노출시키는 것이 구매전환, 방문율 증가 등에 영향을 미치는지 철저히 분석하고 당신에게 맞는 알고리즘을 제공한다. 쉽게 말해, 당신이 구글을 이용하며 몇번씩 클릭하는 것은 하나의 데이터로 수집되며 이를 통해 구글은 돈을 벌고있다.

이렇게 많은 실험이 행해지는 이유는 기업의 입장에서 예측 불가능한 상황이 비일비재하기 때문이다. 예를 들어, 이베이는 구글 광고를 제공 유무를 통한 접속율을 실험조사한 결과, "의도치 않게 구글 광고를 통해" 이베이에 접속하는 것이 전체 접속율에 그다지 영향을 미치지 않으며 오히려 구글에서 "의도적으로 이베이를 검색한 후" 접속하는 상황을 증가시켰다. 즉 이베이는 무의미한 광고를 구글에 집행하고 있었던 셈이다.

하지만 이베이와 관련이 적은 상품의 경우, 이베이에서 집행한 광고는 매출 확대로 이어지는 것이 실험 결과 밝혀졌다. 가령, 소비자가 상품 검색 시에 "AAA, 이베이"라고 검색하기 보다는 "AAA"만 검색하는 경우가 해당된다. 또한 이베이나 구글과 같은 대기업이 아닌 인지도가 낮은 소기업의 경우, 일정 횟수 이상 광고가 노출됬을 때 웹페이지 방문자 수, 업체(식당) 정보나 위치를 검색한 횟수 등이 급격하게 증가추세를 보였다. 결과적으로 플랫폼에서 광고는 인지도가 높은 대기업보다는 소기업에, 대형 체인점(맥도날드 등)보다는 독립 자영업에 더 큰 영향을 준다는 것이 밝혀졌다.

광고와 관련된 실험은 기업 브랜드에 따라, 시대에 따라, 플랫폼에 따라 달라진다.

<실험의 힘>_마이클 루카, 맥스 베이저만

따라서 어떤 행위가 갖는 영향과 방향을 제대로 파악하려면, 한번의 상황에서 얻은 단일한 데이터에만 의존하지 말고 다양한 상황에서 실험을 실시하며 여러 기준틀을 개발하는 데 초점을 맞추어야 한다. 또한 상황과 맥락에 따라 데이터의 의미와 해석방법이 달라질 수 있다.

<실험에서 중요한 3가지>
실험은 맥락이 중요하다.
실험 설계에는 신중한 질문과 세세한 설계가 필요하다.
실험의 의도하지 않은 결과에 대한 이론적, 현실적 고려가 필요하다.

이는 우리가 살아가는 방법과도 유사하다. 어떤상황에서는 맞지만 어떤상황에서는 정답이 아닐 수 있으며, 상황에 맞는 데이터(근거)를 수집하여 의미하는 바를 다시 생각해 볼 필요가 있다. 중요한 것은 직관과 감정, 기억에 의지하는 것 보다는 객관적인 데이터와 통계적 사고가 더욱 확실한 근거를 제공한다는 것이다. 상황에 맞는 데이터를 활용한 근거중심적 사고는 최소한의 시행착오로 효율적인 혜안을 도출해 낼 수 있는 방법이 될 수있다.

실험이 언제나 긍정적인 것만은 아니다. 테크기업이 실험의 목적을 기업의 실리적 추구에만 맞추다보면 아무도 읽지 않는 약관에 실험에 대한 동의 조항을 몰래 숨겨두거나 기업에 이득이 되지않는 실험의 결과를 감추는 등의 행동을 할 수 있고, 결과적으로 실험결과를 악용하여 사용자에게 피해를 끼치고 실험에 대한 부정적 인식을 유발할수 있다. 하지만 지금까지 살펴본 것과 같이 결국 실험은 기업과 사용자 모두에게 가치와 효용성이 있다. 따라서 기업은 실험과정에 대한 투명성과 윤리성을 준수하여 실험을 설계 및 집행하고, 실험과 관련된 의사소통을 게을리하지 않아야하며, 사용자는 실험에 열린마음과 적극성을 갖는것이 필요하다.

사회과학 분야에서 실험의 형태는 소셜미디어를 활용한 황금기를 맞이하고 있다. 또한 경제 원리를 객관적으로 설명하는 실험과 평가도구가 주목을 받고 있으며 정부의 정책 효과와 시장의 가격형성에 실험이 사용되고 있다. 새로운 자료, 새로운 접근 방식이 새로운 통찰로 이어질 수 있다는 실험주의적 사고는 행동 경제학과 실험 경제학을 비롯한 모든 사회 과학분야에서 두루 통용되어 현장에서의 실제적인 효과를 거두고 있다. 이미 실험을 이용한 혁신은 시작되었다.

이중 시스템 이론에 따르면, 개인의 의사 결정 과정에는 기계적으로 정서적 반응을 따라 깊이 생각하지 않고 결정하는 직관 의존적 시스템 1과 속도를 늦추고 의식적으로 충분히 생각하는 논리적 판단 시스템 2가 관여한다. 대부분의 상황에서는 시스템 1로도 충분하지만, 중요한 상황에서 더 나은 결정을 내려야하는 상황에서는 시스템 2를 적절히 사용하는것이 필요하다. 따라서 실험적 사고는 시스템 1에의한 편향된 결정을내리기 쉬운 상황에서 시스템 2를 활용하게 함으로써 보다 합리적인 의사결정을 내릴 수 있도록 하여 우리 곳곳의 비효율을 해결할 수 있다.

그리고 여기까지 온 우리 모두에게 합리적 의사결정을 위한 실험적 사고는 이미 자라나고 있다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari