그러나 불확실성은 더욱 더
언제부터인가 'A/B 테스트' 같은 말이 유행하기 시작했고, 많은 서비스에서 '실험을 한다'는 말이 자연스럽게 나오게 되었다. 특히 '데이터 기반 의사 결정'이 널리 퍼지고, '데이터 분석'이 보다 용이해지면서 이런 현상은 더욱 심화되었다. 실제로, 더욱 더 많은 서비스들이 베타 테스트 등의 간단한 실험을 통해서 실제 그 이후의 서비스의 방향-버튼 색 결정부터 기능 추가에 이르기까지-을 결정하는 일이 많아졌다.
서비스에서의 실험이란 것은 실제 연구실에서의 실험과 분명 다르다. 일반적인 비즈니스 환경에서 사용하는 대다수의 '실험(Experiment)'이란 단어는 무언가를 관찰하기 위해 인위적으로 만든 모든 사건을 뜻한다고 봐도 과언이 아니다. 특히 이 때의 '무언가'의 대다수는 어떤 아이디어에 대한 '차이'를 파악하기 위해 만드는 집단 비교 실험(대표적인 것이 A/B 테스트다)이고 보통 실험군과 대조군을 동일한 환경에서 만든 후 단일 입력값과 단일 결과값을 가지고, 다른 요인을 따로 제어하지 않고 동일하다고 가정하는 가장 기본적인 '블랙 박스 구조'를 따른다. 그 후 실험군과 대조군의 결과에 대한 차이를 계산하고, 이 것이 의미가 있는 것인지를 검증하는 것으로 실험 설계가 완료된다.
이 때 고려해야 할 것은, 우선 이 설계에서는 하나의 변경 요인에 대한 차이만을 확인하고자 했으나, 이에 대해 다른 요인은 고려하지 않았다는 것이다. 실험군과 대조군의 선정도 한 가지 요인이다. 어쩔 수 없는 환경에 의해서 매우 소수의 사용자를 선정해야 할 수도 있어서 이 사용자들의 결과를 이후에 믿어도 되는 지 알 수 없고, 최대한 임의로 표집을 했다고 하더라도 이 사용자들이 균일하게 선정되었는지에 대해서는 여전히 불확실성은 남아있다.
또한 한 가지 요인만을 제어했을 때, 나머지 요인이 각각의 군에 고르게 영향을 미쳤는지, 편향적으로 영향을 미쳤는지에 대해서도 (측정 가능한 부분도 있겠지만) 불확실하다는 것은 여전히 남아있다.
물론 실험을 계획하고 최대한 통제한 후 가능한 한 많은 것을 분석할 수록 좋기는 하다. 하지만 실제 환경에서는 시간 및 여건 상 이렇게 하기도 쉽지 않고, 무엇보다 모든 실험이란 '블랙 박스'의 전제조건을 바탕으로 한다. 해당'블랙 박스'만 벗어나도 그 결과는 달라질 수 있다. 블랙 박스의 설정을 최소한으로 한 환경의 실험은 더욱 그렇다.
현실에서의 실험의 목적은 '불확실성'을 줄이기 위한 것이지, 어떤 정확한 예측을 위한 것이 아니다. '예측 분석'이 어느 정도의 가능성을 이야기하는 것과 마찬가지다. 물론 '실험'에서는 기본적인 설계를 통해 보다 정돈되고 일관성있는 결과를 내고, 오차를 최대한 보정하며, 무엇보다도 어느 정도의 명확한 수치를 보여준다.
하지만 이는 결국 일종의 제한된 '스냅샷'일 뿐이다. 우리는 의사 결정을 위해 그런 순간의 '스냅샷'들을 참고하고, 기존의 직관이나 주장에 조금의 '확신'을 더하고, 이런 것들을 모아서 새로운 사실을 유추해 내기도 한다. 따라서 해당 실험의 결과가 생각한 만큼 잘 나왔으면 좋겠고, 이를 더욱 많이 '신뢰'할 수 있으면 좋겠지만, 이런 '스냅샷'은 모든 시간에서의 모든 상황에 대한 진리가 될 수는 없다. 통계적 유의성은 사실 어떤 정도의 문제로, 5%의 유의 수준에서는 유의하지 않던 것이 10%의 유의 수준에서는 유의할 수 있다. 1%, 5%, 10% 등은 사실 좀 더 많이 사용되는 것일 뿐이다. 샘플 수도 마찬가지다. 무조건적으로 유의한 샘플 수 같은 것은 없다고 알고 있다. 상황과, 분야 등에 따라서 달라지고, 많으면 결과가 조금 더 잘 나올 뿐이다. 괜히 t-test같은 것이 발명된 것도 아니고, 어떻게든 결과는 조금이나마 활용할 수 있다.무비판적인 수용, 무조건적인 불신이 아닌, 일종의 확률과 조건의 문제다.
실험을 많이 해보고 이를 적용하는 것은 분명 중요하다. 하지만 이만큼 중요한 것은, 실험을 무엇을 위해서, 왜 하는 것인지 목적을 명확하게 두고, 기본적인 실험 설계 과정과 요인에 대해 이해하고, 실제로는 어떤 제약사항이 있는 지를 파악하고, 이에 대한 결과를 잘 해석하되, 이에 대한 불확실성을 확실히 인지하는 것이 필요하다. 또한 이런 불확실성을 감안했을 때 결과에 따라 어떤 의사 결정을 내릴 것인지에 대해 미리 고려해 두는 것 또한 분명 필요할 것이다.
근사값 밖에 구할 수 없는 상황에서는 완벽한 정확성을 추구하는 것보다 가능한 수준의 정밀도로 만족하는 것이 지식인에게 필요한 태도다. - 아리스토텔레스
(Reference)
Experimental Design Handbook: http://www.itl.nist.gov/div898/handbook/pri/section1/pri11.htm
How to measure Anything(by Douglas W. Hubbard) https://www.amazon.com/How-Measure-Anything-Intangibles-Business/dp/0470539399/ref=sr_1_3?s=books&ie=UTF8&qid=1485961574&sr=1-3&keywords=how+to+measure+anything
How not to be wrong:The power of mathematical thinking(by Jordan Ellenberg) https://www.amazon.com/How-Not-Be-Wrong-Mathematical/dp/0143127535