데이터의 함정

데이터보다 직관이 뛰어난 순간들

Dec 26. 2022

통계학에서 데이터를 분석해 결과를 도출하는 방식으로 MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posteriori Estimation)라는 두 가지 추정법이 있다. MLE는 관측된 데이터에 기반해 해당 데이터가 발생할 확률이 가장 높은 모델을 추정하는 방식이고, MAP는 데이터를 관측하기 이전에 가지고 있던 나의 직관과 데이터를 혼합해서 사후 확률이 가장 높은 모델을 추정하는 방식이다. 오랜만에 듣는 기술 용어들이라 어색하겠지만 MLE와 MAP의 기저에는 빈도주의(frequentist) vs 베이지안(baysian)이라는 통계학의 케케묵은 논쟁과 데이터와 직관이라는 세상을 바라보는 두 관점이 모두 담겨 있는 흥미로운 주제이다.

MLE(Maximum Likelihood Estimation)

MLE는 우리가 흔히 얘기하는 통계, 데이터에 기반한 의사결정이다. 데이터를 분석해 평균을 구하고 간단한 모델링을 하는 등 상당 수의 익숙한 통계 기법이 여기에 해당한다. MLE란 관측된 데이터를 바탕으로, 해당 관측 데이터를 가장 높은 확률로 발생시킬 수 있는 모델을 추정하는 방식이다. 단순한 예시로 동전을 하나 주고 동전의 앞면이 나올 확률을 구해야 한다면, 동전을 1000번 던져보고 앞면이 나온 횟수를 통해 확률을 계산하는 원리이다. 만약 1000번 중 앞면이 505번, 뒷면이 495번 나왔다면 앞면이 나올 확률은 50.5%이다. 매우 합리적인 추론 과정이다.

다만 흥미로운 건 사람들은 이걸 보고 '오 꽤나 50%에 근접하게 나왔네 역시 통계는 정확해'라는 생각을 한다는 점이다. 앞면이 나올 확률을 50.5%라고 그대로 받아들이지 않고 50%에 이를 비교하면서 '합리적인 결과로군'이라 해석한다. 조금 더 노골적인 예시를 들어보면 동전을 4번 던져서 앞면이 1번 뒷면이 3번 나왔다고 하자. MLE에 따르면 앞면이 나올 확률은 25%이다. 이 결과를 보면 많은 사람들이 '4번 밖에 안 던졌으니 그럴 수 있지'라고 생각한다. 데이터는 분명 25%를 얘기하고 있는데 사람들은 이를 25%로 받아들이지 않고 '아마도 50% 겠지 뭐~'라는 생각이 기저에 깔려 있다. 바로 여기서 MAP의 개념이 등장한다.

MAP(Maximum A Posteriori Estimation)

한 번도 던져본 적 없는 동전의 앞면이 나올 확률이 얼마일까? MLE에 따르면 알 수 없다가 정답이지만 우리는 50%라고 생각한다. 바로 그 50%라는 생각이 직관(prior, 사전 확률)의 영역이다. 때문에 설사 앞면이 연속으로 3번 나와도 100% 앞면만 나오는 동전이라고 바로 결정 내리지 않는 이유이다. MAP는 데이터가 주장하는 바와 나의 직관을 적절하게 혼합(Bayes' theorem)하여 앞면이 나올 확률을 계산하는 방식이다. 당연한 얘기지만 동전을 1000번을 던졌는데 모두 앞면이 나왔다면 우리의 직관을 버리고 앞면이 100% 나오는 동전이라고 결론 내릴 것이다. 즉, 데이터가 얘기하는 방향(앞면이 나올 확률)과 그 세기(데이터의 양과 질에서 추정되는 신뢰도)를 나의 직관(앞면이 나올 확률은 50%겠지)과 그 믿음의 크기(동전은 죽었다 깨어나도 50%야)를 적절하게 혼합시킨 게 MAP의 추정 방식이다.

이해를 돕기 위해 나는 동전 앞면이 나올 확률은 50%라고 믿고 믿음의 크기를 100이라고 하자. 믿음의 크기가 100이라는 의미는 나는 100번 정도 동전을 던져봤고 그때 50번은 앞면이 나온 경험이 있어! 정도의 신뢰도라고 생각해 보자. 동전을 추가로 10번 던졌고 앞면이 6번 나왔다면 직관과 데이터를 합친 나의 결론은 총 110번 동전을 던져서 56번 앞면이 나오는 확률, 51%이다. 이번에는 같은 60%지만 동전을 1000번을 던져서 앞면이 600번 나왔다면 1100번 중 650번으로 59%로 데이터가 주장하는 바에 훨씬 근접한 결론이 나오고, 반대로 믿음의 크기가 1000이었다고 하면 1010번 던져서 506번 앞면으로 50.1%로 직관에 가까운 결론이 나온다.

MLE의 한계와 MAP의 의미

혹자는 데이터가 훨씬 중요하지 근거 없는 직관을 (신성한 데이터 분석에) 어떻게 반영할 수 있느냐고 반문할 수 있다. 사실 한 가지 조건 하에서 MLE와 MAP는 완벽하게 동일한 결론을 도출한다. 그것은 바로 데이터가 무한하다는 조건이다. 그러나 장기적으로 우리는 모두 죽는다는 말을 남긴 케인즈처럼, 현실에서 데이터는 무한하지도 않고 완벽하지도 않다. MLE의 가장 큰 한계점은 데이터에 100% 의존하다 보니 데이터의 양이 적거나 질이 낮을 때 잘 못 된 결과(마치 앞면 100%의 동전처럼)를 낼 수 있다는 점이다. MAP는 직관이라는 개념을 통해 이를 보정하고 적은 데이터에서 훨씬 안정적으로 동작할 수 있다.

MAP가 MLE보다 데이터가 적을 때 유용하다면, 데이터가 어느 정도면 많고 어느 정도면 적은 걸까? 통계학에서 데이터의 양은 절대치가 아닌 풀고자 하는 문제의 복잡도와 비교되는 개념이다. 간단한 문제는 적은 데이터도 충분할 수 있고, 어려운 문제는 수백만 개의 데이터도 부족할 수 있다. 즉 데이터가 적다는 건 내가 풀고자 하는 문제의 복잡도 대비 적다는 의미이고 데이터가 많다는 건 풀고자 하는 문제를 푸는데 충분하다는 의미이다. 즉 풀고자 하는 문제가 복잡하고 데이터가 적을수록 데이터 자체보다 (때로는 근거 없다고 치부되는) 직관이 더 중요해진다는 것이다.

어려운 용어로 MLE는 unbiased estimator이나 모델의 variance가 커서 overfitting에 취약하다. MAP는 prior라는 bias가 생기지만 variance를 낮춰 overfitting에 강하다. 전형적인 bias-variance trade-off의 예시이다. 사실 데이터의 양은 모델의 복잡도와도 관련되어 있고 MLE, MAP라는 추론 방식과 무관하게 모델의 표현력을 낮춰 bias를 높이는 것도 방법이나 이번 글의 범위를 벗어나니 언급하지 않겠다.

데이터와 직관에 기반한 의사결정

데이터의 시대를 살고 있는 우리는, 데이터에 기반한 의사결정을 신성시하지만 현실의 문제는 그렇지 않다. 특히 매우 높은 복잡도의 문제를 풀지만 정제된 데이터라고는 찾아보기 힘든 스타트업 환경에서는 역설적으로 직관(소위 인사이트라 불리는)이 더 중요할 수 있다. 데이터를 무시하자는 게 아니다. 직관(prior)을 가지고 판단을 내리지만 데이터를 꾸준히 살피며(likelihood) 나의 생각(posterior)을 유연하게 바꿔나가는 자세가 필요하다. 그리고 그 경험들은 새로운 직관(prior)으로 자리 잡을 것이다. 이게 MAP의 본질이자 사업을 대하는 나의 태도이기도 하다. 좋은 의사결정이란 데이터가 얘기하는 바와 그 신뢰도, 나의 직관과 확신의 정도, 풀고자 하는 문제와 복잡도까지 모든 요소가 적절하게 반영된 결과물이다.

keyword

최석원

(주)메이사 창업자

팔로워 148

매거진의 이전글인생의 정점을 지나 보내는 순간 당신의 선택은 항상 옳다매거진의 다음글