소수의 법칙과 성급한 일반화

적은 데이터로 전체를 판단하는 본능과 그 위험성

by 김응석

결과론의 함정에서 빠져나오기 위해서는 한 번의 성공이나 우연한 실패가 아닌, 긴 호흡의 확률을 바라봐야 합니다. 여기서 말하는 긴 호흡의 확률이란 단기적인 변동성에 일희일비하지 않고, 충분히 많은 데이터가 쌓였을 때 나타나는 본질적인 승률(확률)을 의미합니다.

5장_그림1.png

일상의 사례로 비유하자면, 다이어트를 할 때 매일 아침 몸무게를 재며 0.1kg의 변화에 일희일비하지 않는 것과 같습니다. 어제저녁에 마신 물 한 잔이나 오늘 아침의 컨디션에 따라 몸무게는 얼마든지 일시적으로 변할 수 있습니다. 하지만 한 달, 두 달 동안 꾸준히 기록된 체중의 흐름이 쌓여야 비로소 내 몸이 실제로 변화하고 있는지를 보여주는 진짜 데이터가 드러납니다. 우리는 일상에서 이러한 긴 호흡을 기다리지 못하고, 당장 눈앞의 적은 데이터로 전체를 판단하려는 본능에 굴복하곤 합니다. 이런 또 다른 심리적 장벽을 너무 적은 데이터로 전체를 판단하려는 본능이라고 할 수 있습니다.


1.100% 승률의 함정: 소수의 법칙

우리는 종종 ‘내가 해봐서 아는데’라는 말을 즐겨 씁니다. 혹은 ‘내 친구가 거기 가봤는데 별로라더라’라는 한마디에 오랜 계획을 취소하기도 합니다. 단 한두 번의 경험이나 주변의 소수 사례를 근거로 대상의 본질을 파악했다고 믿는 것입니다. 행동경제학자들은 이를 소수의 법칙(The Law of Small Numbers)이라고 부릅니다. 통계학적으로 표본이 충분히 많아야 전체를 대변할 수 있다는 대수의 법칙(The Law of Large Numbers)을 비꼬는 표현이기도 합니다.

동전을 던져 앞면이 나올 확률은 50%입니다. 하지만 동전을 딱 세 번만 던졌을 때, 운 좋게 세 번 모두 앞면이 나올 수도 있습니다. 이때 누군가 ‘이 동전은 앞면만 나오는 마법의 동전이야!’라고 주장한다면 당신은 코웃음을 칠 것입니다. 표본이 너무 적다는 것을 직관적으로 알기 때문이죠. 하지만 일상의 복잡한 문제 앞에서 우리는 이 동전 던지기와 똑같은 실수를 저지릅니다.

신입 사원의 첫 프로젝트:
입사하자마자 맡은 첫 업무에서 큰 성과를 낸 신입 사원을 보고 천재가 들어왔다고 확신합니다. 이는 단기적인 운이 작용한 결과일 뿐, 실제 역량이라는 긴 호흡의 데이터는 아직 쌓이지 않았음을
간과한 판단입니다.
스포츠 선수의 초반 기록:
시즌 첫 두 경기에서 연속으로 홈런을 치는 선수를 보고 올해 홈런왕은 따놓은 당상이라며 흥분합니다. 하지만 이는 그날의 컨디션이나 운이 작용한 소수의 표본일 뿐이며, 한 시즌 전체라는 대수의
법칙이 적용되면 선수의 실제 평균 실력으로 돌아오게 됩니다.
성급한 일반화:
여행지에서 불친절한 택시 기사를 한 명 만나면 이 나라는 사람들이 불친절해라고 단정 짓습니다.
5장_그림2.png


2. 극단값은 항상 작은 표본에서 나온다.

데이터가 적을수록 결과는 평균에서 벗어나 극단적으로 나타날 확률이 높습니다. 이를 이해하는 것은 확률적 사고의 핵심입니다. 요리를 할 때 국물 맛을 한 번만 살짝 본다고 해서 그 냄비 전체의 맛을 완벽히 확신할 수 없는 것과 같습니다. 운 좋게 고기 건더기가 걸린 한 숟가락은 아주 맛있을 수 있지만, 전체를 충분히 섞어서 맛보지 않으면 국물이 너무 짠지 싱거운지 정확히 알 수 없습니다. 표본이 적은 한 숟가락은 맛의 변동성이 크지만, 냄비 전체라는 큰 표본은 요리의 본래 맛을 정직하게 보여줍니다.


빌 게이츠 재단은 2000년대 초반 소규모 학교의 학업 성취도가 대규모 학교보다 높다는 데이터를 발견하고, 학교를 쪼개는 소규모 학교 만들기(Small Schools Movement) 프로젝트에 막대한 자금을 지원했습니다. 통계적으로 소규모 학교들이 우수 학교 리스트 상위권을 차지했기 때문입니다. 하지만 나중에 밝혀진 진실은 충격적이었습니다. 최하위권 학교들 역시 대부분 소규모 학교였던 것입니다.

학생 수가 적으면, 즉 표본이 작으면 몇 명만 성적이 올라도 학교 전체 평균이 급등하고, 몇 명만 망쳐도 평균이 급락합니다. 소규모 학교는 교육의 질이 높았던 것이 아니라 변동성(Volatility)이 컸던 것뿐입니다. 표본의 크기를 고려하지 않은 채 데이터의 결괏값만 보면, 우리는 소음(Noise)을 신호(Signal)로 착각하게 됩니다. 이 프로젝트는 표본 편향(Sampling Bias)의 오류를 보여주는 대표적인 사례가 되었습니다.

5장_그림3.png


3. 일상에서 N(표본 수)을 묻는 습관

불확실성을 이기는 무기를 갖추기 위해서는 본능적으로 튀어나오는 성급한 일반화를 경계해야 합니다. 긴 호흡의 확률을 확인하기 위해 일상에서 다음과 같은 질문을 던지는 습관을 들여보세요.


첫째, 데이터의 크기(N)는 얼마인가? 누군가 이 영양제가 정말 효과가 있다고 주장할 때, 그가 단 한 번 먹어보고 느낀 기분인지 아니면 수개월간 꾸준히 챙겨 먹으며 나타난 변화인지 확인하십시오. n=1 혹은 n=3 정도라면 그것은 정보가 아니라 에피소드에 불과합니다. 충분한 N이 쌓여야만 운이라는 소음이 걷히고 실력이라는 신호가 보입니다.

둘째, 평균으로의 회귀를 고려했는가? 유난히 좋거나 나쁜 결과는 지속되지 않습니다. 첫인상이 너무 완벽한 사람이나 첫 끗발이 너무 좋은 도박은 시간이 지나면 결국 평범한 수준인 평균으로 돌아옵니다. 초반의 데이터가 적을 때 나타나는 극단적인 성과는 시간이 지나 데이터가 쌓일수록 본질적인 평균값에 수렴하게 됩니다.

셋째, 반례를 찾아보았는가? 자신의 가설을 지지하는 증거만 수집하려는 확증 편향을 이기려면, 의도적으로 반대 사례를 찾아봐야 합니다. 성공한 사람의 습관을 따라 하기 전에, 똑같은 습관을 지니고도 실패한 사람은 없는지 살펴보는 것이 표본의 편향을 막는 길입니다.


4. 과연 얼마나 많은 데이터가 필요할까요?


그렇다면 현실적으로 얼마 만큼의 데이터 숫자가 쌓여야 신뢰할 수 있을까요? 정답은 상황에 따라 다르지만, 통계학에서는 대략 30개(n=30)라는 숫자를 하나의 중요한 기준으로 삼습니다. 일반적으로 30개 이상일 경우 ‘평균’의 분포가 정규(Normal) 분포를 따른다는 ‘중심극한정리’와 't-분포 활용'의 경험적 규칙입니다. 통계적 분석에서 정규분포의 이점을 활용할 수 있기 때문에 실용적이고 경험적인 최소한의 표본 크기로 널리 받아들여져 왔습니다.


하지만 실무적인 관점에서는 데이터의 양보다 변동성이 더 중요합니다.

첫째, 변동성이 큰 대상일수록 더 많은 데이터가 필요합니다. 어떤 맛집의 리뷰가 10개인데 평점이 5.0이라면 아직은 운일 가능성이 큽니다. 하지만 리뷰가 30개를 넘어 100개가 되었는데도 평점이 유지된다면, 그것은 실력이라는 신호입니다. 반면, 매일 맛이 바뀌는 식당이라면 100개의 리뷰로도 부족할 수 있습니다.

둘째, 실패의 비용이 클수록 데이터의 문턱을 높여야 합니다. 오늘 점심 메뉴를 고를 때는 블로그 리뷰 2~3개만으로도 충분할 수 있습니다. 실패해도 한 끼 식사일 뿐이니까요. 하지만 수억 원이 들어가는 투자나 내 건강이 걸린 치료법을 선택할 때는 n=30조차 부족합니다. 수천 명, 수만 명을 대상으로 검증된 임상 데이터나 장기간의 통계적 증거를 확인해야 합니다.

셋째, 데이터의 질이 양을 압도할 때도 있습니다. 단순히 숫자가 많다고 좋은 것은 아닙니다. 나와 전혀 상관없는 사람들의 데이터 1,000개보다, 나와 조건이 비슷한 사람들의 데이터 10개가 더 유용할 때가 있습니다. 이를 기저율과 연결하여 생각하면 더욱 정교한 판단이 가능해집니다.

5장_그림4.png


앞 장에서 말씀드린 바와 같이 우리의 뇌는 인과관계를 사랑합니다. 우연히 일어난 일들을 엮어 그럴싸한 이야기를 만드는 것을 좋아하죠. 하지만 확률적 사고를 하는 사람은 이야기의 매혹에 빠지기 전에 냉정하게 묻습니다. "그 결과는 충분한 데이터와 변동성을 견뎌내며 반복 검증되었는가?"

표본이 쌓일 때까지 기다릴 줄 아는 태도, 즉 긴 호흡으로 확률을 바라보는 힘이 성급한 판단으로 인한 비용을 줄이고 불확실한 세상에서 현명한 베팅을 하는 방법입니다.

keyword
이전 04화'나만은 다를 거야'라는 착각