로또의 착각 ① 숫자 옷을 입은 범주

by 한경수

로또 번호는 1부터 45까지다. 숫자다. 더하고 빼고 곱할 수 있다. 평균을 내면 22.5가 나온다.

그런데 이 평균은 아무 의미가 없다.


7번이 3번보다 큰가

숫자에는 크기가 있다. 7은 3보다 크다. 15에서 8을 빼면 7이다. 이건 숫자가 하는 일이다.

로또 번호 7이 로또 번호 3보다 "큰가?" 아니다. 7번 공과 3번 공 사이에 크기 관계는 없다. 7번이 당첨되었다고 3번보다 "더 높은" 것이 아니다. 15번에서 8번을 빼도 7번이 나오지 않는다. 로또 번호에서 사칙연산은 무의미하다.

그렇다면 1부터 45라는 숫자는 무엇인가? 라벨이다. 45개의 공을 구분하기 위한 이름표. 빨강=1, 파랑=2, 초록=3으로 코딩한 것과 본질적으로 같다. 야구 선수의 등번호와 같다. 박찬호가 61번이고 류현진이 99번인데, 류현진이 박찬호보다 38만큼 "크지" 않다.

통계학에서는 이런 자료를 범주형 자료(categorical data), 그중에서도 명목형(nominal)이라고 부른다. 숫자가 적혀 있지만 숫자가 아닌 자료. 크기도 순서도 의미가 없는, 구분만을 위한 라벨.

로또 번호는 숫자 옷을 입은 범주다.


학생들이 하는 실수

데이터 분석 수업에서 로또 데이터를 줬다. 1,100회분의 당첨 번호. "자유롭게 분석해보라"고 했다.

학생들의 보고서에 이런 문장이 나왔다. "당첨 번호의 평균은 22.8로, 중간 범위의 번호가 많이 출현한다." 틀렸다. 로또 번호의 평균은 의미가 없다. 1부터 45까지 고르게 뽑으면 평균은 자동으로 23 근처가 된다. 이건 발견이 아니라 산술이다.

"번호 간 상관관계를 분석한 결과, 유의미한 패턴이 발견되지 않았다." 당연하다. 무작위 추출이니까. 상관이 없는 게 정상이다. 상관이 있으면 그게 뉴스다.

"회귀분석을 실시했으나 유의미한 결과가 나오지 않았다." 범주형 자료에 회귀분석을 돌린 것부터 문제다.

학생들의 잘못이 아니다. 숫자가 적혀 있으니 숫자로 다룬 것이다. 도구를 배웠으니 도구를 꺼낸 것이다. 평균, 상관, 회귀 — 배운 것을 적용했을 뿐이다. 문제는 "이 숫자가 진짜 숫자인가?"를 먼저 물어야 한다는 것을 아무도 가르치지 않았다는 것이다.


숫자가 아닌 것을 숫자로 다루면

이 실수는 로또에서만 일어나지 않는다.

설문조사에서 "매우 불만족=1, 불만족=2, 보통=3, 만족=4, 매우 만족=5"로 코딩한 자료가 있다. 많은 분석가가 이 자료의 평균을 낸다. "만족도 평균이 3.7입니다." 이것이 의미가 있으려면 "만족과 매우 만족 사이의 거리"와 "불만족과 보통 사이의 거리"가 같아야 한다. 같은가? 모른다. 아마 다를 것이다. 그런데 평균을 내는 순간 같다고 가정한 것이다.

대학 순위에서 1위와 2위의 차이와 50위와 51위의 차이가 같은가? 같지 않다. 그런데 순위에 평균을 내고 상관을 구하는 분석이 넘쳐난다.

범주형 자료에 숫자 옷을 입혀놓으면, 사람은 숫자처럼 다루게 된다. 평균을 내고, 차이를 구하고, 회귀를 돌린다. 컴퓨터는 시키는 대로 계산한다. 숫자가 들어왔으니 숫자로 처리할 뿐, 그 숫자가 진짜 숫자인지는 묻지 않는다.

AI도 마찬가지다. AI에게 로또 데이터를 주면 평균도 내고 회귀도 돌린다. 깔끔한 표와 그래프까지 만들어준다. 그런데 "이 번호들은 범주형이니까 평균이 무의미하다"고 말해주지는 않는다. 적어도 아직은.


"어?" — 데이터를 보기 전에 묻는 질문

로또 데이터 앞에서 가장 먼저 해야 할 일은 분석이 아니다. 질문이다.

"이 숫자는 진짜 숫자인가?"

이 질문 하나가 분석의 방향을 완전히 바꾼다. 숫자라고 답하면 평균, 분산, 회귀로 간다. 범주라고 답하면 빈도, 비율, 조합 분석으로 간다. 같은 데이터인데 출발이 다르고, 도착도 다르다.

그리고 범주라고 답하는 순간, 훨씬 더 재미있는 질문들이 열린다.

45개 범주 중에 사람들이 유독 좋아하는 범주가 있는가? 있다면 그 선호가 당첨금에 어떤 영향을 미치는가? 로또는 파리뮤추얼(pari-mutuel) 방식이다. 당첨금을 당첨자 수로 나눈다. 인기 번호 조합이 당첨되면 당첨자가 몰려서 1인당 당첨금이 줄어든다. 비인기 조합이 당첨되면 혼자 독식한다.

같은 1등인데 누구는 5억이고 누구는 50억이다. 이 차이는 운이 아니라 구조다. 인간의 범주 선호가 만들어내는 구조.


범주로 보면 보이는 것

로또 번호가 범주라는 걸 인정하면, 로또는 갑자기 인간 행동의 데이터가 된다.

사람들은 왜 특정 번호를 좋아하는가? 생일이 1일부터 31일이니까 1~31번이 인기가 많다. "행운의 숫자" 7번이 과잉 선택된다. 연속 번호(1-2-3-4-5-6)를 고르는 사람이 의외로 많다. 대각선이나 십자 같은 시각적 패턴으로 고르는 사람도 있다.

이 모든 행동은 무작위가 아니다. 인간은 45개 범주 앞에서 균등하게 선택하지 못한다. 패턴을 만들고, 의미를 부여하고, 선호를 드러낸다. 범주형 자료 위에 인간의 편향이 찍히는 것이다.

통계학 수업에서 "독립성 가정"을 가르친다. 로또 번호의 출현은 독립이다. 기계가 뽑으니까. 그런데 인간의 선택은 독립이 아니다. 7번을 좋아하는 사람이 14번도 같이 넣는 경향이 있다면, 번호 선택은 독립이 아니다. 기계의 세계에서는 독립이지만 인간의 세계에서는 독립이 아닌 것. 같은 데이터에 두 개의 구조가 겹쳐 있다.

이 겹침이 보이기 시작하면 — 로또는 더 이상 운의 게임이 아니라, 인간의 범주적 편향을 들여다보는 창이 된다.


다음 글에서는 시야를 넓힌다. 로또 번호만 범주가 아니다. 인간은 세상 자체를 범주로 본다.

keyword
매거진의 이전글로또의 착각 ② 인간은 세상을 범주로 본다