3편에서 범주를 무작위로 섞어 시를 짓는 실험을 했다. 모집단의 설계가 곧 창작의 조건이라는 결론에 도달했다. 이제 로또로 돌아온다.
로또 데이터 하나로 어디까지 갈 수 있는가?
로또 데이터는 단순하다. 매 회차 6개 번호와 보너스 번호, 등수별 당첨자 수, 당첨금, 총 판매량. 2003년부터 약 1,100회분이 쌓여 있다.
이 데이터를 학생에게 주면 대부분 여기서 멈춘다. 각 번호의 출현 빈도를 세고, 히스토그램을 그리고, "7번이 가장 많이 나왔습니다"라고 쓴다. 1편에서 이야기한 것처럼, 평균을 내고 상관을 구하고 회귀를 돌리는 학생도 있다. 범주형 자료인 줄 모르니까.
그런데 1편의 질문 — "이 숫자는 진짜 숫자인가?" — 을 먼저 던지면, 전혀 다른 풍경이 열린다.
로또 4등 당첨금을 보자. 같은 4등인데 회차마다 금액이 다르다. 왜?
로또는 파리뮤추얼 방식이다. 당첨금 총액을 당첨자 수로 나눈다. 인기 번호 조합이 당첨되면 당첨자가 몰려서 1인당 당첨금이 줄어들고, 비인기 조합이 당첨되면 적은 사람이 나눠서 당첨금이 커진다.
이론적으로 모든 조합이 균등하게 선택된다면, 4등 당첨금은 매 회차 비슷해야 한다. 그런데 실제로는 편차가 크다. 이 편차가 곧 인간의 범주적 편향이 만들어낸 흔적이다.
여기서 자연스러운 질문이 나온다. "어떤 번호가 포함되면 당첨금이 줄어드는가?" 이 질문에 답하려면 어떤 도구가 필요한가?
45개 번호 각각을 독립변수로 놓는다. 해당 번호가 당첨 번호에 포함되면 1, 아니면 0. 종속변수는 4등 당첨금. 그런데 매 회차 총 판매량이 다르니까 당첨금을 그대로 쓸 수 없다. 표준화가 필요하다.
관측 당첨자 수를 기대 당첨자 수로 나눈 O/E ratio를 쓴다. 이 비율이 1보다 크면 "인기 조합이 당첨됐다", 1보다 작으면 "비인기 조합이 당첨됐다"로 해석할 수 있다.
45개 이진변수 → O/E ratio. 단순 선형회귀.
여기서 회귀계수의 부호를 보면, 어떤 번호가 인기 있고 어떤 번호가 비인기인지가 보인다. 1~31번(생일 범위)의 계수가 양의 방향이면 — 생일 번호가 당첨되면 당첨자가 많아진다는 뜻이고 — 인간의 생일 편향이 데이터에 찍힌 것이다.
학생이 1편에서 "로또 번호는 범주"라는 걸 이해했다면, 여기서 "왜 회귀분석을 쓰는가"의 답이 자연스럽게 나온다. 45개 범주 각각의 효과를 동시에 추정하고 싶으니까. 도구가 먼저가 아니라 질문이 먼저이고, 질문이 도구를 불러온 것이다.
여기서 문제가 터진다. 매 회차 정확히 6개 번호가 당첨되니까, 45개 변수의 합이 항상 6이다. 완전한 선형 종속은 아니지만, 변수들 사이에 구조적 제약이 있다.
회귀분석을 돌리면 계수가 불안정하다. 한 변수를 빼면 다른 변수의 계수가 크게 바뀐다. 다중공선성이다.
전통적 통계 수업에서 다중공선성은 이렇게 가르친다. "VIF를 구해보세요. 10 이상이면 문제입니다. 변수를 빼세요." 규칙을 먼저 가르치고, 왜 그 규칙이 필요한지는 나중에 — 혹은 영영 안 — 설명한다.
로또 데이터에서는 순서가 다르다. 학생이 직접 회귀분석을 돌렸고, 계수가 이상하게 나왔고, "왜?"를 물었고, 그 "왜?"의 답이 다중공선성이다. 문제가 먼저 왔고 개념이 따라온 것이다. 이 순서로 배운 다중공선성은 VIF 공식을 외운 것과는 체화의 깊이가 다르다.
다중공선성을 해결하려면 어떻게 하는가?
45개 중 1개를 기준으로 빼고 44개만 넣는 더미변수 방식이 있다. 구조적으로 해결된다. 그런데 계수 추정이 여전히 불안정하다면?
Ridge 회귀가 등장한다. 계수를 0 쪽으로 축소하면서 추정을 안정화한다. Lasso를 쓰면 비인기 번호들의 계수를 아예 0으로 보내서 "진짜 인기/비인기 번호"만 골라낼 수도 있다.
전통적 수업에서 Ridge와 Lasso는 이렇게 가르친다. "정규화 기법입니다. L1 페널티는 이것이고 L2 페널티는 저것입니다. 수식은 이렇습니다." 학생은 "이걸 어디에 쓰는 거지?"라는 의문을 안고 기법을 외운다.
로또 데이터에서는 학생이 이미 문제를 만났다. OLS를 돌렸는데 불안정하다. 왜 불안정한지를 알았다. 공선성 때문이다. 그러면 어떻게 해결하는가? 이 갈증 위에 Ridge를 얹으면 — "아, 이래서 이게 필요한 거구나"가 된다.
같은 Ridge인데 체화의 깊이가 다르다.
여기서 끝이 아니다. 같은 분석을 3등, 4등, 5등에 각각 적용하면 어떤 일이 벌어지는가?
5등은 3개만 맞추면 된다. 당첨자가 수만 명이니 O/E ratio의 분산이 작고 추정이 안정적이다. 개별 번호의 주효과만으로도 꽤 설명될 가능성이 높다.
3등은 5개를 맞춰야 한다. 당첨자가 수십~백 명이니 변동이 크다. 개별 번호보다 조합의 효과가 중요해질 수 있다. "7번과 14번을 함께 고르는 사람이 많다"는 상호작용이 3등에서 더 두드러질 수 있다.
세 등수의 회귀계수를 비교하면 "번호 선호도 구조가 등수에 관계없이 일관되는가?"를 확인할 수 있다. 일관되면 인간의 범주적 편향이 하나의 안정된 구조를 갖고 있다는 증거이고, 등수마다 다르면 조합 수준의 편향이 존재한다는 증거다.
하나의 데이터셋인데, 질문을 바꿀 때마다 새로운 분석이 열린다.
이 글을 처음부터 따라왔다면, 하나의 흐름이 보일 것이다.
"이 숫자는 진짜 숫자인가?"에서 시작해서 — 범주형 자료의 본질 → 인간 편향의 구조 → O/E ratio로 표준화 → 회귀모형 설계 → 다중공선성 → 정규화 기법 → 등수별 비교. 한 줄로 이어진다.
그리고 매 단계에서 도구는 질문 뒤에 왔다. "회귀분석이란 이런 것이다"를 먼저 가르친 게 아니라, "어떤 번호가 인기 있는지 알고 싶다"는 질문이 먼저 나오고, 그 질문에 답하려면 회귀분석이 필요하다는 걸 학생이 느낀 것이다.
이것이 로또 데이터 하나로 가능했다.
통계학과 커리큘럼에는 방법론 과목이 20개 가까이 있다. 확률론, 수리통계, 회귀분석, 다변량 분석, 시계열, 베이지안, 비모수, 실험 계획법. 각각 다른 데이터셋으로, 다른 맥락에서, 다른 학기에 배운다. 연결이 안 된다. 학생은 20개의 고립된 도구를 갖게 된다.
로또 데이터 하나에서 이 모든 개념이 연쇄적으로 나왔다. 범주 → 빈도 → 기댓값 → 표준화 → 회귀 → 공선성 → 정규화. 하나의 질문이 다음 질문을 불렀고, 다음 질문이 다음 도구를 불렀다.
이 시리즈는 로또 번호가 숫자가 아니라는 한 줄에서 출발했다. 거기서 범주적 인지, 세계관의 경직성, 무작위 시 생성, 전문가의 본질, 그리고 통계학 전체의 연쇄까지 왔다.
어떤 주제든 하나의 노드가 여러 범주망에 동시에 속해 있다. 로또는 확률이면서, 인지심리학이면서, 범주론이면서, 회귀분석이면서, 교육론이다. 어떤 맥락에서 활성화하느냐에 따라 전혀 다른 이야기가 열린다. 이것이 범주의 네트워크이고, 이것이 인간 사고의 구조이고, 이것이 DRIP이다.
데이터를 보고 "어?"라고 느끼는 순간. 그 "어?"를 질문으로 바꾸는 능력. 질문이 다음 질문을 부르는 연쇄. 이 연쇄를 따라가면 하나의 데이터셋에서 통계학 전체가 나온다.
로또 번호가 숫자가 아니라는 데서 여기까지 왔다. 그리고 아직 끝나지 않았다.