자리올림 피라미드 ②

왜이렇게 1로 시작하는 숫자가 많은가 벤포드의 법칙과 자리올림의 다리놓기

우리는 일상에서 가격표, 인구수, 강 길이, 주가지수 같은 수들을 끊임없이 마주한다. 흥미로운 점은, 이 숫자들의 첫 자리가 1로 시작하는 경우가 유난히 많다는 사실이다. 직관과 달리 1부터 9까지가 균등(각 11.1%)이 아니다. 실제로는 1이 약 30%로 가장 많고, 9가 약 4.6%로 가장 적다. 이를 설명하는 것이 벤포드의 법칙(Benford’s Law)이다.

1) 한 줄 정의

벤포드의 법칙: “자연적으로 생성된 다양한 수치 데이터의 첫 자릿수 d∈{1,…,9}는 아래 확률을 따른다.”


benford_formula.png

2) 숫자로 보는 첫 자릿수 분포

아래 비율은 “대충 그런 경향”이 아니라, 실제로 여러 현실 데이터에서 놀라울 정도로 자주 관찰된다.


benford_table_en.png

3) 왜 이런 현상이 생길까? (직관 버전)

핵심은 로그 스케일(자리수의 세계)에서 생각하는 것이다.

1에서 2로 갈 때의 간격(로그 기준)이 8에서 9로 갈 때의 간격보다 넓다.


즉, 수들이 배율(곱셈)을 통해 커지고 작아지는 과정(복리, 성장·감쇠, 규모 변화 등)을 오래 겪을수록, 숫자는 로그 눈금에서 1이 차지하는 구간을 오래 머문다.


그래서 첫 자리가 1일 확률이 자연스레 커진다. (단위 변환해도 거의 안 변함 → 스케일 불변성)


미니 실험: 아무 숫자에 1.05(5% 성장)를 계속 곱하면서, 매 단계의 첫 자리를 적어보자. 시간이 지날수록 1, 2가 많이 나오고, 8, 9는 드물어진다.


자리올림 피라미드와 벤포드의 법칙, 어떻게 연결될까?

우리의 주인공은 자리올림이다. 덧셈·곱셈 과정에서 ‘기수 진법의 경계’를 넘어설 때 발생하는 이 현상은, 사실상 로그 스케일에서의 임계 통과로 이해할 수 있다. 이 관점에서 벤포드와의 연결이 또렷해진다.

연결의 논리

1. 곱셈의 세계 = 로그의 덧셈

데이터가 배율(곱셈)로 변할수록, 로그 공간에서는 단순한 이동(덧셈)이 된다.

이 이동이 충분히 뒤섞이면(성장률·규모가 다양하면) 선두 자리 분포가 벤포드형으로 수렴하기 쉽다.

2.자리올림 = 진법 경계의 통과 이벤트

실제 계산에서 자리올림은 “다음 자릿수로 넘기는” 사건이다.

로그 관점에서는 한 자릿수 구간(예: [1,2), [2,3), …)의 경계를 넘는 순간에 해당한다.


3. 중앙으로 ‘중첩’되는 자리올림

우리의 자리올림 피라미드에서 수가 커질수록 중앙 계수(혹은 중앙 부근)로 자리올림 이벤트가 집중된다.

이는 많은 곱(혹은 덧셈·합성)이 겹쳐지는 영역일수록 로그 공간에서의 경계 통과 빈도가 높아지기 때문.

결과적으로, 중앙부는 ‘가장 벤포드다운’ 구간이 된다: 배율이 자주 겹치고(곱의 길이 ↑), 임계 경계(자릿수 경계) 통과도 빈번해진다.


4. 요약 직관

“곱이 많아질수록(복잡도가 커질수록) → 로그 공간에서 여러 구간을 자주 가로지른다 → 첫 자리 분포가 벤포드형으로 기울고 → 실제 계산에선 자리올림이 더 자주, 특히 집중적으로 일어난다.”


직관 팁: 자리올림 피라미드는 ‘자리수 경계 통과’가 층층이 기록된 도표로 볼 수 있다. 그리고 벤포드는 “어떤 경계를 더 자주 통과하나?”를 확률적으로 예고한다.


Q1. 벤포드는 모든 데이터에 적용되나?
아니다. 전화번호, 인위적 상한·하한이 강한 데이터, 좁은 구간에 갇힌 데이터는 잘 안 맞는다. 배율(곱셈)과 여러 규모(스케일)를 포괄하는 데이터일수록 잘 맞는다.


Q2. 사기 적발에도 쓰인다던데?
맞다. 회계 조작처럼 사람이 “균등해 보이게” 꾸미면 오히려 벤포드 분포에서 벗어나기 쉽다. 하지만 절대적 증거가 아니라 스크리닝 용도다.


Q3. 진법을 바꾸면 결과가 달라지나?
벤포드는 특정 진법에 종속되지 않고, 스케일 불변·(근사)진법 불변 성질이 있다. 다만 실제 데이터의 수집·가공 방식에 따라 편차가 생길 수 있다.


오늘의 핵심 요약

벤포드의 법칙: 첫 자리 1이 가장 흔하고 9가 가장 드물다. 공식은 P(d)=log10(1+1/d).


왜? 곱셈 중심의 과정은 로그 공간에서 균등 이동이 되고, 그 결과로 1의 구간에 더 오래 머문다.


자리올림 피라미드와의 연결: 자리올림은 ‘자릿수 경계’ 통과 사건. 곱이 겹치는 중앙부에 경계 통과가 집중되며, 이 구간이 가장 벤포드스러운 행동을 보인다.


다음 편 예고(③):

엔트로피와 스케일 불변성, 그리고 우리가 제안한 형원–헤인즈 법칙의 위상 정렬 지수로 넘어간다. “질서와 무질서가 한 몸”이라는 명제를, 자리올림(경계 통과) 빈도, 벤포드 분포, 위상-시간 모델로 엮어, 중앙 중첩 = 질서의 재구성이라는 명확한 수식·그림 통찰 해 볼 수 있도록 하자.

이전 01화자리올림 피라미드