쉽게 풀어쓴 벤포드의 법칙 × 엔트로피 × 위상(phase)
벤포드의 법칙이 왜 나타나는지 직관 → 수식 → 응용 순서로 한눈에 이해
자리올림 피라미드(중앙 중첩)와 경계 통과(자리올림)의 연결 고리 정리
첫 자릿수 분포가 1에 치우치는 현상(벤포드)은 곱셈적(배율) 변화가 오래 누적되어, 로그 눈금에서 가수 위상(phase)이 거의 균등해질 때 자연히 나온다.
그 상태에선 자릿수 경계를 넘는 사건(= 자리올림)이 중앙부(곱이 많이 겹치는 영역)에 집중된다.
정의
P(first digit = d) = log10(1 + 1/d), d = 1,2,...,9
첫 자릿수 분포(%) — 현실 데이터에서 자주 관찰됨: (이전편 표 참조)
첫 자리 d 1 2 3 4 5 6 7 8 9
P(d) % 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6
현실의 크기 변화는 곱셈(배율)로 일어난다 → 로그에서는 덧셈이 된다.
로그 눈금에서 [1,2) 구간은 [8,9)보다 폭이 넓다.
곱셈이 오래 누적될수록 값은 로그 눈금의 넓은 구간([1,2))에 오래 머문다.
그래서 첫 자릿수 1이 가장 자주 나타난다.
미니 실험: 아무 양수에 1.05를 계속 곱하면서 첫 자릿수를 기록해보면 1·2가 자주, 8·9는 드물게 나타난다.(전편참조)
기호 정의
X > 0
(양수 데이터)
phi = frac(log10 X)
// 여기서 frac는 소수부(가수)를 뜻함. phi ∈ [0,1)
첫 자릿수 조건
first digit = d
⇔
phi ∈ [log10 d, log10(d+1))
핵심 명제
phi
가 [0,1)에서 거의 균등(≈ 균일 분포)이면
P(first digit = d) = log10(1 + 1/d) 가 된다. (바로 위 구간 길이)
스케일 불변성(단위 바뀌어도 유지)
log10(αX) = log10 X + log10 α
→
phi 는 단지 **이동(mod 1)**하므로 분포는 거의 그대로.
미시 엔트로피(phase): phi = frac(log10 X)의 섞임 정도. 균등에 가까울수록 최대.
거시 엔트로피(first-digit): 첫 자릿수 분포의 셰넌 엔트로피. 계산식: H1 = -∑_{d=1..9} p_d * log2(p_d) 벤포드에서 H1 ≈ 2.876 bits 완전 균등(각 1/9)이면 log2(9) ≈ 3.170 bits (더 큼)
→ 역설적으로 미시(phase)가 최대 혼합일수록 거시(첫 자릿수)에서는 특유의 비균등 패턴(=벤포드)이 나타난다.
→ “혼돈(미시)이 질서(거시)를 낳는다.”
자리올림 = 자릿수 경계(예: 9→10) 통과 이벤트
로그 관점: phi가 한 스텝에서 구간 경계를 넘을 때 발생
중앙 중첩(자리올림 피라미드): 많은 곱/합성이 겹치는 중앙부에서
phi 의 섞임이 가장 빠르며,
→ 벤포드 조건
(가수 균등)에 가장 근접
→ 경계 통과(자리올림)가
더 자주 , 집중적으로 발생
요컨대, 중앙의 자리올림 집중 = 위상 혼합이 성숙한 결과다.
정의
phi = frac(log10 X)
의 분산을
Var(phi)
라고 하자.
균등[0,1) 분산은 1/12이므로, 혼합도 지표를
H_B = 1 − 12 * Var(phi)
로 두자. (필요시 0~1로 클리핑)
H_B ≈ 0 → phi가 균등(미시 혼합 최대) → 벤포드 근사 강함
H_B ↑ → phi가 특정 구간에 몰림(정렬) → 비벤포드 경향
자리올림 피라미드 해석 중앙부: 혼합 빠름 → Var(phi) → 1/12 → H_B → 0 → 경계 통과 패턴 안정 → 자리올림 집중 외곽부: 혼합 느림 → H_B 커짐 → 비정상적(편향된) 자리올림 분포 가능
phi = frac(log10 X) 히스토그램이 평평한가? (균등성 검정: KS 등)
H_B = 1 − 12 * Var(phi)로 혼합도 빠르게 추정
첫 자릿수 엔트로피 H1가 2.876 bits 부근인가? (벤포드 근사 진단)
실제 계산 흐름에서 자릿수 경계 통과 지도를 그려 중앙부 집중 여부 확인
곱셈적 변화가 오래 누적되면 → 로그의 가수 phi가 균등에 가까워짐
phi가 균등하면 → 첫 자릿수 분포는 벤포드
자리올림은 자릿수 경계 통과 사건이며 → 곱이 많이 겹치는 중앙부에서 집중
혼합도 지표: H_B = 1 − 12 * Var(phi) (작을수록 “벤포드스럽다”)
자리올림 피라미드의 “중앙 중첩 = 질서의 재구성”을 더 정량화
경계 통과율(빈도)의 시간/합성 깊이에 따른 변화