자리올림 피라미드 ③

쉽게 풀어쓴 벤포드의 법칙 × 엔트로피 × 위상(phase)

by 머리카락속의 바람

이 글의 목표

벤포드의 법칙이 왜 나타나는지 직관 → 수식 → 응용 순서로 한눈에 이해


자리올림 피라미드(중앙 중첩)와 경계 통과(자리올림)의 연결 고리 정리



0) 한 줄 요약

첫 자릿수 분포가 1에 치우치는 현상(벤포드)은 곱셈적(배율) 변화가 오래 누적되어, 로그 눈금에서 가수 위상(phase)이 거의 균등해질 때 자연히 나온다.


그 상태에선 자릿수 경계를 넘는 사건(= 자리올림)이 중앙부(곱이 많이 겹치는 영역)에 집중된다.


1) 벤포드의 법칙: 정의와 표


정의

P(first digit = d) = log10(1 + 1/d), d = 1,2,...,9



첫 자릿수 분포(%) — 현실 데이터에서 자주 관찰됨: (이전편 표 참조)



첫 자리 d 1 2 3 4 5 6 7 8 9




P(d) % 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6





2) 직관: 왜 1이 많이 나오지?

현실의 크기 변화는 곱셈(배율)로 일어난다 → 로그에서는 덧셈이 된다.


로그 눈금에서 [1,2) 구간은 [8,9)보다 폭이 넓다.


곱셈이 오래 누적될수록 값은 로그 눈금의 넓은 구간([1,2))에 오래 머문다.


그래서 첫 자릿수 1이 가장 자주 나타난다.



미니 실험: 아무 양수에 1.05를 계속 곱하면서 첫 자릿수를 기록해보면 1·2가 자주, 8·9는 드물게 나타난다.(전편참조)


3) 형식(간단 수학): “가수 위상이 균등하면 벤포드”


기호 정의

X > 0

(양수 데이터)



phi = frac(log10 X)

// 여기서 frac는 소수부(가수)를 뜻함. phi ∈ [0,1)




첫 자릿수 조건

first digit = d

phi ∈ [log10 d, log10(d+1))




핵심 명제

phi

가 [0,1)에서 거의 균등(≈ 균일 분포)이면



P(first digit = d) = log10(1 + 1/d) 가 된다. (바로 위 구간 길이)




스케일 불변성(단위 바뀌어도 유지)

log10(αX) = log10 X + log10 α

phi 는 단지 **이동(mod 1)**하므로 분포는 거의 그대로.



4) 엔트로피: “혼합(미시) ↑ → 패턴(거시) ↓”

미시 엔트로피(phase): phi = frac(log10 X)의 섞임 정도. 균등에 가까울수록 최대.


거시 엔트로피(first-digit): 첫 자릿수 분포의 셰넌 엔트로피. 계산식: H1 = -∑_{d=1..9} p_d * log2(p_d) 벤포드에서 H1 ≈ 2.876 bits 완전 균등(각 1/9)이면 log2(9) ≈ 3.170 bits (더 큼)


→ 역설적으로 미시(phase)가 최대 혼합일수록 거시(첫 자릿수)에서는 특유의 비균등 패턴(=벤포드)이 나타난다.
→ “혼돈(미시)이 질서(거시)를 낳는다.”

5) 자리올림 피라미드와의 연결: ‘경계 통과’로 본 자리올림

자리올림 = 자릿수 경계(예: 9→10) 통과 이벤트


로그 관점: phi가 한 스텝에서 구간 경계를 넘을 때 발생



중앙 중첩(자리올림 피라미드): 많은 곱/합성이 겹치는 중앙부에서

phi 의 섞임이 가장 빠르며,


→ 벤포드 조건

(가수 균등)에 가장 근접


→ 경계 통과(자리올림)가

더 자주 , 집중적으로 발생



요컨대, 중앙의 자리올림 집중 = 위상 혼합이 성숙한 결과다.

6) 혼합도를 재는 간단 지표: H_B(= Benford-phase index)


정의

phi = frac(log10 X)

의 분산을

Var(phi)

라고 하자.


균등[0,1) 분산은 1/12이므로, 혼합도 지표를


H_B = 1 − 12 * Var(phi)


로 두자. (필요시 0~1로 클리핑)


H_B ≈ 0 → phi가 균등(미시 혼합 최대) → 벤포드 근사 강함


H_B ↑ → phi가 특정 구간에 몰림(정렬) → 비벤포드 경향




자리올림 피라미드 해석 중앙부: 혼합 빠름 → Var(phi) → 1/12 → H_B → 0 → 경계 통과 패턴 안정 → 자리올림 집중 외곽부: 혼합 느림 → H_B 커짐 → 비정상적(편향된) 자리올림 분포 가능


7) 체크리스트(간단)

phi = frac(log10 X) 히스토그램이 평평한가? (균등성 검정: KS 등)


H_B = 1 − 12 * Var(phi)로 혼합도 빠르게 추정


첫 자릿수 엔트로피 H1가 2.876 bits 부근인가? (벤포드 근사 진단)


실제 계산 흐름에서 자릿수 경계 통과 지도를 그려 중앙부 집중 여부 확인


요약 직관

곱셈적 변화가 오래 누적되면 → 로그의 가수 phi가 균등에 가까워짐


phi가 균등하면 → 첫 자릿수 분포는 벤포드


자리올림은 자릿수 경계 통과 사건이며 → 곱이 많이 겹치는 중앙부에서 집중


혼합도 지표: H_B = 1 − 12 * Var(phi) (작을수록 “벤포드스럽다”)


다음 편(④) 예고


자리올림 피라미드의 “중앙 중첩 = 질서의 재구성”을 더 정량화


경계 통과율(빈도)의 시간/합성 깊이에 따른 변화

이전 02화자리올림 피라미드 ②