Zipf's law
텍스트 중 어구별 빈출 순위와 빈도의 관계에서 k번째로 많은 어구의 빈도가 첫 번째로 많은 어구의 빈도의 1/k 값이 되는 법칙
대량의 텍스트에 사용된 어구의 빈출 순위와 빈도를 집계하면 빈출 순위가 k번째 빈도는 빈출 순위 첫 번째 빈도를 1/k 한 값이 되는 법칙을 지퍼의 법칙이라고 한다. 이 법칙이 기능하는 세계를 “지프 구조"라고 기록하는 논자도 있다.
미국의 언어학자 George Kingsley Zipf가 제창했다.
지프씨는 어느 텍스트로부터 영단어마다의 빈도를 높은 순서로 나열했을 때, 아래의 표와 같이 빈출 순위(r)와 빈도(f)를 곱하면 거의 같은 값이 되는 것을 발견했다.
빈출 순위가 두 번째인 단어의 빈도는 빈출 순위 첫 번째인 단어의 빈도의 약 1/2이며 빈출 빈도가 세 번째인 단어의 빈도는 빈출 순위가 첫 번째인 단어의 빈도의 약 1/3이다. 그래프로 쓰면 빈출 순위와 빈도가 반비례한다.
32개월 미만 아이들의 발화나 대학 수준의 전문 서적에서도 지프의 법칙이 성립된다. 단어뿐 아니라 어느 도시의 n번째로 소득액이 큰 사람이 첫 번째 사람의 소득액의 1/n로 되어 있거나 달의 크레이터 중 n번째로 큰 면적은 가장 큰 크레이터 면적의 1/n이 되는 등 모든 사례에서 지프의 법칙이 성립한다.
지프의 법칙이 일어나는 원인은 알 수 없지만 몇 가지 법칙으로 설명되기도 한다. 단어의 빈출순위와 빈도는 화자가 추상적으로 사용하는 단어를 가급적 많이 사용해 의사소통의 인력을 최소화하려는 최소한의 노력의 법칙으로 설명할 수있다. 도시의 소득 분포에서는 부자가 보다 부유해진다는 식의 유르 사이먼 분포로 설명할 수 있다.