brunch

You can make anything
by writing

C.S.Lewis

by 조항현 Aug 21. 2024

사회・자연현상에 거듭제곱 분포 일으키는 힘은?

한겨레 사이언스온 연재 4회(2011.02.24)

지금까지는 상전이가 일어나는 임계점에서 관찰되는 변수들 사이의 거듭제곱 관계나 거듭제곱 분포에 대해 이야기했습니다. 하지만 이러한 거듭제곱 법칙이 임계점에서만 나타나는 것은 아닙니다. 상전이라는 틀만으로 이해하기 힘든 다양한 현상에서도 거듭제곱 법칙이 나타납니다. 우리가 말을 하거나 글을 쓸 때 자주 쓰이는 낱말과 그렇지 못한 낱말이 있지요. 낱말의 사용빈도의 분포가 거듭제곱 꼴이라는 것은 지프의 법칙(Zipf's law)으로 알려져 있습니다. 사람들의 소득 분포는 거듭제곱 꼴인 파레토(Pareto) 분포로 알려져 있고, 지진의 크기 분포 역시 거듭제곱 분포로 알려져 있습니다. 이외에도 도시의 인구에 따른 분포, 고생물학에서 일정 기간 동안 멸종한 종의 수의 분포, 논문의 인용 회수의 분포, 웹페이지가 다른 웹페이지에 링크된 회수의 분포, 전쟁의 사망률의 분포 등 이루 말할 수 없이 많은 분포가 거듭제곱 분포이거나 적어도 두꺼운 꼬리를 보이고 있습니다.


더욱 최근에 알려졌고 여전히 그 원인에 대해 논쟁이 벌어지고 있는 이메일이나 핸드폰 이용패턴에서도 거듭제곱 분포가 발견됩니다. 한 번 통화를 하고 그 다음에 통화할 때까지의 시간 간격을 모두 모아서 그 분포를 그려보면 거듭제곱 분포가 나타납니다. 즉 짧은 기간 안에 여러 번 여러 사람과 통화를 하다가도 몇 시간이나 심지어(?) 며칠 정도 전혀 전화를 하지 않고 지내기도 하는데 이러한 패턴을 ‘폭발성(bursts)’이라 부르기도 합니다. 이 주제에 대해서는 나중에 따로 다루겠습니다.


위에 든 예들을 보면 알 수 있듯이 거듭제곱 분포는 우리의 일상생활과도 밀접하며, 사회현상뿐 아니라 자연현상에서도 다양한 거듭제곱 법칙이 발견되어 왔습니다. 자연현상에서 나타난 거듭제곱 법칙을 이해하기 위해 발달해온 원리와 이론을 사회현상에서 발견되고 있는 거듭제곱 법칙에도 적용해볼 수 있겠다는 생각도 그리 새로운 것은 아닙니다. 이 글에서는 거듭제곱 분포가 무엇인지 다시 짧게 감을 잡아본 후 거듭제곱 분포가 나타나는 원리들 중에서 잘 알려진 두 가지를 소개하겠습니다.


거듭제곱 분포는 정규분포와는 다릅니다. 이를테면 정규분포로 알려진 사람 키의 분포에서 대다수 사람들의 키는 평균 근처에 몰려 있습니다. 그래서 평균과 평균에 비해 비교적 작은 값을 갖는 표준편차(평균에서 벗어난 정도)만으로도 잘 표현되곤 합니다. 정규분포를 따른다고 해도 아주 작은 키나 매우 큰 키를 갖는 사람들이 나타나기 마련입니다. 하지만 그런 경우는 드물 뿐 아니라 평균에서 크게 벗어나지도 않습니다.


이에 반해 거듭제곱 분포에서는 표준편차가 평균과 대등하거나 더 크다보니 평균에서 크게 벗어나는 일이 잦습니다. 이를테면 어떤 사람들은 다른 사람들보다 수만 배의 재산을 갖고 있습니다. 점점 더 이런 격차가 그리 낯설지 않은 세상이 되어갑니다. 그러면 어떤 사람의 키가 다른 사람보다 수만 배 큰 경우를 상상해볼까요? 물론 전혀 있을 법 하지 않습니다. 이렇게 키의 분포와 재산의 분포가 확연히 다르다는 느낌을 받으셨다면 여러분은 이미 정규분포와 거듭제곱 분포의 차이를 어느 정도는 알고 있다고 할 수 있습니다.


그렇다면 처음 나열한 여러 사례에서는 왜 평균에서 벗어난 일이 많이 일어날까요? 그리고 어떤 현상에서는 상상도 할 수 없는 일이 다른 현상에서는 그럴 수도 있게 되는 원인은 무엇일까요?


아마도 가장 널리 알려진 원인은 ‘빈익빈 부익부’일 겁니다. 1920년대에 통계학자 율은 식물분류에서 나타나는 거듭제곱 분포를 설명하기 위해 확률 모형을 제시하는데 그것이 율 과정(Yule process)입니다. 웹페이지 사이의 연결수, 배우들의 공동출연 횟수 등의 거듭제곱 분포를 설명하기 위해 10여 년 전 바라바시(Barabasi) 연구팀이 제안한 ‘척도 없는 연결망’ 모형은 율 과정을 연결망 모형에 성공적으로 적용한 사례입니다.


이를테면 제가 웹페이지를 새로 하나 만든다고 합시다. 자주 가는 웹페이지나 쓸모 있는 웹페이지를 연결해두면 편하겠죠. 이때 잘 알려져 있고 이미 많이 연결되어 있는 웹페이지를 연결할 가능성이 그렇지 않은 경우보다 높을 것입니다. 여기서도 웹페이지의 내용 등 세부사항은 과감히 무시하고 기존 웹페이지의 연결수가 많을수록 새 웹페이지가 그 웹페이지를 연결할 확률이 높아진다고 가정하는데 이를 선호적 연결이라 부릅니다. 즉 새로운 웹페이지는 꾸준히 만들어지고 이들은 기존 웹페이지 중 연결수가 높은 웹페이지를 선호하여 연결합니다. 이로 인해 우리가 허브라 부르는 연결수가 매우 높은 웹페이지가 나타나며 각 웹페이지의 연결수를 모두 세어서 그 분포를 보면 거듭제곱 분포가 됩니다. 연결수가 k인 웹페이지의 개수를 n(k)라고 하면 바라바시 모형의 결과는 다음처럼 나타납니다.



실제 웹페이지의 연결수를 조사한 결과 얻어진 거듭제곱 지수와는 차이가 있지만 극히 단순한 가정으로부터 연결수의 거듭제곱 분포를 설명했다는 면에서 커다란 주목을 받았습니다. 이후에 수많은 연결망 모형이 제시되었고 처음 과감하게 무시되었던 요인들이 고려된 더 복잡한 모형들도 연구되었고 그 흐름이 지금까지 이어지고 있습니다.


이 모형에서 빈익빈 부익부 원리는 ‘선호적 연결’에 있습니다. 어떤 웹페이지가 우연히 많이 연결되었다면 그 이후에 만들어진 새 웹페이지들에게 연결될 가능성이 높아져서 연결수가 점점 더 많아집니다. 반대로 우연히 잘 연결되지 않은 웹페이지는 그대로 묻혀버릴 가능성이 있지요. 이로 인해 격차가 생기고 한 번 생긴 격차가 다시 줄어들 가능성은 매우 낮습니다. 이런 격차는 모든 수준에서 나타납니다. 허브들을 모아놔도 그 안에서 또 격차가 벌어지고 허브가 아닌 개인 웹페이지를 모아놔도 그 안에서 또 격차가 벌어집니다. ‘평균’이 아닌 ‘편차’의 관점에서 보면 허브들만 모아놓고 보든 개인 웹페이지들만 보든 비슷한 양상이 나타납니다. 소규모든 대규모든 상관없이 모든 규모나 척도에서 비슷하므로 다시 말해 ‘특정한’ 규모나 척도가 없다고 할 수 있습니다. 이를 간단히 ‘척도 없다(scale-free)’고 표현합니다. 그래서 바라바시 모형은 ‘척도 없는 연결망 모형’이라 불리며, 일반적으로 거듭제곱 분포는 척도 없는 분포로 불리기도 합니다.


거듭제곱 분포는 한 번 좋으면 계속 좋아지는 선순환과 한 번 나빠지면 계속 나빠지는 악순환이 동시에 작용한 결과입니다. 전체적인 평균에 모이기보다는 평균에서 멀어지는 방향, 즉 편차가 커지는 방향으로 힘이 작용한 결과입니다. 편차를 키우는 힘에 의해 대다수의 웹페이지와는 매우 다른 허브가 생겨날 수밖에 없습니다. 만일 누군가가 허브가 맘에 들지 않아 공격을 하여 허브를 못쓰게 만들어버린다고 해도 편차를 키우는 힘이 존재하는 한 어떤 식으로든 또 다른 허브가 나타날 것입니다.


복잡한 현상을 단순한 모형으로 이해하려는 관점으로 다시 보자면, 편차가 큰 분포를 설명하기 위해 모형에 편차를 키우는 힘을 도입한 것입니다. 그래서 이를 순환논리라고 비판할 수도 있습니다. 이런 순환논리를 피하기 위한 다른 모형들이 제시되기도 했지만 결국 어떤 식으로든 이런 요소가 들어가지 않은 모형은 있을 수 없습니다. 편차를 키우는 힘이 전혀 없는 모형에서 편차가 큰 분포가 나타날 리는 없기 때문입니다. 더 중요한 점은 실제로 어떤 힘이 편차를 키우는지를 밝혀내는 것입니다. 사람들의 선호, 유행에 민감한 성향, 웹페이지 링크에 관계된 다양한 요인들을 실증적으로 분석할 필요가 있겠죠.


다음으로 빈익빈 부익부 원리 외에도 거듭제곱 분포를 설명하기 위해 제안된 최적화 원리를 소개하겠습니다. 최적화 원리는 낱말의 사용빈도에 관한 논의 흐름에서 나왔기 때문에 관련된 예를 먼저 살펴보겠습니다.


멜빌의 소설 <모비 딕>에 쓰인 낱말의 사용빈도에 관한 자료를 산타페 연구소 웹페이지에서 내려받을 수 있는데 이를 분석한 내용은 뉴만(M.E.J. Newman)의 논문을 참고합니다. 이 소설에서 가장 많이 쓰인 낱말은 the이며 14,086번 쓰였다고 합니다. 그 다음으로 of, and, a, to 등이 가장 많이 쓰인 낱말들입니다. 낱말의 순위를 r로 표시하고 그 빈도를 f로 표시하면 r이 커질수록(즉 순위가 낮아질수록) f는 줄어들겠죠. 즉 the의 순위는 1, of의 순위는 2입니다. 아래 그림을 보면 대략 f가 r의 역수로 표현됨을 알 수 있습니다.



그림에서 가장 왼쪽 위에 있는 동그라미가 the를 뜻하며, 이로부터 오른쪽 아래로 내려오면서 각 동그라미가 of, and, a, to 등에 해당합니다. 반대로 가장 오른쪽 아래 있는 동그라미들은 딱 한 번밖에 쓰이지 않은 낱말들인데 모두 9161가지입니다. 여기서도 낱말의 사용빈도의 편차가 매우 크다는 것을 알 수 있습니다.    같은 자료로부터 빈도의 분포를 그려보겠습니다. 방금 말했듯 이 소설에 단 한 번 등장한 낱말은 모두 9161가지이며 두 번, 세 번 등장한 낱말의 가짓수를 셀 수 있지요. 마지막으로 14,086번 등장한 낱말은 단 하나, 즉 the입니다. f번 등장한 낱말의 가짓수를 분포 n(f)로 표시하여 그림으로 그리면 다음과 같습니다.



이 그림에서는 가장 오른쪽 아래에 있는 동그라미가 the를 뜻합니다. 대략 n(f)는 f의 제곱에 반비례함을 알 수 있습니다.



위 식의 왼쪽은 순위와 빈도 사이의 거듭제곱 관계를 나타내며 그 지수는 -1입니다. 오른쪽은 빈도의 거듭제곱 분포를 나타내며 이때 거듭제곱 지수는 -2입니다. 현상마다 이 거듭제곱 지수가 달라지기도 하는데 주로 -3과 -1 사이의 값이 주목을 받습니다. f의 범위에 제한이 없다면 분포의 편차가 무한히 커져서 평균이 의미 없어지는 영역이기 때문입니다. 같은 거듭제곱 분포라고 해도 거듭제곱 지수가 -3보다 작으면 평균이나 편차가 모두 유한하기 때문에 뭔가가 발산해버리는 경우에 비해 꽤나 얌전하다고 볼 수 있습니다.


낱말의 사용빈도의 편차가 매우 크다는 건 위 그림들을 보면 알 수 있습니다. 그럼 왜 이런 거듭제곱 분포가 관찰될까요? 빈익빈 부익부 원리를 적용할 수 있을까요? the라는 낱말을 많이 쓰다보니 더 많이 쓰게 된 것일까요? 미첸마허(M. Mitzenmacher)의 논문에 따르면 만델브로트가 ‘최적화 원리’를 이용하여 낱말의 사용빈도에서 나타나는 거듭제곱 분포를 설명했다고 합니다. 만델브로트는 부분을 확대해도 전체와 비슷하다는 프랙탈(쪽거리; fractal) 구조를 규명하고 다양한 분야에 적용하여 유명해진 수학자입니다.


그는 낱말을 이용하기 위해 드는 비용과 이를 통해 얻는 정보전달의 이익을 정의한 후 비용 대비 이익을 최대화하기 위해서는 낱말의 사용빈도가 거듭제곱 분포일 수밖에 없음을 증명합니다. 구체적으로 봅시다. 어떤 낱말이든 어느 정도의 정보가 담겨있는데 이를 정보량이라 합시다. 그런데 그 낱말을 쓰기 위해서는 낱말의 길이에 비례하는 비용이 따릅니다. 그리고 대개 짧은 낱말일수록 그것이 담고 있는 정보량은 적습니다. <모비 딕>에서 자주 쓰인 the, of, and, to는 ‘그’, ‘~의’, ‘그리고’, ‘~에게’처럼 별 뜻이 없거나 보조적인 역할만 하는 편입니다. 반면 복잡하고 긴 낱말일수록 더 구체적이고 많은 뜻을 담고 있는 경우가 많습니다.


낱말을 ‘효율’적으로 사용하려면 글자 수(비용)는 줄이되 정보량은 늘리도록 하면 됩니다. 효율을 글자당 정보량으로 정의합니다. 글자 수만 줄이려 하다보면 정보량이 따라 줄고, 정보량을 늘리려면 글자 수도 따라 늘어나야 하는 문제에 부딪힙니다. 만일 낱말의 글자 수와 정보량이 정비례한다면 글자당 정보량이 모든 낱말에 대해 똑같으므로 효율은 어떤 경우에도 동일하여 고민할 필요가 없습니다. 일반적으로 글자 수와 정보량이 정비례하지 않을 때 효율을 최대화하면, 많이 쓰이는 낱말일수록 즉 순위가 높을수록(r이 작을수록) 글자 수가 적다는 결과가 나오는데 글자 수는 사용될 확률의 로그로 표시됩니다. 또한 이로 인해 글자 수는 순위의 로그에 비례하는데 이 두 로그 관계에 의해 거듭제곱 관계라는 결과가 가능해집니다. 즉 낱말의 사용빈도(f)는 그 낱말의 빈도에 따른 순위(r)와 거듭제곱 관계를 가지며 사용빈도의 분포(n(f))는 거듭제곱 분포라는 결과가 얻어집니다. 앞에 <모비 딕>에서 관찰된 결과는 물론이고 다른 현상에도 적용할 수 있는 설명 방식입니다.


이런 최적화 원리는 우리의 낱말 사용패턴이 단지 우연이 아니라 보다 근본적인 원리에 의한 결과라고 해석할 수 있게 해줍니다. 식당을 가든 새 물건을 구입하든 ‘가격 대 성능비’를 따져 최적의 선택을 하듯이 어떤 낱말을 이용할 때에도 알게 모르게 그러한 ‘가격 대 성능비’를 따지고 있다는 말입니다. 말했듯이 낱말의 사용빈도에 관한 거듭제곱 법칙은 지프의 법칙(Zipf's law)으로 잘 알려져 있습니다. 필립 볼은 <물리학으로 보는 사회>에서 그 지프가 인간의 ‘최소 노력의 원리’를 제창했다고 하는데 바로 그런 흐름에서 ‘최적화의 결과로서 거듭제곱 분포’를 이해할 수 있습니다.


만델브로트의 최적화 원리를 다른 현상들에도 직접 적용할 수 있으려면 정보량에 해당하는 이득, 글자 수에 비례하는 비용, 글자 수와 사용빈도 사이의 관계에 대한 가정들이 모두 적절하게 대응되고 그에 따라 해석되어야 합니다. 그래서 섣불리 말하기 어렵습니다. 만일 누군가가 이 최적화 모형을 이용하여 부의 거듭제곱 분포를 설명했다고 칩시다. 그러면 누군가는 “부의 양극화는 사회적 효율을 최적화한 결과”라고 주장할지도 모릅니다. 누군가가 다른 사람보다 수만 배의 재산을 갖는 일이 만에 하나 이런 식으로 정당화된다면 수많은 사람들이 좌절하게 될지도 모릅니다.


물론 관찰된 사실이 곧 어떤 가치를 받아들일지를 결정해주지는 않습니다. 또한 빈익빈 부익부 원리든 최적화 원리든 그것은 관찰된 사실을 이해하기 위해 제안된 원리일 뿐이지 좋다/나쁘다나 옳다/그르다를 말하지는 않습니다. 어떤 가치관을 가지고 현상을 바라보느냐는 저마다 다를 수 있지만 그 현상 뒤에 숨어있는 힘, 이를테면 편차를 키우는 힘이 무엇인지를 제대로 밝혀낼 때에만 어떤 식으로든 구체적이고 실질적인 개입이 가능해질 것입니다.


마지막으로 거듭제곱 분포에 대해 한 가지 염두에 둘 점을 말하겠습니다. 일단 거듭제곱 분포 자체로 흥미로운 현상임에 틀림없습니다. 전체를 이루는 부분들은 다 비슷한데도 작은 변화가 연쇄반응을 일으켜 대규모로 확산된다든지 우연에 의해 발생한 작은 격차가 끝없이 커져서 엄청난 차이를 만들어낸다든지 하는 현상 자체로도 놀랍고, 그 뒤에 숨어있는 원리를 발견하고 이해하는 일도 그만큼 도전적이고 흥미롭습니다. 그렇다보니 거듭제곱 분포처럼 보이는 건 모두 이런 식으로만 이해하려는 경향도 있습니다.


하지만 때론 실제로는 거듭제곱 분포가 아닌데 측정 방법으로 인해 거듭제곱 분포처럼 보이는 경우도 생깁니다. 예를 들어 x라는 양을 재면 거듭제곱 분포가 아닌데 x의 역수에 해당하는 양을 재면 거듭제곱 분포가 나타나는 경우가 있습니다. 상호작용의 연쇄반응이나 평균에서 멀어지는 힘이 있어서가 아니라 단지 어떤 양의 역수이기 때문에 나타난 거듭제곱 분포라면 기존의 설명 방식을 적용해봐야 소용없으므로 주의할 필요가 있습니다.

작가의 이전글 리트윗은 얼마나 퍼지나 연쇄반응 모형 만들기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari