brunch

You can make anything
by writing

C.S.Lewis

by 조항현 Aug 14. 2024

리트윗은 얼마나 퍼지나 연쇄반응 모형 만들기

한겨레 사이언스온 연재 3회(2011.01.21)

연재 첫 글에서는 전체를 이루는 부분 자체보다 그들 사이의 상호작용이 중요해지는 조건에서 나타나는 보편성에 대해 이야기했습니다. 두 번째 글에서는 그러한 보편성이 부분의 특성이나 상호작용 구조에 따라 여러 부류로 나뉜다는 보편성 부류에 대해 살펴보았습니다. 보편성은 상호작용에 의한 거시적인 특징을 가리키는데 이 특징이 정량적으로는 임계지수로 나타납니다. 복잡한 현상을 이루는 수많은 요인 중 어떤 게 중요한지는 임계지수가 그로 인해 변하는지를 통해 알 수 있다고 했습니다. 이 모든 이야기가 사회현상을 이해하는데 적용될 수 있는지에 대해 지금까지 많이 연구되어 왔고 앞으로도 과제로 남아있습니다.


다시 임계점에서 이야기를 시작합시다. 서로 다른 두 상태를 가르는 임계점에서는 한곳에서의 작은 변화가 연쇄반응을 일으켜 시스템 전체에 영향을 미칠 가능성이 현저하게 높아진다고 했습니다. 그럼 구체적으로 얼마나 어떻게 영향을 미칠까요? 예를 들어 요즘 사람들이 많이 이용하는 인터넷 사회연결망 서비스 중 트위터(twitter.com)를 봅시다. 트위터에 대해 몰라도 이 글을 이해하는데 지장이 없도록 간단히 설명하는 것으로 시작하겠습니다. 누군가 자신의 트위터 계정에 어떤 의견을 트윗(tweet)으로 올리면 이 계정을 구독하는 사람들(follower)이 그 트윗을 봅니다. 개중에 그 의견을 퍼뜨리고 싶은 사람들은 그 트윗을 리트윗(retweet)함으로써 역시 자신의 구독자들에게 그 트윗의 내용을 알려줄 수 있습니다. 이런 식으로 리트윗이 여러 번 이루어지면 많은 사람들이 그 의견을 접할 수 있습니다. 어떤 내용의 트윗이 어떤 조건에서 리트윗을 통해 잘 퍼지는지도 이미 연구되어 있습니다 [참고]. 클릭 한두 번으로 쉽게 리트윗할 수 있지만 모든 트윗이 리트윗을 통해 널리 알려지지는 않습니다. 중요한 정보를 담고 있는지 아니면 재미가 있는지 뿐 아니라 내가 믿을만한 사람을 통해 알게 된 트윗인지 내 계정을 구독하는 사람들이 봤으면 좋겠는지 리트윗하기에 적절한 때인지 등의 요인이 의식적으로 또는 은연중에 고려될 것입니다.


이 모든 요인을 고려하여 리트윗을 통해 정보가 어떻게 확산되는지를 이해하면 제일 좋겠지만 일단은 ‘상호작용(리트윗)의 연쇄반응을 통한 확산’에만 초점을 맞춰봅시다. 어떤 트윗도 리트윗이 되거나 되지 않거나 둘 중 하나입니다. 이를 결정하는 모든 세부사항을 고려하기 힘들므로 단순히 확률적으로 둘 중 하나가 선택된다고 합시다. 그 확률은 모든 트윗에 대해 똑같고 또한 모든 이용자에 대해서도 똑같다고 단순하게 가정합니다. 이러한 과감한 가정이 때론 물리학자의 장점이 되지만 현실의 복잡성을 지나치게 무시한다는 비판을 받게 하기도 합니다. 나름 변호를 하자면 일단 가장 중요한 뼈대부터 제대로 이해하자는 것이며 이런 가정을 통해 단순화된 문제는 복잡한 현상에 대한 이해의 시작일 뿐이지 결코 전부가 아니라는 겁니다. 또한 이징 모형에 관해 썼듯이 매우 단순화된 문제조차도 제대로 이해하기 힘든 경우가 많습니다. 우리가 지금 다루려고 하는 ‘리트윗 모형’은 다음처럼 간단히 표현됩니다.


- 각 트윗은 확률 p로 리트윗되거나 나머지 1-p의 확률로 리트윗되지 않는다.


여기서 p는 0보다 크고 1보다 작은 값이며, 앞서 말한 다양한 요인과 그 가능성을 모두 뭉뚱그려서 나타낸 변수입니다. 제가 쓴 어떤 트윗이 리트윗의 연쇄작용을 통해 전세계의 트위터 이용자들에게 퍼지려면 p는 얼마나 큰 값이어야 할까요? 미리 짚어둘 점은 리트윗은 매번 확률로 결정되므로 p가 아무리 커도 1보다 작기만 하다면 제 트윗이 한 번도 리트윗되지 않고 묻혀버릴 가능성이 있다는 점입니다. 어쨌든 p가 작으면 저를 구독하는 사람들이 한두 번 리트윗해주고 끝날 것이고 p가 크다면 제 트윗이 꽤 많이 리트윗되어 많은 사람들에게 알려질 수 있습니다. “조금 퍼지는 경우”와 “널리 퍼지는 경우”는 양적인 정도의 차이일까요, 아니면 질적으로 다른 상태일까요? 실제 트위터에서 리트윗에 관한 통계적 분석이 나오기 전까지는 확실히 말할 수 없지만, 우리의 리트윗 모형에서는 상전이가 나타납니다. 그 경계가 되는 p의 값을 임계점을 뜻하는 아래첨자 c를 붙여 p_c로 나타내겠습니다. 물론 이 값을 구해볼 수 있습니다.


이를 위해 누가 누구의 계정을 구독하느냐하는 연결망 구조를 살펴봐야 하는데 복잡한 모양새를 띄리라고 예측할 수 있습니다. 수십만 명이 구독하는 유명한 트위터가 있기도 하고 갓 트위터를 시작하여 불과 몇 명만 구독하는 트위터도 많습니다. 서로서로 구독하는 경우도 있지만 그렇지 않은 경우도 상당히 많지요. 이 모든 측면을 모두 고려하기 힘드니 또다시 과감하게 각 계정을 구독하는 다른 계정의 수는 10이며 사회연결망에서 흔히 나타나는 끼리끼리 효과도 없다고 가정합니다.


이제 앞서 던진 질문에 답을 해봅시다. 제가 어떤 내용을 트윗했고 저를 구독하는 10명이 그 트윗을 봅니다. 각 구독자는 p의 확률로 리트윗을 하므로 평균적으로 10×p 번 리트윗된다고 볼 수 있습니다. p가 1/10이라면 이 값은 1이 됩니다. 즉 10명 중 한 명이 제 트윗을 리트윗해주면 그 구독자의 계정을 구독하는 또 다른 10명의 트위터 이용자가 제 트윗을 볼 수 있습니다. 또 그 중 평균적으로 한 명은 리트윗을 해주겠죠. 이런 식으로 제 트윗은 무한히 리트윗되어 살아남을 수 있습니다. 하지만 제 트윗을 리트윗하지 않은 나머지 9명을 구독하는 사람들에게는 제 트윗이 보이지 않습니다. 제 트윗이 꽤 많은 사람들에게 보이지만 모두에게 알려지지는 않습니다. 전체 트위터 이용자 중 제 트윗을 본 이용자 수의 비율을 구하면 0보다는 크지만 여전히 0에 매우 가까운 값이 될 것입니다. 이징 모형의 ‘질서’와는 뜻이 다르지만 이 비율을 편의상 리트윗 모형의 질서변수로 부르겠습니다.


p가 1/10보다 큰 경우, 만일 그 값이 2/10이라면 처음에는 2명이 그 다음에는 4명이 그 다음에는 8명이 리트윗을 하여 기하급수적으로 많은 사람들이 리트윗을 하겠죠. 역시 전체 이용자 중 제 트윗을 본 이용자 수의 비율을 구해보면 이제 0보다 큰 값을 얻을 수 있습니다. 반대로 p가 1/10보다 작다면 어쩌다 몇 번 정도 리트윗될 수 있지만 오래 가지는 못합니다. 전체 트위터 이용자 수가 매우 크다고 한다면 이 경우 실제로 제 트윗을 본 이용자 수의 비율은 0과 다름없습니다. 결론적으로 평균 리트윗 회수가 무한대이자 질서변수가 0보다 큰 널리 퍼지는 상태와 평균 리트윗 회수가 유한하여 질서변수가 0인 조금 퍼지는 상태를 구분할 수 있습니다. 이 두 상태를 나누는 임계점의 p_c는 1/10입니다. 임계점은 구독자수에 반비례하는데 직관적으로도 당연한 결과입니다.



여기서도 이용자 한 명만 보면 이 이용자가 다른 이용자의 트윗을 리트윗하는 회수는 p에 비례하는 양적인 차이만 보여줍니다. 하지만 수많은 이용자가 리트윗이라는 상호작용을 함으로써 각 이용자에게는 나타나지 않는 질적인 변화, 즉 상전이가 나타납니다.


질서변수는 한 트윗이 평균적으로 얼마나 많은 이용자에게 보이는지를 나타내는 값입니다. 그런데 어떤 트윗은 전혀 리트윗되지 않지만 어떤 트윗은 꽤나 많은 사람들에게 리트윗되기도 합니다. 이렇게 현상을 이해하는데 평균만으로는 부족하여 일반적으로 평균으로부터 얼마나 벗어나는지를 재는 편차를 함께 봅니다. 예를 들어, 정부기관이 조사한 바에 따르면 한국인 20-24세 남성의 평균키는 174cm이고 표준편차는 6cm 정도라고 합니다 [지식경제부 기술표준원]. 다시 말해서 그 집단의 대다수의 키는 168cm에서 180cm 사이입니다. 이렇게 평균과 표준편차라는 두 값만으로 한 집단에 대한 대체적인 그림이 잘 그려지는 경우가 많습니다. 또 다른 예로, 통계청에서 실시한 2010 가계금융조사에 관한 보도자료에 따르면 가구당 평균 순자산은 약 2억 3천만원이라고 합니다. 순자산 5분위별 자료로 표준편차를 구해보니 3억원쯤 됩니다 [통계청 2010 가계금융조사]. 이렇게 편차가 너무 커서 평균을 알아도 별 소용이 없는 경우는 예외적이라기보다는 일반적입니다. 실제로 그런 사례가 점점 더 많이 발견되고 있습니다. 그리고 이런 상황을 평균만 가지고 논의한다면 현상에 대한 이해가 불완전할 뿐 아니라 왜곡될 가능성도 높아집니다.


그래서 평균과 표준편차보다 더 완전한 정보를 담고 있는 전체적인 분포를 먼저 파악하는 것이 중요합니다. 다시 리트윗 모형으로 돌아가서 각 트윗이 몇 번 리트윗되는지를 모두 세어봅시다. 물론 실제 트위터에서 정보를 모아 통계를 내보면 좋겠지만, 지금은 리트윗 모형을 10만개의 트윗에 대해 컴퓨터로 시늉낸 결과를 보겠습니다. p가 0.05인 경우 10만개 중 전혀 리트윗되지 않은 트윗은 59998개가 나왔습니다. s번 리트윗된 트윗의 개수를 n(s)로 나타낸다면 n(0)은 59998입니다. 한 번 리트윗된 트윗의 개수 n(1)은 18723입니다. s의 분포 n(s)를 아래처럼 그림으로 나타내면 알아보기 쉽습니다. p가 0.1인 경우(임계점)와 0.15인 경우에 대해서도 컴퓨터 시늉내기를 했습니다. 아래 왼쪽과 오른쪽은 똑같은 분포를 조금 다르게 그린 것입니다.



왼쪽 그림을 보면 p가 0.05일 때 90% 이상의 트윗은 겨우 3번 이하로 리트윗되었습니다. 리트윗 회수 s의 최대값은 37인데 정말 운이 좋은 경우죠. p가 0.1일 때는 0.05일 때보다 훨씬 더 많이 리트윗됩니다. 왼쪽 그림은 일부러 범위를 좁혀서 본 것인데 오른쪽 그림을 보면 수천 번이나 수만 번 리트윗된 경우도 꽤 많이 나타남을 알 수 있습니다. p를 더 크게 하여 0.15가 되면 60%가 넘는 트윗이 무한히 많이 리트윗됩니다. 물론 실제로 무한한지는 알 수 없고 s가 10000보다 크면 무한하다고 간주했습니다. 여기서는 그 값을 빼고 s가 유한한 경우만 그렸는데 p가 0.05일 때와 비슷한 분포를 보여줍니다. 이 세 경우 중 임계점(p=0.1)에서 나타나는 분포가 흔히 두꺼운 꼬리(heavy tail, fat tail)를 갖는 분포로 알려진 거듭제곱 분포(power-law distribution; 멱법칙 분포)입니다. 왼쪽 그림에서 s가 대략 100보다 큰 부분을 분포의 ‘꼬리’라고 부른다면 이 꼬리가 다른 경우에 비해 두꺼워서 붙여진 이름입니다. 거듭제곱 분포라는 이름이 붙은 이유는 n(s)가 다음처럼 s의 거듭제곱 꼴로 표현되기 때문입니다.



여기서 3/2는 거듭제곱 지수(power-law exponent)로 불립니다. 지난 글에서 소개한 임계점에서 나타나는 물리량 사이의 눈금잡기(scaling) 관계와 비슷한 모양입니다. 그래서 눈금잡기와 거듭제곱이라는 말이 종종 섞여서 쓰입니다. 그리고 저런 모양의 분포에서는 s의 평균과 표준편차가 모두 무한대로 발산합니다. 그러면 왜 거듭제곱 분포가 나타나는가? 왜 하필이면 여기서 거듭제곱 지수가 3/2인가? 임계점에서 거듭제곱 분포가 나타나는데, 거듭제곱 분포가 발견되면 모두 임계현상으로 이해해도 되는가? 같은 재미있는(?) 문제들이 널려 있습니다. 이는 다음 기회에 더 자세히 살펴보겠습니다.


지금까지 단순화하면서 무시했던 요인들을 하나씩 도입하면 임계점의 위치나 거듭제곱 지수가 달라질 수도 있습니다. 이를테면 계정마다 매우 다른 구독자 수를 반영한다든지 계정마다 리트윗하는 비율이 다르다든지 서로 친한 이용자들이 서로 구독을 하고 있다든지 자신을 구독하는 이용자는 매우 많은데 자신은 아주 소수의 계정만 구독한다든지 하는 요인들을 추가할 수 있습니다. 이럴 경우 한 곳에서 유입된 정보가 트위터의 연결망을 통해 어떻게 전파되는지, 여기에 구독자 수의 불균형이 어떻게 정보의 확산에 영향을 미치는지 등을 살펴볼 수도 있습니다. 종종 잘못된 정보가 몇몇 허브를 거쳐 널리 퍼지기도 하는데 그 잘못을 수정한 정보는 처음처럼 널리 퍼지지 않는 경우도 있습니다. 이런 것도 위의 리트윗 모형을 통해 간단히 실험해볼 수 있습니다. 결국 상호작용이란 어떤 식으로든 정보의 확산으로 이해할 수 있습니다. 구체적으로 어떤 내용이 오고가는지를 파악한다면 더욱 풍부하게 사회현상을 이해할 수 있겠지만 그렇지 않더라도 ‘상호작용의 연쇄반응을 통한 확산’에 대한 대강의 그림을 그려볼 수 있고 이를 발판으로 더 복잡한 현상을 더 체계적으로 이해할 수 있습니다. 마지막으로 지금까지 살펴본 리트윗 모형은 사실 가지치기 과정(branching process)으로 알려진 모형에 ‘트위터’라는 살을 붙인 것에 지나지 않음을 밝혀둡니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari