통계와 메커니즘

척도 없는 연결망에 관한 최근의 논란을 정리해보자

Mar 12. 2019

논란의 시작은 바라바시와 알버트(줄여서 BA)의 1999년 사이언스 논문이다. 그들은 다양한 연결망 데이터를 분석하여 이웃수 분포가 거듭제곱 꼴(두꺼운 꼬리를 갖는 함수 형태 중 하나)이라는 결과를 발표하고 이러한 연결망을 척도 없는 연결망(scale-free network; SFN)이라고 불렀다. 그 이후 이웃수 분포가 거듭제곱 꼴이라고 주장되는 수많은 데이터 분석 결과가 발표된다. 또한 이러한 SFN을 만들어내는 메커니즘에 대한 연구도 활발히 진행되어 수없이 많은 모형들이 제시되었다.

그러다 작년, 즉 2018년 초 브로이도와 클로짓(줄여서 BC)이 아카이브에 올린 논문이 엄청난 논란을 불러일으켰다. 현재 이 논문은 네이처 커뮤니케이션스에 출판되었다. BC는 이웃수 분포가 거듭제곱 꼴인지 아닌지를 통계적으로 검정하는 방법을 제시한 후 이를 약 1000여 개의 실제 연결망에 적용하여 겨우 몇 퍼센트만이 그 검정을 통과했다고 발표했다. 이는 즉각 소셜미디어(주로 트위터)에서 연결망 과학자들 사이의 뜨거운 논쟁을 불러일으켰고 바라바시 본인이 자신의 블로그에 BC의 주장에 반박하는 글을 올리기도 했다.

며칠 전 역시 유명한 연결망 과학자인 페터 홀메가 네이처 커뮤니케이션스에 그간의 논쟁을 정리한 짧은 코멘트를 발표했다. 코멘트를 읽고 생각을 정리하다가 이 글의 제목인 '통계와 메커니즘'의 대립구도로 정리해볼 수 있을 것 같았다. 우선 홀메가 정리한 논점의 핵심은 '통계적 SFN 대 발현된 SFN'의 대립구도다.

'발현된 SFN'의 관점은 SFN 또는 거듭제곱 꼴의 이웃수 분포가 하늘에서 뚝 떨어진 것이 아니라 복잡계를 이루는 요소들이 어떤 메커니즘에 의해 상호작용하다 보니 발현된 결과라는 것이다. BA는 이를 위해 이른바 선호적 연결(preferential attachment)이라는 메커니즘을 제시한다. 간단히 말해서 이웃이 많은 노드가 더 많은 이웃을 끌어모으는 빈익빈 부익부 메커니즘이다. 이를 수식으로 풀면 거듭제곱 형태의 이웃수 분포가 얻어진다. 이외에도 다양한 메커니즘이 제시되었으며 그 결과가 모두 깔끔한 거듭제곱 분포로 귀결되지 않는다는 것이 밝혀졌다.

홀메가 말한 '통계적 SFN'의 관점이 무엇을 뜻하는지 아주 분명하지는 않지만, 굳이 위의 '발현된 SFN'의 관점에 대비시켜 보자면, SFN의 생성/발현 메커니즘이 뭐가 됐든 통계학적 검정을 통해 실제 연결망이 깔끔한 거듭제곱 분포로 기술되는지 아닌지를 테스트해보자는 것이다. 이런 접근은 그 자체로 물론 중요하다. 현실에 대한 제대로 된 기술을 바탕으로 해야만 더 정확한 메커니즘을 제시할 수 있다는 측면에서도 그렇다.

이에 반해 '발현된 SFN'의 관점, 또는 이런 사고방식을 가진 많은 통계물리학자들의 관점은 종종 세부사항을 무시하는 것에서 시작한다. 처음부터 복잡한 현실의 세부사항을 모두 고려할 수 없기에 가장 핵심적인 메커니즘을 먼저 이해한 후에 세부사항을 하나씩 추가하겠다는 전략이다. 그래서 실제 연결망의 이웃수 분포가 깔끔한 거듭제곱 꼴을 가지지 않더라도 위에 설명한 선호적 연결을 통해 '핵심적인 메커니즘'을 이해하는 것은 여전히 중요하다는 것이다.

다시 정리하면, 이번 논란은 엄밀한 통계학적 검정을 통해 데이터를 더 제대로 파악하는 일에 방점을 둔 통계적 접근과 통계적 분석으로 얻어진 결과에서 어느 정도의 세부사항을 무시함으로써 그것의 생성/발현 메커니즘을 통해 이해하는 것이 더 중요하다는 발현적 접근 사이의 구도로 이해할 수 있다.

물론 통계와 메커니즘 둘 다 잘하면 되는 거 아니냐고 할 수도 있다. 맞다. 그리고 두 관점이 대립적이라기보다는 상보적이라고 보는 게 맞을 것이다. 그렇게 보면 애초에 '논란'이 벌어진 게 이상한 일이다. 하지만 현실의 복잡성을 처음부터 그대로 재현하려는 시도는 그리 쉬운 일이 아니다. 특히나 두꺼운 꼬리를 갖는 분포는 지수분포나 정규분포에 비해 까다로운 편이다. 그래서 현실의 세부사항에 대한 '선택적 무시'는 불가피한 면이 있다.

이외에도 홀메의 코멘트에는 위의 구도를 유한한 현실의 연결망 대 무한히 큰 이상적인 연결망이라는 대립구도와 연관 짓기도 하는데 자세한 얘기는 여기서 하지 않겠다.

'통계와 메커니즘'에 관한 논의는 사실 이번이 처음이 아니다. 바라바시는 2005년 네이처 논문에서 이메일 데이터를 분석한 결과를 발표한다. 한 번 이메일을 보낸 후 다음 이메일을 보낼 때까지의 시간 간격을 사건 사이 시간(inter-event time)이라 정의하고 이 양의 분포를 구했더니 역시 거듭제곱 분포가 나왔다는 것이다. 또한 이를 이해하기 위한 메커니즘으로서 인간의 의사결정을 모형화한 우선권 기다림 모형(자세한 내용은 이 글을 참고)을 제시한다.

이 논문이 출판되고 나서 노스웨스턴대학교의 아마랄 그룹은 똑같은 데이터를 통계학적으로 검정한 결과 거듭제곱 분포보다는 로그정규분포가 데이터를 더 잘 맞춘다는 결과를 제시한다. 그리고 이에 기반하여 이메일 사용자의 주기적 활동(낮/밤, 주중/주말의 활동성의 차이)을 고려한 비균질적 뿌아송 과정 모형(자세한 내용은 이 글을 참고)을 제시한다. 이 두 그룹 사이의 논쟁은 이후에도 계속되었다.

데이터의 통계적 분석에 관해서는 분명히 아마랄 그룹의 접근방식이 맞다. 하지만 그에 기반해 제시한 모형이 인간의 행동 패턴에 대한 이해에 얼마나 기여했는지에 대해서는 개인적인 의문이 남는다. 오히려 두 그룹의 접근방식은 상보적이라고 보는 게 맞을 것이다. 즉 주기적 활동과 인간의 의사결정을 모두 고려해야만 데이터를 더 잘 이해할 수 있다.

쓰다 보니 너무 손쉬운 모범답안으로 끝내버린 것 같은데, 물론 현실은 그리 만만치 않으며 앞으로도 비슷한 대립구도와 논쟁이 반복될 것이다. 그리고 대립구도가 반드시 해소되어야 하는 것도 아니고 다양한 관점이 계속 상호작용하여 발전하면 되는 게 아닐까 싶다.

keyword

동적연결망으로 복잡계 분석하기작가의 다음글