brunch

You can make anything
by writing

C.S.Lewis

by 조항현 Apr 27. 2024

폭발적 동역학 연구의 개인적 역사

2010년 9월 1일부터 핀란드 알토대학교의 킴모 카스키 교수 그룹에서 일하면서 나는 새로운 전기를 맞이했다. 비교적 전통적인 연구분야인 비평형 통계물리에서 비교적 새로운 연구분야인 복잡계 및 계산사회과학으로 방향을 튼 것이다. 킴모는 나에게 하고 싶은 연구를 하라고 했고 난 2010년 여름에 읽었던 바라바시의 책 <버스트(Bursts)>를 생각하며 관련 논문을 찾아서 읽기 시작했다. 2010년 말에 핸드폰 데이터 분석 결과가 담긴 논문을 완성했고 2011년 1월 초에 핀란드에서의 첫 논문을 투고할 수 있었다. 그후로 만으로 14년 정도, 햇수로는 15년째 나는 이 주제로 연구하고 있다. 물론 이 주제 외에도 다양한 연구를 병행했다.

그래서 이 글에서는 폭발적 동역학(bursty dynamics) 연구에 관한 간략한 개인사를 시간 순으로 정리해보려고 한다. 앞서 말한 첫 논문은 1년의 우여곡절 끝에 2012년 1월에서야 출판되었다. 처음부터 시련이 있었으나 출판된 논문이 Nature에 소개되면서 이후로 나의 대표논문이 되었다. 사람들의 어떤 행동 패턴은 점과정(point process) 같은 시계열로 나타낼 수 있다. 예를 들어 핸드폰 통화의 경우 한 번 통화하고 다음 번 통화할 때까지 걸린 시간을 사건 사이 시간이라 부른다. 사건이 무작위로 일어난다고 가정하면 사건 사이 시간의 분포는 지수함수가 된다. 하지만 수많은 실제 데이터에서 사건 사이 시간 분포는 두꺼운 꼬리를 갖는데 이를 폭발성(bursts)이라 부른다. 왜 폭발성이 나타날까에 대한 바라바시의 첫 논문이 2005년 Nature에 실렸고 다른 연구그룹과의 논쟁이 있었다. 나의 첫 연구는 그 논쟁을 해소하기 위한 것이었다.

[1] H.-H. Jo, M. Karsai, J. Kertesz, and K. Kaski, Circadian pattern and burstiness in mobile phone communication, New Journal of Physics 14, 013055 (2012)

2010년 말에는 네트워크와 폭발성을 동시에 고려한 사회연결망 모형 연구를 시작했고 이 논문은 2011년에 무난히 출판되었다. 또한 경제학자와 폭발성을 미시경제학적으로 이해하려는 시도를 한 연구도 2012년 초에 출판되었다. 레프리가 우리의 해석적 접근이 “elegant”하다고 했다.

[2] H.-H. Jo, R.K. Pan, and K. Kaski, Emergence of bursts and communities in evolving weighted networks, PLoS ONE 6, e22687 (2011)

[3] H.-H. Jo, E. Moon, and K. Kaski, Optimized reduction of uncertainty in bursty human dynamics, Physical Review E 85, 016102 (2012)

원래 바라바시의 2005년 Nature 논문에 제시되었던 우선권 기다림 모형을 변형한 연구도 했는데 역시 2012년에 출판되었다. 바라바시의 원래 모형에서 각 일에 주어진 우선권은 시간에 따라 변하지 않는데, 우선권이 시간에 따라 변하면 어떤 일이 생길지에 관한 것이었다.

[4] H.-H. Jo, R.K. Pan, and K. Kaski, Time-varying priority queuing models for human dynamics, Physical Review E 85, 066101 (2012)

이즈음부터 나는 데이터 분석을 통해 얻은 결과를 계산적 모형으로 접근하는데 관심이 있었다. 특히 모형의 결과를 해석적으로 풀어서 정확한 결과를 얻음으로써 현상에 대한 더 깊이 있는 이해와 통찰력을 얻을 수 있기 때문이다. 그러다 만든 문제가 맥락적 폭발성(contextual bursts)이다. 핸드폰 데이터의 경우 한 사용자의 시계열을 이루는 각 통화에는 상대방이 있다. 즉 상대방에 따라 다른 맥락이 적용된다. 어떤 사건은 A와의 통화, 다른 사건은 B와의 통화다. 그 사용자의 시계열 자체도 폭발적이지만 특정 상대방과의 시계열도 폭발적이다. 이 두 폭발성 사이의 관계를 밝힌 것이 아래 2013년 논문이다. 처음에는 수식을 써놓고 어떻게 풀어야 할지 몰랐다. 하지만 핀란드에 가기 전에 공부했던 비평형 통계물리의 영거리 과정(zero-range process)이 바로 그 해답을 제시해주었고 그 결과를 활용하여 문제를 풀 수 있었다.

[5] H.-H. Jo, R.K. Pan, J.I. Perotti, and K. Kaski, Contextual analysis framework for bursty dynamics, Physical Review E 87, 062131 (2013)

2013년 여름에는 코펜하겐에서 열린 국제네트워크과학회(NetSci)에 참석했다. 당시 네트워크 과학에서 떠오르는 분야였던 동적연결망(temporal network)에 관한 위성학회에 참석하면서 이 새로운 주제에 대해 관심이 생기기 시작했다. 동적연결망 위에서 벌어지는 전염병 및 정보 확산이 동적연결망의 폭발성 정도에 따라 빨라지는지 느려지는지에 관한 논쟁이 있었다. 학회에서 돌아온 후 이 문제를 수학적으로 풀어보자는 생각이 들어서 연구를 시작했고 그즈음 우리 연구그룹에 합류한 후안과 함께 열심히 문제를 풀어서 2013년 가을에 결과가 나왔다. PRL을 노렸으나 실패했고 대신 PRX에 보내서 게재되었다. 여기서는 벨만-해리스 가지치기 과정을 활용하여 문제를 풀었다.

[6] H.-H. Jo, J.I. Perotti, K. Kaski, and J. Kertesz, Analytically solvable model of spreading dynamics with non-Poissonian processes, Physical Review X 4, 011041 (2014)

2014년 3월에 위 논문이 출판되고 얼마 후 나는 한국으로 돌아왔고 7월부터는 포항공대 물리학과 연구교수가 되었다. 그후로도 계속 킴모, 야노쉬 켈테즈 교수 등과 연구를 이어나갔다.

2012년에는 말튼이 폭발적 사건열(bursty train)이라는 개념을 제시했다. 시계열은 사건들로 이루어지고 사건 사이 시간의 분포를 보면 어느 정도의 기억효과가 있는지를 파악할 수 있지만 그게 전부가 아니다. 인접한 사건 사이 시간 사이의 상관관계 역시 중요한 정보를 제공한다. 인접한 두 사건 사이 시간 사이의 상관관계는 고려대 고광일 교수님이 포닥일 때 바라바시와 함께 쓴 2008년 논문에서 제시한 기억계수(memory coefficient)라는 양으로 측정할 수 있다. 인접한 임의의 개수의 사건 사이 시간 사이의 상관을 재기 위해서 기억계수를 일반화하면 되기는 하는데, 그보다는 말튼이 제시한 폭발적 사건열이 더 직관적이다. 특히 각 사건열에 포함된 사건의 개수를 폭발 크기(burst size)라고 부르는데 다양한 데이터에서 폭발 크기의 분포가 두꺼운 꼬리를 갖는다는 것이 밝혀졌다. 이 논문의 결과는 지금까지 내가 붙들고 연구하는 주제이기도 하다. 그러한 폭발 크기의 분포를 어떻게 이해할 것인지에 대한 첫 도전이 아래 논문이다. 여기서는 스스로 흥분하는 점과정을 이용했다.

[7] H.-H. Jo, J.I. Perotti, K. Kaski, and J. Kertesz, Correlated bursts and the role of memory range, Physical Review E 92, 022814 (2015)

앞서 소개한 고광일과 바라바시의 2008년 논문은 또한 폭발성 지수(burstiness parameter)라는 양을 제시했다. 이는 사건 사이 시간의 평균과 표준편차를 이용한 값으로 시계열이 규칙적이면 -1, 무작위면 0, 극단적으로 폭발적이면 1에 가까운 값을 갖도록 만들어진 것이다. 하지만 모든 데이터는 유한하므로 실제 데이터에 적용하면 유한크기효과가 나타날 수밖에 없다. 그 효과까지 고려하여 극단적으로 폭발적인 경우에 정확히 1의 값을 갖는 양을 공동연구자와 함께 제시한 것이 아래 논문이다. 우리가 제시한 양은 흥미롭게도 최근 심리학 쪽에서 많이 이용되고 있다.

[8] E.-K. Kim and H.-H. Jo, Measuring burstiness for finite event sequences, Physical Review E 94, 032311 (2016)

그러면서도 나는 계속 폭발 크기 분포의 두꺼운 꼬리를 이해하기 위한 노력을 하고 있었다. 내가 세운 가설은 빈익빈 부익부처럼 커다란 폭발 뒤에 커다란 폭발이 따라오고 작은 폭발 뒤에는 작은 폭발이 따라온다는 것이었다. 관련해서 나의 또다른 관심사는 이러한 성질이 시계열의 자체상관함수(autocorrelation function)의 감소지수(decay exponent)에 미치는 영향이었다. 이를 위해 모형을 만들어 폭발 크기 분포의 거듭제곱 지수가 감소지수에 미치는 영향을 시뮬레이션을 통해 공부한 것이 아래 논문이다. 이 논문은 나의 첫 단독저자 논문이기도 하다.

[9] H.-H. Jo, Modeling correlated bursts by the bursty-get-burstier mechanism, Physical Review E 96, 062131 (2017)

당시에 발견한 흥미로운 사실은 핸드폰 데이터의 경우 기억계수는 0에 가까운 값을 보이는데도 폭발 크기 분포는 여전히 두꺼운 꼬리를 가진다는 점이었다. 즉 인접한 두 사건 사이 시간은 거의 상관이 없는데 인접한 임의의 개수의 사건 사이 시간 사이에는 구조적인 상관이 있다는 것이다. 폭발 크기 분포가 거듭제곱 분포인 시계열을 만들어서 이로부터 기억계수를 측정함으로써 이 수수께끼를 이해할 수 있었다. 2017년 5월에 나는 아시아태평양이론물리센터(APCTP)에서 그룹장이 되어 처음으로 내 그룹의 포닥을 고용할 수 있었다. 그렇게 알게 된 타카유키 박사와 함께 이 일을 했고, 타카유키 박사가 알토대학교로 옮긴 지금도 간간이 일을 같이 하고 있다.

[10] H.-H. Jo and T. Hiraoka, Limits of the memory coefficient in measuring correlated bursts, Physical Review E 97, 032121 (2018)

그룹장을 하면서 포항공대 정우성 교수의 학생을 공동지도하게 되었다. 이번에는 천문학의 소네이라-피블스 모형을 변형한 위계를 갖는 사건 발생 모형을 만들어서 폭발 크기 분포가 어떻게 나오는지를 연구했다. 거듭제곱 분포는 아니고 펼쳐진 지수함수가 나왔다.

[11] B.-H. Lee, W.-S. Jung, and H.-H. Jo, Hierarchical burst model for complex bursty dynamics, Physical Review E 98, 022316 (2018)

이 일을 진행하면서 동시에 타카유키 박사와 사건 사이 시간 사이의 상관이 있는 동적연결망 위에서 전염병이 퍼질 때 그 상관관계가 전염병 확산 속도에 미치는 영향을 연구했다.

[12] T. Hiraoka and H.-H. Jo, Correlated bursts in temporal networks slow down spreading, Scientific Reports 8, 15321 (2018)

이즈음 킴모가 말튼과 나에게 폭발적 동역학에 관한 책을 같이 쓰자고 제안했다. 길지 않은 책이지만 이 분야의 연구결과를 최대한 모아서 정리해야 하는 방대하고 힘든 작업이었다. 그렇게 해서 나온 책이 <Bursty Human Dynamics (폭발적 인간동역학)>이다. 이 책을 같이 쓰면서 참 많은 것을 배웠다.

[13] M. Karsai, H.-H. Jo, and K. Kaski, Bursty Human Dynamics, Springer International Publishing (2018)

나는 계속 사건 사이 시간 사이의 상관관계가 자체상관함수에 미치는 영향을 수학적으로 밝혀내고자 했다. 관건은 사건 사이 시간 사이의 상관관계를 수학적으로 어떻게 명시적으로 쓸 것인가였다. 그러다 발견한 것이 코풀라(copula)였다. 코풀라는 수리통계학에서 이미 수십 년 동안 연구해온 주제인데 이를 이용하면 인접한 두 사건 사이 시간의 결합확률분포를 수학적으로 표현할 수 있고 이를 이용하여 자체상관함수를 계산할 수 있게 된다. 이 논문은 나의 두번째 단독저자 논문이 된다. 다만 임의의 개수의 사건 사이 시간들이 상관이 있는 경우는 여전히 접근하기 힘들다는 한계가 있었다. 그리고 코풀라를 이용하여 시계열을 생성하는 알고리즘에 관한 논문도 추가적으로 쓸 수 있었다.

[14] H.-H. Jo, Analytically solvable autocorrelation function for weakly correlated interevent times, Physical Review E 100, 012306 (2019)

[15] H.-H. Jo, B.-H. Lee, T. Hiraoka, and W.-S. Jung, Copula-based algorithm for generating bursty time series, Physical Review E 100, 022307 (2019)

2020년 3월 마침내 가톨릭대학교 물리학과 교수로 자리를 잡았다. 코로나가 터지고 개인적으로 힘든 시기였으나 연구는 계속되었다. 동적연결망의 특징 중 하나는 노드의 활성패턴도 폭발적이지만 동시에 링크의 활성패턴도 폭발적이라는 것이다. 이 두 조건을 모두 만족시키는 동적연결망 모형이 있을 법도 한데 없었다. 그래서 우리가 만들어서 연구했다.

[16] T. Hiraoka, N. Masuda, A. Li, and H.-H. Jo, Modeling temporal networks with bursty activity patterns of nodes and links, Physical Review Research 2, 023073 (2020)

말튼의 폭발적 사건열 개념을 좀더 자세히 공부하다보니 시계열을 폭발성 나무(burst tree)라고 하는 우리가 제시한 나무 구조 네트워크로 본뜨기(mapping)할 수 있다는 것을 보일 수 있었다. 이 전까지는 시계열의 일부만 가지고 폭발성을 논했다면 폭발성 나무는 시계열에 있는 모든 상관관계를 전부 있는 그대로 드러낼 수 있는 개념이다. 꽤나 중요한 결과라고 생각해서 Nature Communications를 노렸고 될 뻔 했지만 결국 게재 거부되었다. 레프리를 설득하는데 실패한 것이다.

[17] H.-H. Jo, T. Hiraoka, and M. Kivela, Burst-tree decomposition of time series reveals the structure of temporal correlations, Scientific Reports 10, 12202 (2020)

강의를 비롯한 연구 외적인 일로 바쁘다보니 예전에 연구해서 일정한 결과는 있지만 묵혀두었던 일들을 꺼내어 논문을 쓰기도 했다. 그 중 하나가 우선권 기다림 모형을 변형한 것이다.

[18] H.-H. Jo, Numerical study on the deadline-concerning priority queuing model, Journal of the Korean Physical Society 79, 407-411 (2021)

내가 APCTP에 있을 때 함께 일했던 박사님들과 했던 연구 중 하나는 “인간 행동의 폭발성의 원인은 정말 무엇인가”였다. 개인적 특성인가 아니면 상호작용에 의한 결과인가? 이를 시험해보고자 위키피디아 데이터를 이용하여 편집자 사이의 상호작용을 분석했다.

[19] J. Choi, T. Hiraoka, and H.-H. Jo, Individual-driven versus interaction-driven burstiness in human dynamics: The case of Wikipedia edit history, Physical Review E 104, 014312 (2021)

2023년에는 코풀라 방법을 이용하여 동적연결망의 자체상관함수를 구하는 연구를 했다. 이를 위해 동적연결망의 자체상관함수부터 정의를 해야 했는데 사실 다양한 방법이 가능하다. 그중에서도 가장 간단한 정의를 이용하여 해석적인 결과를 얻을 수 있었다.

[20] H.-H. Jo, Copula-based analysis of the autocorrelation function for simple temporal networks, Journal of the Korean Physical Society 82, 430-435 (2023)

자체상관함수에 집착(?)하는 이유는 이 함수가 시계열에 있는 기억효과를 가장 통째로 보여주기 때문이다. 자체상관함수가 거듭제곱 형태로 감소할 때 감소지수는 왜 하필 그 값을 갖는지를 이해하고 싶었다. 내가 아는 한 이 문제에 관해 유일하게 엄밀한 수학적 접근은 Lowen과 Teich의 1993년 PRE 논문이다. 그들은 갱신과정(renewal process)을 이용했는데 이는 사건 사이 시간 분포 외의 다른 모든 상관관계가 없는 점과정이다. 사건 사이 시간 분포를 거듭제곱 분포로 가정하고 자체상관함수를 해석적으로 구하면 사건 사이 시간의 거듭제곱 분포와 자체상관함수의 감소지수 사이의 관계식을 구할 수 있다.

그렇다면 사건 사이 시간 사이의 상관관계가 있는 시계열에 대해서는 어떤 결과가 나올 것인가. 나의 2019년 단독저자 논문에서는 인접한 두 사건 사이 시간 사이의 상관관계가 기억계수로 주어질 때 자체상관함수가 기억계수로 인해 어떻게 바뀌는지를 탐구했다. 기억계수만으로는 감소지수가 영향을 받지 않는다는 결론이었다. 여전히 임의의 개수의 인접한 사건 사이 시간 사이의 상관관계에 대해서는 알 수 없었다. 시뮬레이션을 통해 이 문제에 접근한 것이 나의 2017년 단독저자 논문인데 시뮬레이션이라 한계가 분명했고 명쾌한 결과를 얻지는 못했다.

그러다 2년 전인 2022년 10월에 한국물리학회 가을 정기총회에 다녀오면서 문득 아이디어가 떠올랐다. 혼자서 논문을 쓰기 시작했는데 확률분포가 잘 정의되지 않는 수학적 문제에 부딪혔고 2023년 3월에 이 문제를 잘 해결해줄 것 같은 과거 공동연구자, 나오키 마스다 교수에게 메일을 보냈다. 그렇게 조금씩 실제적인 결과를 얻기 시작하여 올 초에 비로소 제대로 된 결과를 얻게 되었다. 2024년 2월부터 나의 연구그룹에 합류한 티베베 박사의 도움을 얻어 마침내 빈 구멍을 모두 메꿀 수 있었고 오늘 낮에 아무개 저널에 투고했다.

[21] H.-H. Jo, T. Birhanu, and N. Masuda, Temporal scaling theory for bursty time series with clusters of arbitrarily many events [https://arxiv.org/abs/2404.17093]

참 많은 일이 있었고 많은 결과를 얻었지만 여전히 할 일이 많다. 문제를 발굴하고 풀어가는 과정은 힘들지만 또 신이 나는 일이기도 하다. 앞으로도 계속 그러한 즐거움을 만끽하고 싶다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari