으뜸 방정식을 이용한 해석적 접근
마치 모형(March model)은 제임스 마치(James G. March)가 1991년에 자신의 논문에서 제시한 조직학습 모형을 가리킨다[March, Organization Science 2, 71 (1991)]. 구글 스콜라에 따르면 이 논문은 지금까지 33,000번 이상 인용되었다. 그만큼 사회과학 내에서 커다란 영향을 끼친 것으로 보인다.
마치 모형은 외부 현실, 조직 코드, 조직 구성원(개인)으로 이루어지며 주어진 현실 하에서 조직 코드와 개인은 서로 배움으로써 현실에 대한 올바른 인식을 추구한다. '조직 코드'는 조직의 규칙이나 행동원리 같은 것을 포괄하는 개념인데, 의인화를 하면 더 와닿기 때문에 지금부터 그냥 조직의 리더라고 생각하겠다. 원래 마치 모형은 비교적 복잡한 편이어서 처음부터 컴퓨터 시뮬레이션을 통해서 주로 연구되었다. 하지만 이 모형의 핵심만 남겨놓고 나머지는 단순화시키면 해석적 접근이 가능하다. 즉 손으로 풀 수 있다는 말이다.
이 모형을 꽤 오래 전부터 알고는 있었지만 내가 직접 연구해볼 생각을 한 건 작년 가을이었다. 사실 다른 주제로 의견동역학 모형을 구상하다가 문득 마치 모형이 떠올랐고 왜 아직 이 모형의 정확한 해를 구한 연구가 없을까 고민하다가 내가 직접 풀어보기로 했다. 다행히 좋은 결과를 얻었고 이를 열심히 정리해서 올해 초에 아카이브에 올렸다[arXiv:2401.03640].
나의 단순화된 마치 모형은 다음과 같다. 현실은 0 또는 1의 값을 갖는다. 리더도 0 또는 1의 값을 갖는데 이건 현실에 대한 인식을 뜻한다. 리더의 인식이 현실과 같으면 올바르게 인식한 것이다. 조직을 이루는 개인들도 각자 0 또는 1의 값을 가지며 이 역시 개인들의 현실 인식을 뜻한다. 일단 현실은 1로 고정되어 있다고 하자. 개인들은 각자 p의 확률로 리더의 인식을 복제한다(배운다). 리더의 인식이 올바르든 아니든 상관 없이 이 규칙은 적용된다. 리더가 항상 올바른 인식을 하는 것은 아니므로 개인들 중에 리더보다 더 올바른 인식을 하는 개인들이 있을 수 있다. 이들을 우수한 개인이라 부르자. 리더는 q의 확률로 우수한 개인의 인식을 복제한다(배운다).
이 단순화된 모형은 으뜸방정식을 이용해서 접근할 수 있다. 수식은 복잡하므로 생략하겠다. 어떤 초기조건에서 시작하여 시간이 충분히 흘렀을 때 올바른 인식을 가진 개인의 비율을 ρ라고 쓰자. 아주 간단한 경우에 대해 우리는 ρ가 q가 커짐에 따라 증가하고, p가 커짐에 따라 줄어드는 해석적 결과를 얻었다. 즉 리더가 우수한 개인들로부터 더 빨리 배움으로써 조직 전체의 인식은 현실에 더 가까워질 수 있다. 하지만 개인들이 리더로부터 배우는 속도가 빠를수록 조직 전체의 인식은 현실에서 더 멀어진다. 전자는 이해하기 쉽지만 후자는 그렇지 않다. 왜 그럴까.
이런 경향은 마치의 원래 논문에서도 보고되었는데 마치는 이 결과를 새로운 가능성에 대한 탐색(exploration)과 기존의 확실성에 대한 착취(exploitation) 사이의 상충에 대한 이야기로 풀어냈다. (1) 코드는 우수한 개인들로부터 배우므로 대개 평균적인 개인보다 현실을 더 잘 인식한다. (2) 그래서 코드로부터 빨리 배우는 개인들은 현실 인식에 대한 이득을 얻는다. (3) 하지만 코드의 인식 개선은 코드와 다른 인식을 한 개인으로부터 배움으로써 이루어지며, 그런 개인은 보통 느리게 배우는 개인들이다.
이를 종합하면, 개인들의 느린 학습은 인식의 다양성을 지속시키고 그 동안 더 많은 탐색을 통해 코드의 인식을 개선시킬 수 있다(즉 ρ는 p가 작을수록 커진다). 그래서 코드로부터 빨리 배우기만 하는 개인들은 단기간의 이득을 얻을지 몰라도 결국 한곳 최적점에 갇혀버림으로써 장기간의 손해를 본다는 것이다. 물론 마치 모형은 이런 결론을 얻기 위한 모형이라고 생각할 수도 있다.
그럼 내가 한 일은 무엇인가. 나는 단순화된 모형에 대한 정확한 해를 구함으로써 저런 사회과학적 통찰의 수학적 구조를 명쾌하게 드러냈다고 할 수 있다. 특히 p의 역할을 이해하기 위해 상태공간을 정의해야 한다. 조직의 상태는 리더의 값(c)과 조직 내 개인들 중 1의 값을 가진 개인의 수(n)로 정확하게 기술된다. 이를 간단히 (c,n)으로 쓰겠다. 리더와 개인들이 서로 배우다보면 (c,n)은 (0,0)에 빠져서 끝날 수도 있고 (1,N) (N은 개인의 총 수)에 도달하고 끝날 수도 있다. (0,0)은 리더와 개인 모두 틀린 현실 인식에 빠지는 경우이고, (1,N)은 리더와 개인이 모두 올바른 현실 인식을 하는 경우다.
c=1일 때 p가 클수록 개인들은 올바른 리더를 따라 (1,N)에 더 빨리 도달할 것이다. 하지만 c=0일 때는 p가 클수록 개인들은 잘못된 리더를 따라 (0,0)으로 돌진한다. 문제는 (0,0)에 한 번 도달하면 빠져나올 수 없다는 것이다. (0,0)에 도달하는 확률을 줄이려면 q가 크면 된다. 일단 리더의 인식이 0이었다가 1이 되면 다시 0으로 돌아갈 수 없다. 즉 (0,0)에 빠지지 않는다. 이렇다보니 p의 역할이 c=0일 때와 c=1일 때가 달라진다. 이 정도면 설명은 얼추 다 된 것 같다.
좀더 현실적인 해석을 해보자. 조직의 리더가 우수한 개인으로부터 배우지 않으려고 한다면 (0,0)에 빠질 가능성이 높아진다. 잘못된 현실 인식을 구성원들에게 강요하기 때문이다. 반대로 리더가 우수한 개인으로부터 열심히 배운다면 (0,0)에 빠질 가능성은 줄어든다. 다만 여기서부터 (1,N)에 도달하려면 개인들도 리더를 믿고 따라야 할 것이다. 다만 마치 모형이든 나의 단순화된 모형이든 p는 리더의 옳고 그름과 무관한 변수라는 것을 염두에 두자.
지금까지는 마치의 논문에서 다룬 여러 상황 중에서 가장 단순한 경우에 대해서만 다뤘다. 마치는 개인들의 학습 속도가 서로 다른 경우, 개인들이 새로운 개인들로 교체되는 경우, 현실도 때때로 바뀌는 경우들을 모두 연구했고 나도 단순화된 모형을 통해 이런 다른 경우들에 대한 수학적 결과를 얻었다. 더 자세한 내용은 나의 아카이브 논문을 보면 된다.