Introduction
이 글은 아래 논문에 대한 리뷰로, 공간통계 분야에서 종종 등장하는 '아메바(AMOEBA)'라는 알고리즘이 무엇인지를 (쉽게) 설명해 보려고 한다.
Aldstadt, J., & Getis, A. (2006). Using AMOEBA to create a spatial weights matrix and identify spatial clusters. Geographical Analysis, 38(4), 327-343.
위 논문은 아래 주소로 가면 볼 수 있다.
http://onlinelibrary.wiley.com/doi/10.1111/j.1538-4632.2006.00689.x/full
Aldstadt와 Getis(공간통계 분야의 대가들)가 공동 집필한 이 논문은 아메바라고 하는 알고리즘을 처음으로 세상에 알린 논문이다. 아메바가 어떤 알고리즘인지는 위 논문의 제목만 봐도 알 수 있다.
'Using AMOEBA to 1. create a spatial weights matrix and 2. identify spatial clusters'라고 되어 있다. 그렇다. 아메바는 1. 공간가중행렬을 만들고, 2. 공간 클러스터를 identify 하는 데 쓰이는 알고리즘이다. 그동안 공간통계 분야에서 아메바는 주로 2번, 공간 클러스터를 탐색하는 쪽으로만 알려져 있었다. 1번, 공간가중행렬을 만드는 부분은 이에 비해 적게 알려진 측면이 있다.
논문이든 책이든 목차를 보면 해당 내용을 파악하는 데 많은 도움이 된다. 그러므로 목차를 먼저 살펴보자. 참고로, 본 글에서 사용한 이미지들은 2015년도 2학기 때 수강했던 이상일 교수님의 '공간 데이터 분석과 지리교육' 수업에서 본인이 발표할 때 사용한 PPT 자료에서 발췌한 것이다. 본 논문은 아래의 그림에서처럼 총 6개의 챕터로 이루어져 있다. 오늘은 먼저, introduction 부분부터 살펴보려고 한다.
위에서, 아메바는 1. 공간가중행렬을 만들고, 2. 공간 클러스터를 identify 하는 데 쓰이는 알고리듬이라고 했다. 이 두 가지 사항은 공간 분석 전문가들에게도 골칫거리인 이슈라고 한다. 본 논문에서는 이 두 가지 문제를 해결하기 위해 아메바라는 알고리즘을 제시한 것이다.
여기서 공간가중행렬(spatial weights matrix, W)이 무엇인지는 지난번에 다루었다. 이에 대해 알고 싶다면 아래 링크를 따라가 보시기를.
https://brunch.co.kr/@mapthecity/4
아메바가 논문 제목에 대문자로 쓰여 있는 걸로 봐서는 어떤 약자(abbreviation)라는 것은 짐작할 수 있겠다. 아메바는 우리가 알고 있는 단세포 생물 아메바와 스펠링이 같다. 그러면서 각 알파벳들이 각자 의미를 가지고 있는데, 이를 살펴 보자(아래 그림을 참고하면서).
A: 아메바는 공간가중행렬을 구성하는 동시에 공간 클러스터의 기하학적 형태를 탐색하기 위한 알고리즘이다.
M : Multidirectional이다. 아메바는 seed(클러스터 탐색에 사용되는 시작 위치)로부터 시작해서 하나의 방향이 아닌, 여러 방향으로 공간적 연관성을 탐색한다는 뜻이다.
O : Optimum이다. 아메바는 하나의 공간단위에서부터 탐색을 시작하기 때문에 아주 미세하고, 가장 로컬한 스케일의 공간적 연관성도 밝혀낼 수 있다는 점에서 최적이라고 표현했다.
EB: Ecotope-Based라는 용어를 쓴 이유는, 전체 공간 데이터셋 내에서 공간적 연관성의 소구역을 찾는다는 것을 강조하기 위해서이다. 환경 분야에서 이렇게 큰 지역 내의 특정 지역을 해비탓(habitat)이나 에코톱(ecotope)이라고 부른다. 아메바는 이런 에코톱을 찾기 위한
A : Algorithm이고, 이러한 에코톱은 대부분 공간적으로 불규칙하거나 아메바 같은 모양을 가지고 있기 때문에 이런 이름이 붙은 것이다.
아메바는 비공간적으로 연관된 데이터로부터 공간적으로 연관된 데이터를 분리해내는 두 부분으로 구성될 수 있다는 원리에 기반한다. 이게 무슨 말인가? 이에 대해서는 뒤에서 다루도록 하겠다. 여기서 중요한 사실은, 아메바는 국지적으로 공간적 자기상관성을 밝히는 통계량인 Gi*를 기반으로 한다는 것이다. Gi*에서 i는 특정 공간단위를 뜻한다. 즉, Gi*는 특정 공간단위에 초점을 두고 있는 로컬(local)한 통계량이라는 것을 의미한다.
이제 공간가중행렬로 넘어가 보자. 공간가중행렬을 만드는 방법에 대한 이론은 아주 많다. 이 논문의 저자이자 Gi*를 만든 Getis가 정리한 것만 해도 12가지는 되는데, 그중에서 가장 간단한 것이 인접(contiguous) 개념이고, 가장 복잡한 것은 지구 통계학적(geostatistical) 모델이다. 여기서 중요한 것은 어떠한 공간적 모델이든지 공간적 연관성의 '범위'를 설명해야 한다는 것이다. 공간적 모델에 사용되는 공간가중행렬은 아래 그림과 같이 3가지 개념으로 분리해서 생각해 볼 수 있다.
먼저 관점 1은 공간적 연관성의 가장 기본적인 개념인 거리조락함수에 대한 것이다. 아래 그림의 식처럼 거리가 멀수록 값이 작아지는 개념이다. 거리조락함수에 기반해서 만들어진 공간가중행렬은 사전에 형성된 행렬 구조에 기반하고 있기 때문에 외인성(exogenous)의 성격을 가지고 있다고 볼 수 있다. 하지만 이러한 종류의 행렬을 생성하는 것과 관련된 이론이 거의 없기 때문에 많은 연구자들은 관점 2를 따르고 있다.
관점 2는 인접하면 1을, 그렇지 않으면 0의 값을 가지는 인접 개념이다. 이는 공간통계를 공부해 왔던 사람들에게는 아주 친숙한 개념이다. 너무 쉽고 간단한 개념이기 때문에 피차 기반 이론이 부족한 상황에서는 이러한 인접 개념이 가장 합리적이라는 판단 하에 많은 연구자들이 이 두 번째 관점을 따르고 있다. 이 역시 외인성의 성격을 가지고 있다.
마지막으로 관점 3에서는 시적인 표현이 등장한다.
데이터가 그들 스스로 이야기하게 한다.
이게 무슨 말이냐 하면, 데이터셋 내에 존재하는 데이터의 공간적 연관성을 반영해서 공간가중행렬을 만든다는 것이다. 그렇기 때문에 이 관점은 앞의 두 경우와는 다르게 내인성(endogenous)이라고 볼 수 있다.
아까부터 외인성, 내인성 하는데 이게 무슨 뜻이냐 하면, 이런 것이다. 앞의 두 관점 같은 경우에는 공간가중행렬을 구성할 때 각 공간단위가 가지고 있는 값이 무슨 값이든 상관이 없이 구조적으로 결정이 된다. 관점 1의 경우에는, 거리가 멀면 작은 값이, 가까우면 큰 값을 갖게 된다. 관점 2는 인접하면 1, 아니면 0의 값을 준다. 이때 공간단위들이 실질적으로 보유하고 있는 값은 아무런 영향을 주지 못한다. 반면에 관점 3 같은 경우에는 각 공간단위들이 가지고 있는 값들에 따라서 공간가중행렬이 구성된다는 것이다. 외인성과 내인성은 그런 차이가 있는 것이다. 우리의 아메바는 바로 이 관점 3에 기반하고 있다.
관점 1과 관점 2의 경우에는 연구 데이터에 내재된 실세계를 표현하지 못한다. 반면에 관점 3은 데이터가 가지고 있는 그들의 속성을 반영해 준다. 그렇기 때문에 연구자는 이미 존재하는 데이터로부터 공간가중행렬을 구성하는 관점 3을 따르는 것이 좋다는 얘기를 하고 있다. 만약에 그렇게 된다면, 데이터 내의 공간적 연관성이 SAR(공간자기회귀) 모델에 포함될 수 있다.
지금까지 1장 내용인 'Introduction' 부분을 살펴보았다. 다음 시간에는 2장 'Creating W with AMOEBA'에 대해서 다루어 보도록 하겠다.