공간통계분야의 논문을 읽다보면 통계량을 나타낼 때 'i(아래첨자)'와 '*(위첨자)'가 자주 사용되는 것을 볼 수 있다 . *에 대한 설명은 지난 게시물에서 다루었으니, 오늘은 i에 대해 이야기해 보려 한다. 아래 그림에서 I는 Moran's I, c는 Geary's c, G는 Getis-Ord의 G를 나타내며, 이것들은 모두 공간 통계량이다. 그러면 아래 첨자로 i가 붙어 있는 것들이 의미하는 바는 뭘까?
이에 대한 답은 ArcMap을 이용해서 해당 통계량을 한번 돌려 보면 바로 알 수 있다. 한번 해 볼까? 위 통계량 중 Moran's I를 이용해 보자.
어떤 데이터를 가지고 실험을 해볼까 고민하다가 내가 가장 많이 다뤄본 트위터(Twitter) 데이터를 이용해 보기로 했다. 먼저 서울시 법정동(2013년 기준 467개) 위에 지오태그(geotag)된 트위터 포인트 데이터들을 올려 보았다.
법정동 경계가 거의 안 보일 정도로 많은 양의 포인트들이 서울시를 뒤덮고 있다. 최근에 수집한 데이터와 2년 전에 수집한 데이터를 모두 사용하다 보니 그렇게 되었다.
ArcMap에서 통계량을 계산하기 위해서는 위에서 모은 포인트들을 해당 법정동에 대해 공간 결합(spatial join)시키는 과정이 필요하다. 왜냐하면 위에서 제시한 세 가지 통계량들은 모두 기본적으로 에어리어 데이터 분석에만 사용될 수 있기 때문이다. 따라서 이는 포인트 속성의 데이터를 에어리어 속성의 데이터로 변환시켜 주기 위한 과정이라고도 볼 수 있겠다.
위 그림에서 색이 진할수록 트위터 포인트 데이터가 많이 발생한 곳이다. 대체적으로 강남 지역에 핫스팟이 많이 보인다. 속성 테이블을 열어서 확인해 보니, 여의도동, 서초동, 잠실동의 순서로 많은 양의 트위터 데이터가 발생되었다. 이제 다음 과정으로 넘어가 보자.
이제 드디어 Moran's I를 돌려 볼 수 있게 되었다. ArcMap 10.2의 내장 툴을 이용하여 Moran's I를 계산한 결과는 아래와 같다.
I의 값이 0.384138로 산출되었고, p-value가 0.000000이므로 해당 분포는 99%의 유의확률로 상당히 클러스터되어 있다는 것을 알 수 있다.
이번에는 작은 i가 붙어 있는 Moran's Ii(i는 아래첨자)를 돌려 보자. 역시나 ArcMap 10.2의 내장 툴을 이용하여 Moran's Ii(i는 아래첨자)를 계산한 결과는 아래와 같다.
차이가 보이는가? 답은 간단하다.
큰 I는 지도를 그릴 수 없고, 작은 i가 붙은 I는 지도를 그릴 수 있다.
위 그림에서 위에 있는 것들은 전역적(global) 통계량, 아래 있는 것들은 국지적(local) 통계량이라고 한다. 그래서 I의 경우, 위의 것은 global Moran's I라고 하고 아래 것은 local Moran's I라고 한다.
그럼 이제 왜 이런 차이가 발생하는지 생각해 보자.
global Moran's I는 global하고, local Moran's I는 local하기 때문이다.
무슨 말인가? global은 전체 공간 단위들의 평균값을 계산하고, local은 각의 공간 단위가 가지고 있는 값들을 각각 개별적으로 계산하기 때문이다. 그래서 local Moran's I의 평균값이 global Moran's I의 값이 된다. 이는 수식을 비교해서 보면 훨씬 이해가 쉽다.