Third Place Analysis(잛은 버전)
이 남 주 NJ Namju Lee
엔제이스튜디오 소장, ESRI 소프트웨어 엔지니어
NJSTUDIO Director, ESRI Software engineer
머리말
프로젝트 개요
프로세스 요약
프로젝트 프로세스
1. 제3의 공간 데이터 확보와 매핑(시각화)
2. 데이터 이해와 정제(전처리), 카테고리 축소(차원 축소)
3. 공간 간의 가중치와 거리 함수(현상의 추상화, 수치화)
4. 정성적, 정량적 데이터 보간, 추가 차원, 이산화, 모델 선택
5. 인공지능 학습, 적합, 검증, 조정
6. 모델 적용, 검증, 해석
7. 발전 방향, 주의점, 가능성
맺음말
참조
제3의 공간 분석 리포트는 Massachusetts Institute of Technology(MIT) Media Lab의 City Science Lab(2016)에서 연구를 시작하여 CDRF(The 2nd International Conference on Computational Design and Robotic Fabrication, 2020) 학회에 발표된 연구 논문으로서, 도시를 구성하는 제3의 공간 분포를 분석하여 특징 추출, 형성, 트렌드를 이해하고, 다른 도시에 적용 비교하며, 제3의 공간 관점으로 도시를 이해하는 방법론 연구 프로젝트이다.
"제3의 공간"은 집과 직장 사이에 위치되는 공간을 지칭한다. 도서관, 커피숍, 헬스클럽, 은행, 노래방 등은 제3의 공간으로 분류된다. 도시 계획, 도시 재생, 환경 분석을 할 때, 특정 건축 대지의 관계성을 분석할 때, 부동산 가치를 평가할 때, 스타벅스와 같은 대형 프랜차이즈의 위치를 선정할 때, 제3의 공간 트렌드와 분포에 대한 이해는 필수적이다. 제3의 공간에 대한 이해는 점점 폭넓게 사용되고 있는 주요한 요소다. 이러한 분석은 전통적으로 직접 방문하여 거리를 재거나, 거리환경과 유동 인구를 지도에 표시하는 방식으로 데이터 매핑(Mapping)을 통해서 도시를 이해했었다.
2010년도 즈음에 빅데이터(Big Data) 트렌드와 뒤 이은 인공지능(AI) 붐은 데이터를 바라보는 시각과 기술을, 전문 영역에서 대중 영역으로 전도, 확장시키고 있다. 마치 보편화된 디지털 디자인 소프트웨어들이 전통적인 디자인 도구들을 대체해 나가듯, 오픈된 데이터와 그 데이터를 가공할 수 있는 대중화된 하드웨어, 소프트웨어 도구들이 작금의 디자이너의 앞에 놓여 있다는 것이다. 제3의 공간 분석과 적용 과정에서 데이터라는 재료와 그 재료를 가공하는 디자이너의 자세, 역할, 방법론을 기술하고자 한다.
프로젝트명: 제3의 공간 분석(Third Place Analysis)
API: Google Place API
프로그래밍 언어: Python, C#, Javascript, HTML, CSS
라이브러리: NJSCore, Tensorflow, Numpy, Pandas, SKLearn...
적용 도시: Boston, LA(Los Angeles), Redlands
전체 프로세스를 정리해 보자. Boston 지역 제3의 공간의 발달과 분포는 도시의 특성을 내제하고 있다는 (1) 가설(질문, 콘셉트, 목표 기술)을 세운다. (2) Google Place API를 사용하여 제3의 공간 정보를 모은다. (3) 각각 장소의 거리를 계산한다. (4) 계산된 장소의 트렌드를 정제한다. 가령, 걸어서 5분 10분 15분 거리 안의 제3의 공간, 혹은 실제 거리에 따른 도달 확률을 통해 데이터화 할 수 있다. 이들은 추후 (5) 인공지능(머신 러닝) 과정에서 학습 데이터로 활용된다.
이 프로세스는 선형적이지 않다. 아래의 다이어그램과 같이 반복적인 과정을 통해, (6) 제3의 공간의 정보들을 학습 가능한 데이터로 만든다. (7) Boston뿐 아니라, New York, LA, 강남, 종로 등의 지역들을 학습시켜 도시에 분포한 제3의 공간을 설명하는 모델을 학습, 검증, 구현한다. (8) 적용의 관점에서 하나의 도시의 정적 패턴 혹은 동적 트렌드를 분석할 수 있다. 혹은 다른 도시와 비교하여 적용하거나, 같게 하거나, 다른 도시 캐릭터로 디자인해 나아갈 때의 프로세스, 근거, 혹은 통찰로 활용될 수 도 있다.
인공지능 구현에는 다양한 방법들이 있지만, 현실에서 경험하는 대부분의 인공지능은 머신러닝(기계학습)으로 구현된다. 즉 입력된 데이터에 의해서 프로그래밍되는 것이다. 아래의 그림을 보면, 전통적으로 프로그래밍을 한다는 것은 목적에 따른 순차와 조건을 정의하여 결괏값을 반환하도록 그 프로그래밍의 내용을 설계(연역법)하는 것이다. 그러나 머신러닝은 반대를 취한다. 즉 수많은 데이터가 결과로써 먼저 주어지고, 그 결괏값을 통해서 그 과정을 유추하여 프로그래밍의 내용을 역설계(귀납법)하는 것이라 볼 수 있다. 이러한 과정을 학습(Learning)이라고 하고 학습이 잘 됐을 경우 적합(Fitting)이 잘 되었다고 이야기한다. 가령, 구구단과 같이 결정론적(Deterministic)인 명시적 함수를 구현할 때는 전통적인 방식(연역법)이 당연히 유리하다.
하지만 자율주행처럼 수많은 변수들을 고려해야 하고, 매번 다른 상황에 대응하게 전통적인 방식을 통해 무한에 가까운 논리 분기로 프로그램을 설계한다는 것은 사실상 불가능하다. 따라서 이런 경우 수많은 운전 데이터들을 통해 확률적(Stochastic)인 모델을 만드는 것이 분명 유리하며 현실적이다. 즉 결과로써의 데이터를 통해 과정으로서의 프로그래밍을 역설계(귀납법)함으로써 데이터가 품고 있는 패턴을 프로그램화하여(Representation Learning) 새로 입력될 데이터에 대해서도 높은 신뢰도로 대응할 수 있게 하는 것이다.
"데이터(Data)는 현상의 표상(Representation)이다." 즉, 현상을 효과적으로 추상(Abstraction), 압축시킨 디지털 문서로 볼 수 있다. 이러한 데이터는 인간에게 익숙한 시각 언어로의 투영을 시작으로, 데이터에 대한 이해를 시작하는 것이 보편적이다. 네이버, 다음, Google 지도의 같은 디지털 지도는 공간정보를 매핑/시각화를 도울 뿐 아니라, 기록된 데이터를 접근하는 하나의 인터페이스로서의 역할도 한다. 즉 API 서비스를 사용하면 도시의 다양한 정보를 접근하여 가공, 활용할 수 있다는 것이다.
이러한 공간정보의 내용, 패턴을 바탕으로 현상을 모델링한다. 가령 데이터에 시계열(Time series)이 있다면 변화하는 트렌드에 대한 통찰을 얻을 수 있고, 서비스의 시작과 종료 시점, 고객들의 방문 패턴, 선호도 등을 이용하면 좀 더 구체적이고 특화된 현상을 모델링을 할 수 있다. 이러한 메트릭(Metric)은 앞서 세운 가설에 따라 현상을 직/간접적으로 함축하고 있는 단서, 즉 데이터들을 반복적으로 프로세스 함으로써 인과관계를 구현, 검증해 나가는 과정이 일반적이며, 그 순환되는 프로세스는 매핑(Mapping)으로부터 시작된다.
다음의 이미지는 Boston의 각각의 장소들을 디지털 공간에 매핑을 한 예이다. Boston과 Cambridge 지역에, 총 95개의 카테고리(병원, 공원, 도서관, 편의점...)로 4,250개의 제3의 공간 데이터가 시각화되었다.
"데이터는 현상의 압축 통찰의 향연"이다. 이러한 데이터가 품고 있는 지식, 통찰, 지혜들을 더 명확히 드러내기 위해 데이터 전처리와 같은 정제 과정은 필수이다. 그중의 하나는 차원 축소법이 있다. 데이터의 형식과 내용에 따라 정보를 잘 보존할 수 있는, 높은 성능과 신뢰도를 보이는 통계학적 차원 축소 방법들이 있다. 특별히 이 리포트에서는 디자이너의 시각과 경험으로 데이터의 차원을 축소하는 방식의 내용에 대해 집중하고자 한다.
인터넷을 통하여 접근하는 대부분의 원시 데이터(Raw Data)는 목적에 따라 정제되면 좀 더 높은 수준의 모델링을 할 수 있다. "쓰레기를 넣으면 쓰레기 값이 나온다(GIGO: Garbage in, garbage out)"는 말이 있듯이, 데이터를 이해하고 순도를 높이는 과정은 재료(데이터)와 정제 도구(코드, 인공지능, 알고리즘 등등)를 사용할 때 반드시 거쳐야 되는 지점인 동시에, 디자이너가 개입하여 전공 지식(Domain Knowledge)을 발휘해야 하는 단이기도 하다. 데이터를 모으고 정제를 통해, 목적을 성취하고 가설을 설명할 수 있는 학습 가능한 데이터를 생성, 미세 조정해야 한다는 것이다. 마치 하나의 원자재를 다듬어 목적에 맞는 다양한 건축물을 디자인하듯, 데이터 기반 사회 패러다임에서 디자이너에게 "데이터 정제 프로세스"는 비약 없는 명시적 논리 흐름이고 곧 디자이너의 "디자인 프로세스"가 되는 것이다.
95개의 공간 카테고리들은 주어진 데이터의 개수에 비해 매우 적다. 다른 의미로는 데이터에 노이즈가 많다고도 볼 수도 있고, 자칫하면 과적합(Overfitting)에 취약해진다. 때문에 차원 축소(Dimension Reduction) 혹은 특징 선택(Feature Selection)을 통해, 특정 데이터에 치우치지 않는 일반화된 현상 모델링을 할 수 있다. 마치 자율주행에서 대표적인 도로주행 상황을 학습시킴으로 예측하지 못한 다양한 현실 상황에 일반화시켜 대응하는 이치와 같다. 가령 일식, 중식, 한식당의 경우 음식점으로 분류하고, 택시, 버스정류장 지하철, 기차 등은 교통으로 분류가 가능하다는 것이다. 또한 데이터 셋의 관계성이 상관 분석(Correlation analysis)을 통해 차량 이동이 빈번한 곳은 주유소가 위치한다는 긍정적 관계성(Positive correlation)의 경우 하나의 차원으로 병합시킬 수도 있다. 그 외에 통계적, 수학적 기법 혹은 전공영역(건축, 도시, 조경...)에서 오는 경험과 통찰을 발휘하여 앞서 설명한 가설을 직/간접 설명할 수 있는 유의미한 학습 가능한 데이터 셋을 추출, 가공하는 것이다.
현실에서 얻어지는 원시 데이터 선택과 가공은 굉장히 복잡하다. 어떤 데이터를 사용할 것인가? 어떻게 데이터에서 노이즈를 제거하고 시그널/패턴을 드러내 포착할 것인가? 어떤 메트릭 공간에 프로젝션을 할 것인가? 어떤 데이터가 결과에 유의미하게 기여될 것인가? 등에 대한 프로세스는 선형적이지 않다. 반복적으로 제3의 공간을 직/간접으로 기술하는 데이터와 그 패턴을 정제함으로써, 현상을 보다 명시적 표상, 함축하는 데이터를 구축할 수 있고, 필요에 따라서 앞서 세운 가설을 수정하고 그에 따른 데이터를 고려, 조합, 정제하여 데이터 셋의 순도를 높여 나가야 한다.
공간정보(Spacial Information)의 이점은 관계성을 모델링하기 비교적 유리하고 편리하다. 왜냐하면, 공간이 내재하고 있는 성질들을 추상, 수치화하여 장소(Location)로 통합, 해석이 가능하기 때문이다. 가령 매핑된 각각의 제3의 공간들과의 거리(Distance) 혹은 장소의 성질을 파라미터와 가중치로 부가하여 특정 장소를 모델링할 수 있다. 즉 가까운 거리는 더 높은 점수, 먼 거리는 낮은 점수를 계산하는 함수를 활용하거나, 혹은 보도 환경에 따라 변수를 추출하고 그 가중치를 미세 조정하는 함수를 구축할 수 있다. 또한 도시 전체 공간에 균일하게 장소들을 배치하여 그 장소들에서 각 제3의 공간까지의 거리 가중치를 통합적으로 계산하여 전반적인 접근성을 평가하는 모델을 구축할 수도 있다. 즉 가설을 설명 혹은 답을 하는 데이터를 그 가설에 최적화된 데이터로 정제하는 단계로 이해할 수 있다.
수학적으로 거리를 구하는 함수를 여러 방식으로 구현할 수 있다. 유클리드 거리(Euclidean Distance), 맨해튼 거리(Manhattan Distance), 쳬비셰프 거리(Chebyshev Distance), 민코프스키 거리(Minkowski Distance) 코사인 거리(Cosine Distance)등 각각의 거리 함수로 기술할 수 있는 특화된 문제들이 있다. 도시를 이동할 때, 도로와 보도를 이용한다. 따라서 이를 반영할 수 있는 네트워크 거리로 계산하는 것이 더 정확한 현상과 현실적 패턴을 데이터화할 때 적합한 방법이다.
동시에, 전통적인 도시 네트워크 분석 방법을 적용할 수 있다. 가령, 중심성(Centraility) 분석에는 Degree, Betweenness, Closeness, Straightness 모델들이 존재하고, 접근성(Accessibility) 분석에는 Reach, Gravity, Huff 모델과 같은 분석법을 적용, 혼합하여 거리 함수를 목적에 따라 구현, 적용할 수 있다.
앞서 살펴본 것처럼, 데이터에 내재된 시그널의 순도에 따라 현상 모델링의 완성도와, 인공지능 구현 그리고 그에 따른 결괏값 신뢰도의 범주가 결정될 수 있다. 만약 단순히 거리 가중치에 따라서 제3의 공간을 데이터화 시켜 인공지능 모델(혹은 네트워크)을 학습할 경우, 데이터의 패턴 외곡 폭이 커질 수 있을 뿐 아니라 거리에 따라 선형적으로 가중치가 커질 경우, 이는 주요하지 않은 노이즈(Outlier) 값이 커지는 결과를 초래할 수도 있고, 학습과정에서 적합이 안 되는 경우도 많고, 데이터의 메트릭을 이해하는데 직관적이지도 않다.
따라서 두 가지 방법을 소개하겠다. 첫 번째는 5분, 10분, 15분 걸어서 갈 수 있는 장소를 한계로 가중치를 계산한다. 둘째는, 거리가 멀수록 외부 환경이 나쁠수록 특정 공간까지 갈 수 있는 확률이 낮아(Decay)지는 방식으로 데이터를 가공한다. 아래의 표를 보면, 100미터에 위치한 장소를 접근할 확률이 β값이 0.02의 경우 약 15%, β: 0.01의 경우 약 38%, 그리고 β: 0.004의 경우 약 70%의 확률을 가지게 된다. 즉 100명의 사람이 있다면 날씨와 도보 환경에 따라, 15명, 38명 그리고 70명의 사람들이 그 장소에 도달을 한다는 것을 의미한다.
혹은 주어진 장소에서 제3의 공간의 거리 평균을 활용하거나 중간 값을 활용할 수도 있다. 앞서 살펴본 것처럼 주어진 데이터를 원하는 결과에 최적화되도록 , 학습 데이터를 가공하는 방법론을 구축하는 것이 디자이너의 능력과 역할인 것이다. 이 리포트에서는, 한 지점으로부터 도보로 30분 거리의 모든 제3의 공간의 네트워크 거리의 가장 작은 값을 구한 후, 비교적 보행 친화적인 환경을 가정하여 장소 접근 확률을 가중치로 활용한 예를 중점적으로 살펴볼 것이다.
시작점에서 장소까지의 거리를 다양한 거리 함수를 통해 하나의 데이터 차원으로 만들어 인공지능 모델을 학습할 수 있다는 것을 알아보았다. 하지만 도시는 다양한 파라미터가 동시에 작용되는 생물이다. 따라서 장소를 편의상 하나의 점으로 추상화하여 다룰 수 있겠지만, 공간의 영향력을 고려할 때, 그 값들을 보간하여 주변 공간상에 흔적을 남겨 놓아야 한다. 가령 범죄가 일어난 사건이 딱 그 장소에 영향을 주지 않는 이치와 같다. 그 길, 그 주변에 가까이 인접한 공간들도 범죄 노출확률을 고려하는 것이 현실적이고 합리적인 데이터 보간(Interpolation)법일 수 있다.
아래의 이미지는 공간을 이산화(Discretization)시켜 각 지역의 제3의 공간의 접근 가능성을 시각화시킨 예이다. 가령 A에서 B공간으로의 이동 과정에서 다양한 저해 혹은 촉진 요소들이 있기 마련이다. 그 이동 경로에 이러한 변수들을 계산함으로써 거리와 공간에 내재된 문화, 역사, 사회성 등의 정성적, 정량적 데이터들을 거리 함수의 가중치로 편입시켜 좀 더 포괄적, 유연한, 미세조정이 가능한 프로세스를 구축할 수 있다. 이 지점 또한 디자이너의 전공 지식과 경험이 발휘되어야 하는 지점이고, 현상을 어떻게 모델링하느냐에 따라 신뢰 가능한 본질적인 통찰과 발견을 데이터로부터 드러낼 수 있다.
지금까지 현상 모델링을 위한 인공지능(머신 러닝) 학습 데이터 세트를 구축하는 내용에 대해서 살펴보았다. 데이터가 잘 정제되고 준비된 만큼 모델의 신뢰성을 확보할 수 있다. 즉 데이터 전처리가 디자이너에게 요구되는 핵심 단이며 그 방법론을 구축하는 과정에서도 많은 통찰을 얻을 수 있다. 동시에 인공지능 구현에 있어서도 다양한 모델들이 존재한다. 예를 들면 회기(Regression) 혹은 분류(Classification) 모델들을 들 수 있다. 데이터의 내용에 따라 학습 모델을 선택할 수 있지만, 구현할 모델에 최적화된 학습 가능한 데이터로 변환을 해야 하기도 한다. 즉 같은 데이터를 학습시키더라도, 선택된 인공지능 모델과 네트워크에 맞추어 학습 가능한 데이터 형식으로 변환을 해야 하는 경우도 있으며, 그렇지 않으면 원하는 성능과 결과의 신뢰를 보장받을 수 없다.
제3의 공간 분석 예측 프로젝트에서는 몇몇 특정 가설과 데이터 세트 그리고 전통적인 머신러닝 모델들과 인공 뉴런 네트워크 등이 활용되었다. 이 리포트에서는 Boston 지역에 위치한 제3의 공간을 3개의 카테고리(1: 음식, 2: 교통, 3: 편의시설)로 나누고 그에 따른 확률 분포를 내어주는 인공지능 모델에 대해서 집중한다.
아래의 이미지는 Boston 지역에 학습된 모델을 적용하여 예측한 결과이다. 빨간색이 짙은 경우에는 (1) 음식 관련 장소의 확률이 높고, (2) 녹색의 경우 교통 관련, (3) 파란색의 경우 편의시설 및 유틸리티가 주된 장소이며, 이를 시각화해 주고 있다.
Boston, LA, Redlands의 제3의 공간 데이터를 인공신경망(ANN: Artificial Neural Network)을 통해 학습시켜 도시의 장소에 따른 제3의 공간 예측 모델을 구현했다. 아래의 학습 결과를 보면, 정제된 데이터를 약 80-90% 수준으로 적합(Fitting)시킨 것을 볼 수 있고, 그 횟수(Epoch)도 많이 걸리지 않았음을 알 수 있다. 왜냐하면 물론 데이터의 양이 적기도 했지만, 중요한 것은 학습할 모델에 최적화된 데이터로 정제했기 때문이다. 네트워크의 깊이와, 활성화 함수(Activation Function), 하이퍼파라미터(Hyper Parameter) 등을 조정해 가며 네트워크를 튜닝, 최적화시켜 간다.
Boston 지역(87.2 km²)의 제3의 공간의 트렌드를 학습하고 예측한 결과이다. 그리고 LA와 Redlands지역 데이터로 학습된 모델을 동일한 공간에 적용, 예측한 결과 값이다. 주요한 제3의 공간의 밀도 분포들을 한눈에 볼 수 있다. 스케일을 줄여보자.
확대된 Boston 지역(2.2 km²)의 제3의 공간 트렌드를 학습하고 예측한 결과이다. 제3의 공간의 변화 트렌드가 좀 더 높은 해상도로 나타나며, 특별히 특정 공간이 지배적인 지역과, 공간의 특징이 바뀌는 장소들의 트렌드가 더 명확하게 드러나며 특정 패턴을 나타내는 것을 볼 수 있다. 스케일을 더 줄여 특정 장소들에 집중해 보자.
Boston의 12개의 특정 장소를 대상으로, 제3의 공간을 예측한 결과의 확률 분포(음식, 교통, 유틸리티) 값이다. 3개의 도시 데이터로 학습된 모델들이 같은 장소들을 예측한 확률 분포를 볼 수 있다.
현상에서 통찰로, 직관에서 수치로, 암묵에서 명시로, 경험에서 모델로...
이러한 계산학(Computation)적 접근 방법은 새로운 방법이 아니다. 기존의 전통적인 암묵적 방식들을 보다 명시적으로 기술하는 도구와 이를 활용하는 방법론, 사고체계로 정리하면 좋다. 이 프로젝트에서는 제3의 공간 데이터를 중심으로 다루었지만, 환경, 조경, 건축, 도시 디자인 산업에서, 계획 단계부터 시공 후 사후 관리까지 많은 데이터가 필요되고, 소비되고, 수정되어 간다. 직관에 의존한 암묵적 방식을 데이터라는 디자인 재료와 함께 명시적 프로세스로 증강시키고, 디자이너의 직관, 즉 인간지능과 인공지능과의 대결구도가 아닌, 도구로서의 상호 보안, 발전한다는 시각 그리고 사고의 전환이 촉구되는 패러다임, 그 패러다임 변화의 중심에 작금의 디자이너들은 서 있다고 볼 수 있다.
디자인 재료(빅데이터), 도구(코드, 인공지능)의 활용
역사적으로 새로운 재료가 소개될 때마다, 그 재료를 다루는 도구가 개발, 소개, 정교해지며, 그 재료가 주는 창작 범위와 환경을 바탕으로 디자인 산업은 발전해 오고 있다. 전통적 재료 개념을 좀 더 확장해 보면, 21세기의 새로운 디자인 재료는 무엇일까? 바로 데이터이다. 코드(Code)와 알고리즘(인공지능)이라는 도구로 그 데이터를 다루며, 기존의 디자인 방법론을 증강 뿐 아니라, 경험하지 못한 새로운 가능성을 열어주고 있는 지금이다. 더 많은 디자이너가, 앞에 놓인 새로운 재료와 도구에 의한 창의성 발휘에, 심장이 뛰기를 바란다. 데이터 기반 사회가 디자이너에게 주는 기회와 요구되는 능력을 포착, 준비하여 4차 산업 혁명의 파도가 나를 덮치는 쓰나미가 아닌 새로운 기회로 타고 넘어갈 수 있기를 기대하며, 도시 분석 프로세스에서 데이터의 활용에 대한 프로젝트 소개를 마친다.
참조:
Lee, N. (2021). Understanding and Analyzing the Characteristics of the Third Place in Urban Design: A Methodology for Discrete and Continuous Data in Environmental Design. In: Yuan, P.F., Yao, J., Yan, C., Wang, X., Leach, N. (eds) Proceedings of the 2020 DigitalFUTURES. CDRF 2020. Springer, Singapore. https://doi.org/10.1007/978-981-33-4400-6_11
소스 코드: https://github.com/NamjuLee/Third-Place-Prediction-Report-V2022
글 전체 버전: https://brunch.co.kr/@njnamju/148