Third Place Analysis(전체 버전)
이 남 주 NJ Namju Lee
엔제이스튜디오 소장, ESRI 소프트웨어 엔지니어
NJSTUDIO Director, ESRI Software engineer
머리말
프로젝트 개요
프로세스 요약
프로젝트 프로세스
1. 제3의 공간 데이터 확보와 매핑(시각화)
2. 데이터 이해와 정제(전처리), 카테고리 축소(차원 축소)
3. 공간 간의 가중치와 거리 함수(현상의 추상화, 수치화)
4. 정성적, 정량적 데이터 보간, 추가 차원, 이산화, 모델 선택
5. 인공지능 학습, 적합, 검증, 조정
6. 모델 적용, 검증, 해석
7. 발전 방향, 주의점, 가능성
맺음말
참조
제3의 공간 분석 리포트는 Massachusetts Institute of Technology(MIT) Media Lab의 City Science Lab(2016)에서 연구를 시작하여 CDRF(The 2nd International Conference on Computational Design and Robotic Fabrication, 2020) 학회에 발표된 연구 논문으로서, 도시를 구성하는 제3의 공간 분포를 분석하여 도시들의 특징을 추출, 형성, 트렌드를 이해하고, 다른 도시에 적용, 비교하며, 제3의 공간 관점으로 도시를 이해하는 방법론 연구 프로젝트이다.
"제3의 공간"은 집과 직장 사이에 위치되는 공간을 지칭한다. 도서관, 커피숍, 헬스클럽, 은행, 병원, 서점, 노래방, PC방 등은 제3의 공간으로 분류된다. 도시 계획, 도시 재생, 환경 분석을 할 때, 특정 건축 대지의 관계성을 분석할 때, 부동산 가치를 평가할 때, 스타벅스와 같은 대형 프랜차이즈의 위치를 선정할 때, 제3의 공간 트렌드와 분포에 대한 이해는 필수적이다. 이처럼 제3의 공간에 대한 이해는 점점 많은 영역에 폭넓게 사용되고 있는 주요한 요소다. 이러한 분석은 전통적으로 각 공간들을 직접 방문하여 거리를 재거나, 거리환경과 유동 인구를 카운트하고 지도에 표시(Tracing)하는 방식으로 데이터 매핑(Mapping)을 통해서 도시를 이해했었다.
2010년도 즈음에 빅데이터(Big Data) 트렌드와 뒤 이은 인공지능(AI) 붐은 데이터를 바라보는 시각과 기술을, 전문 영역에서 대중 영역으로 전도, 확장시키고 있다. 마치 보편화된 디지털 디자인 소프트웨어들이 전통적인 디자인 도구들을 대체해 나가듯, 오픈된 데이터와 그 데이터를 가공할 수 있는 대중화된 하드웨어, 소프트웨어 도구들이 작금의 디자이너의 앞에 놓여 있다는 것이다. 제3의 공간 분석과 적용 과정에서 데이터라는 재료와 그 재료를 가공하는 디자이너의 자세, 역할, 방법론을 기술하고자 한다.
프로젝트명: 제3의 공간 분석(Third Place Analysis)
API: Google Place API
프로그래밍 언어: Python, C#, Javascript, HTML, CSS
라이브러리: NJSCore, Tensorflow, Numpy, Pandas, SKLearn...
적용 도시: Boston, LA(Los Angeles), Redlands
요약하여 전체 프로세스를 정리해 보자. Boston 지역의 제3의 공간의 발달과 분포는 도시의 특성을 내제하고 있다는 (1) 가설(질문, 콘셉트, 문제, 목표 기술)을 세운다. (2) Google Place API를 사용하여 제3의 공간 정보를 모은다. (3) 각각 장소의 거리를 계산한다. (4) 계산된 장소의 트렌드를 정제한다. 가령, 걸어서 5분 10분 15분 거리 안의 제3의 공간, 혹은 실제 거리에 따른 도달 확률을 통해 각 공간들을 데이터화 할 수 있다. 이들은 추후 (5) 인공지능(머신 러닝) 학습과정에서 개별적인 학습 데이터로 활용된다.
이 프로세스는 선형적이지 않다. 아래의 다이어그램과 같이 반복적인 과정을 통해, (6) 제3의 공간의 정보들을 학습 가능한 데이터로 만든다. (7) Boston뿐 아니라, New York, LA, 강남, 종로, 홍대 거리 등의 지역들을 학습시켜 도시에 분포한 제3의 공간을 설명하는 모델을 학습, 검증, 구현한다. (8) 적용의 관점에서 하나의 도시의 정적 패턴 혹은 동적 트렌드를 분석할 수 있다. 혹은 서로 다른 도시와 비교하여 적용하거나, 같게 하거나, 다른 도시 캐릭터로 디자인해 나아갈 때의 프로세스, 근거, 혹은 통찰로 활용될 수 도 있다.
개념적으로 인공지능의 구현에는 다양한 방법들이 있지만, 현실에서 우리가 경험하는 많은 수의 인공지능은 머신러닝(기계학습: Machine Learning)으로 구현된다. 다시 말해 입력된 데이터에 의해서 프로그래밍 되는 것이다. 아래의 그림을 보면, 전통적으로 프로그래밍을 한다는 것은 목적에 따른 순차와 조건을 정의하여 결괏값을 반환하도록 그 프로그래밍의 내용을 설계(연역법)하는 것이다. 그러나 머신러닝은 반대를 취한다. 즉 수많은 데이터가 결과로써 먼저 주어지고, 그 결괏값을 통해서 그 과정을 유추하여 프로그래밍의 내용을 역설계(귀납법)하는 것이라 볼 수 있다. 이러한 과정을 학습(Learning)이라고 하고 학습이 잘 됐을 경우 적합(Fitting)이 잘 되었다고 이야기한다. 가령, 구구단과 같이 결정론적(Deterministic)인 명시적 함수를 구현할 때는 전통적인 방식(연역법)이 당연히 유리하다.
하지만 자율주행처럼 수많은 변수들을 고려해야 하고, 매번 다른 상황의 운전환경에 대응하게 전통적인 방식을 통해 무한에 가까운 논리 분기로 프로그램을 설계한다는 것은 사실상 불가능하다. 따라서 이런 경우 수많은 운전 데이터들을 통해 확률적(Stochastic)인 모델을 만드는 것이 분명 유리하며 현실적이다. 즉 결과로써의 데이터를 통해 과정으로서의 프로그래밍을 역설계(귀납법)함으로써 데이터가 품고 있는 패턴을 프로그램화하여(Representation Learning) 새로 입력될 데이터에 대해서도 높은 신뢰도로 대응할 수 있게 하는 것이다. 이 리포트에서는 제3의 공간 데이터를 학습하여 그 데이터가 품고 있는 패턴과 통찰을 통해 다양한 상황에 적용할 수 있는 인공지능 모델의 구현과 적용에 대해 알아볼 것이다.
"데이터(Data)는 현상의 표상(Representation)이다." 즉, 현상을 효과적으로 추상(Abstraction), 압축시킨 디지털 정보문서로 볼 수 있다. 이러한 데이터는 인간에게 익숙한 시각 언어로의 투영을 시작으로, 데이터에 대한 이해를 시작하는 것이 보편적이다. 네이버 지도, 다음 지도, Google 지도의 같은 디지털 지도는 공간정보를 매핑/시각화를 도울 뿐 아니라, 기록된 도시 데이터를 접근하는 하나의 인터페이스로서의 역할도 한다. 즉 디지털 지도의 API 서비스를 사용하면 도시의 다양한 정보를 내려 받거나 혹은 실시간으로 접근하여 데이터를 가공, 활용할 수 있다는 것이다. 가령, 데이터가 함축하고 있는 맛과 영양소를 정제해 각종 다양한 음식을 만들어 내는 것과 같은 이치다.
이러한 공간정보의 내용, 패턴을 바탕으로 현상을 모델링한다. 가령 데이터에 시계열(Time series)이 있다면 변화하는 트렌드에 대한 통찰을 얻을 수 있고, 서비스의 시작과 종료 시점, 고객들의 방문 패턴, 선호도 등을 이용하면 좀 더 구체적이고 특화된 현상을, 데이터를 통하여 모델링을 할 수 있다. 이러한 메트릭(Metric)은 앞서 세운 가설에 따라 현상을 직/간접적으로 함축하고 있는 단서, 즉 데이터들을 반복적으로 프로세스 함으로써 인과관계를 구현, 검증해 나가는 과정이 일반적이며, 그 순환되는 프로세스는 매핑(Mapping)으로부터 시작된다.
다음의 이미지는 Boston의 각각의 장소들을 디지털 공간에 매핑을 한 예이다. Boston과 Cambridge 지역에, 총 95개의 카테고리(병원, 공원, 도서관, 편의점...)로 4,250개의 제3의 공간 데이터가 시각화되었다.
"데이터는 현상의 압축 통찰의 향연"이다. 이러한 데이터가 품고 있는 지식, 통찰, 지혜들을 더 명확히 드러내기 위해 데이터 전처리와 같은 정제 과정은 필수이다. 그중의 하나는 차원 축소법이 있다. 데이터의 형식과 내용에 따라 정보를 잘 보존할 수 있는, 높은 성능과 신뢰도를 보이는 통계학적 차원 축소 방법들이 있다. 특별히 이 리포트에서는 디자이너의 시각과 경험으로 데이터의 차원을 축소하는 방식의 내용에 대해 집중하고자 한다.
우리가 인터넷을 통하여 접근하는 대부분의 원시 데이터(Raw Data)는 목적에 따라 정제되면 좀 더 높은 수준의 모델링을 할 수 있다. "쓰레기를 넣으면 쓰레기 값이 나온다(GIGO: Garbage in, garbage out)"는 말이 있듯이, 데이터를 이해하고 순도를 높이는 과정은 재료(빅데이터)와 정제 도구(코드, 인공지능, 알고리즘 등등)를 사용할 때 반드시 거쳐야 되는 지점인 동시에, 디자이너가 직접 개입하여 전공 지식(Domain Knowledge)을 발휘해야 하는 단이기도 하다. 데이터를 모으고 정제를 통해, 원하는 목적을 성취하고 가설을 설명할 수 있는 학습 가능한 데이터를 생성, 미세 조정해야 한다는 것이다. 다시 말해, 마치 건축가가 하나의 원자재를 다듬어 목적에 맞는 다양한 건축물을 디자인하듯, 데이터 기반 사회 패러다임에서 디자이너에게 "데이터 정제 프로세스"는 비약 없는 명시적 논리 흐름이고 곧 디자이너의 "디자인 프로세스"가 되는 것이다.
95개의 공간 카테고리들은 주어진 데이터의 개수에 비해 매우 적다. 다른 의미로는 데이터에 노이즈가 많다고 볼 수도 있고, 자칫하면 과적합(Overfitting)에 취약해진다. 때문에 차원 축소(Dimension Reduction) 혹은 특징 선택(Feature Selection)을 통해, 특정 현상에 치우치지 않는 일반화된 현상 모델링을 가능케 한다. 마치 자율주행에서 대표적인 도로주행 상황을 학습시킴으로 예측하지 못한 다양한 현실 상황에 일반화시켜 대응하는 이치와 같다. 가령 일식, 중식, 한식당의 경우 음식점으로 분류하고, 택시, 버스정류장 지하철, 기차 등은 교통으로 분류가 가능하다는 것이다. 또한 데이터 셋의 관계성이 상관 분석(Correlation analysis)을 통해 차량 이동이 빈번한 곳은 주유소가 위치한다는 긍정적 관계성(Positive correlation)의 경우 하나의 차원으로 병합시킬 수도 있다. 그 외에 통계적, 수학적 기법 혹은 전공영역(건축, 도시, 조경...)에서 오는 경험과 통찰을 발휘하여 앞서 설명한 가설을 직/간접 설명할 수 있는 유의미한 학습 가능한 데이터 셋을 추출, 가공하는 것이다.
사실 현실에서 얻어지는 원시 데이터 선택과 가공은 굉장히 복잡하다. 즉 어떤 데이터를 사용할 것인가? 어떻게 데이터에서 노이즈를 제거하고 시그널/패턴을 드러내 포착할 것인가? 어떤 메트릭 공간에 프로젝션을 할 것인가? 어떤 데이터가 결과에 유의미하게 기여될 것인가? 등에 대한 프로세스는 선형적이지 않다. 반복적으로 제3의 공간을 직/간접으로 기술하는 데이터와 그 패턴을 정제함으로써, 현상을 보다 명시적 표상하고 함축하는 데이터를 구축할 수 있고, 필요에 따라서 앞서 세운 가설을 수정하고 그에 따른 데이터를 고려, 조합, 정제하여 데이터 셋의 순도를 높여 나가야 한다.
공간정보(Spacial Information)의 이점은 관계성을 모델링하기 비교적 유리하고 편리하다. 왜냐하면, 공간이 내재하고 있는 성질들을 추상, 수치화하여 장소(Location)로 통합, 해석이 가능하기 때문이다. 가령 매핑된 각각의 제3의 공간들과의 거리(Distance) 혹은 장소의 성질을 파라미터와 가중치로 부가하여 특정 장소를 모델링할 수 있다. 즉 가까운 거리는 더 높은 점수, 먼 거리는 낮은 점수를 계산하는 함수를 활용하거나, 혹은 보도 환경에 따라 변수를 추출하고 그 가중치를 미세 조정하는 함수를 구축할 수 있다. 또한 도시 전체 공간에 균일하게 장소들을 배치하여 그 장소들에서 각 제3의 공간까지의 거리 가중치를 통합적으로 계산하여 전반적인 접근성을 평가하는 모델을 구축할 수도 있다. 즉 가설을 설명 혹은 답을 하는 데이터를 그 가설에 최적화된 데이터로 정제하는 프로세스로 이해할 수 있다.
수학적으로 거리를 구하는 함수를 여러 방식으로 구현할 수 있다. 유클리드 거리(Euclidean Distance), 맨해튼 거리(Manhattan Distance), 쳬비셰프 거리(Chebyshev Distance), 민코프스키 거리(Minkowski Distance) 코사인 거리(Cosine Distance)등 각각의 거리 함수로 기술할 수 있는 특화된 문제들이 있다. 우리가 도시를 이동할 때, 도로와 보도를 이용한다. 따라서 이를 반영할 수 있는 네트워크 거리로 계산하는 것이 더 정확한 현상과 현실적 패턴을 데이터화할 때 적합한 방법이다.
동시에, 전통적인 도시 네트워크 분석 방법을 적용할 수 있다. 가령, 중심성(Centraility) 분석에는 Degree, betweenness, Closeness, Straightness 모델들이 존재하고, 접근성(Accessibility) 분석에는 Reach, Gravity, Huff 모델과 같은 분석법을 적용, 혼합, 수정하여 거리 함수를 목적에 따라 구현, 적용할 수 있으며 네트워크 계산의 가중치 값으로 활용할 수 있다.
앞서 살펴본 것처럼, 데이터에 내재된 시그널의 순도에 따라 현상 모델링의 완성도와, 인공지능 구현 그리고 그에 따른 결괏값 신뢰도의 범주가 결정될 수 있다. 만약 단순히 거리 가중치에 따라서 제3의 공간을 데이터화 시켜 인공지능 모델(혹은 네트워크)을 학습할 경우, 데이터의 패턴 외곡 폭이 커질 수 있을 뿐 아니라 거리에 따라 선형적으로 가중치가 커질 경우, 이는 주요하지 않은 노이즈(Outlier) 값이 커지는 결과를 초래할 수도 있고, 인공지능 학습과정에서 적합이 안 되는 경우도 많고, 사용된 데이터의 메트릭을 이해하는데 직관적이지도 않다.
따라서 두 가지 방법을 소개하겠다. 첫 번째는 5분, 10분, 15분 걸어서 갈 수 있는 장소를 한계로 가중치를 계산한다. 둘째는, 거리가 멀수록 외부 환경이 나쁠수록 특정 공간까지 걸어갈 수 있는 확률이 낮아(Decay)지는 방식으로 데이터를 가공한다. 아래의 표를 보면, 100미터에 위치한 장소를 접근할 확률이 β값이 0.02의 경우 약 15%, β: 0.01의 경우 약 38%, 그리고 β: 0.004의 경우 약 70%의 확률을 가지게 된다. 즉 100명의 사람이 있다면 날씨와 도보 환경에 따라, 15명, 38명 그리고 70명의 사람들이 그 장소에 도달을 한다는 것을 의미한다. 활용 예를 들면, 한 도시에 다양한 β 값들을 정의하고 사람들의 장소 도착 확률을 각각의 정의된 β값을 통해 결괏값을 구한 후, 실제 장소에서 카운팅을 통해 그 도시의 다양한 계절, 날씨, 환경에 따라 적용될 수 있는 β값을 역 추적하는 연구들도 있다.
혹은 주어진 장소에서 제3의 공간의 거리 평균을 활용하거나 중간 값을 활용할 수도 있다. 앞서 살펴본 것처럼 주어진 데이터를 원하는 결과에 최적화되도록 , 학습 데이터를 가공하는 방법론을 구축하는 것이 디자이너의 능력과 역할인 것이다. 이 리포트에서는, 한 지점으로부터 도보로 30분 거리의 모든 제3의 공간의 네트워크 거리의 가장 작은 값을 구한 후, 비교적 보행 친화적인 환경을 가정하여 장소 접근 확률을 가중치로 활용한 예를 중점적으로 살펴볼 것이다.
지금까지 시작점에서 장소까지의 거리를 다양한 거리 함수를 통해 하나의 데이터 차원으로 만들어 인공지능 모델을 학습할 수 있다는 것을 알아보았다. 하지만 도시는 다양한 파라미터가 동시에 작동되는 공간이다. 따라서 장소를 편의상 하나의 점으로 추상화하여 다룰 수 있겠지만, 공간의 영향력을 고려할 때, 그 값들을 보간하여 주변 공간상에 흔적을 남겨 놓아야 한다. 가령 범죄가 일어난 사건이 딱 그 장소에 영향을 주지 않는 이치와 같다. 그 길, 그 주변에 가까이 인접한 공간들도 범죄 노출확률을 고려하는 것이 현실적이고 합리적인 데이터 보간(Interpolation)법일 수 있다.
아래의 이미지는 공간을 이산화(Discretization)시켜 각 지역의 제3의 공간의 접근 가능성을 시각화시킨 예이다. 가령 A에서 B공간으로의 이동 과정에서 다양한 저해 혹은 촉진 요소들이 있기 마련이다. 그 이동 경로에 이러한 변수들을 계산함으로써 거리와 공간에 내재된 문화, 역사, 사회성 등의 정성적, 정량적 데이터들을 거리 함수의 가중치로 편입시켜 좀 더 포괄적, 유연한, 미세조정이 가능한 프로세스를 구축할 수 있다. 이 지점 또한 디자이너의 전공 지식과 경험이 발휘되어야 하는 지점이고, 현상을 어떻게 모델링하느냐에 따라 신뢰 가능한 본질적인 통찰과 발견을 데이터로부터 드러낼 수 있다.
지금까지 현상 모델링을 위한 인공지능(머신 러닝) 학습 데이터 세트를 구축하는 내용에 대해서 살펴보았다. 데이터가 잘 정제되고 준비된 만큼 모델의 신뢰성을 확보할 수 있다. 즉 데이터 전처리가 디자이너에게 요구되는 핵심 단이며 그 방법론을 구축하는 과정에서도 많은 통찰을 얻을 수 있다. 동시에 인공지능 구현에 있어서도 다양한 모델들이 존재한다. 예를 들면 회기(Regression) 혹은 분류(Classification) 모델들을 들 수 있다. 데이터의 내용에 따라 학습 모델을 선택할 수 있지만, 구현할 모델에 최적화된 학습 가능한 데이터로 변환을 해야 하기도 한다. 즉 같은 데이터를 학습시키더라도, 선택된 인공지능 모델과 네트워크에 맞추어 학습 가능한 데이터 형식으로 변환을 해야 하는 경우도 있으며, 그렇지 않으면 원하는 성능과 결과의 신뢰를 보장받을 수 없다.
제3의 공간 분석 예측 프로젝트에서는 몇몇 특정 가설과 데이터 세트 그리고 전통적인 머신러닝 모델들과 인공 뉴런 네트워크 등이 활용되었다. 이 리포트에서는 Boston 지역에 위치한 제3의 공간을 3개의 카테고리(1: 음식, 2: 교통, 3: 편의시설)로 나누고 그에 따른 확률 분포를 내어주는 인공지능 모델에 대해서 집중한다.
아래의 이미지는 Boston 지역에 학습된 모델을 적용하여 예측한 결과이다. 규칙적으로 공간을 나누어 앞서 학습된 모델을 검증 시각화하였다. 빨간색이 짙은 경우에는 (1) 음식 관련 장소의 확률이 높고, (2) 녹색의 경우 교통 관련, (3) 파란색의 경우 편의시설 및 유틸리티가 주된 장소이며, 이를 시각화해 주고 있다.
다음의 이미지는 6곳의 특정 장소의 제3의 공간 트렌드를 예측한 결과이다. 표의 최 좌측에 위치한 결과를 보면 유틸리티가 가장 높은 확률 분포를 가졌지만, 그 내용을 살펴보면 음식, 교통, 유틸리티가 매우 균일한 확률 분포를 갖는 것을 읽을 수 있다. 반면에 최 우측에 위치한 차트를 보면 교통이 매우 적은 분포를 가지고 있고 동시에 높은 유틸리티를 분포를 확인할 수 있다.
이는 Boston 특정 장소의 캐릭터일 수 있다. 이를 강화하는 관점을 취할 수 있겠지만, 취약한 공간들을 위치시킴으로 다른 공간 트렌드로 발전 방향을 잡을 수도 있다. 예를 들면, 위의 지도에 Forest Hills 공원이 있고 교통 관련 공간이 주류를 이루는 것을 확인할 수 있다. 만약 과거 데이터와 비교 분석하여 음식 관련 장소들이 계속해서 없어 왔다면, 이 공원의 특징은 산책 위주의 공원이라는 가설을 세워 볼 수도 있다. 제3의 장소의 관점에서, 음식점의 밀도를 높임으로써 주변의 캐릭터 트렌드에 변화를 가할 수도 있다.
위의 표를 통해서, 주어진 지점에 확률 분포를 해석하고 그에 따른 추가 데이터와 프로세스를 통해 반복적으로 모델링을 미세 조정해 나갈 수 있다. 때로는 결과 해석을 통해서 가설을 수정할 수도 있고, 전공지식을 통해서 새로운 데이터 세트들을 추가하여 모델을 강화시켜 신뢰도를 높여 나가는 것이 보편적 프로세스이다.
Boston, LA, Redlands의 제3의 공간 데이터를 인공신경망(ANN: Artificial Neural Network)을 통해 학습시켜 도시의 장소에 따른 제3의 공간 예측 모델을 만들었다. 아래의 학습 결과를 보면, 정제된 데이터를 약 80-90% 수준으로 적합(Fitting)시킨 것을 볼 수 있고, 그 횟수(Epoch)도 많이 걸리지 않았음을 알 수 있다. 왜냐하면 물론 데이터의 양이 적기도 했지만, 중요한 것은 학습할 모델에 최적화된 데이터로 정제했기 때문이다. 네트워크의 깊이와, 활성화 함수(Activation Function), 하이퍼파라미터(Hyper Parameter) 등을 조정해 가며 네트워크를 튜닝, 최적화시켜 간다.
아래의 첫째 줄에 위치한 이미지는 제3의 공간 데이터의 시각화이다. 이러한 시각 정보는 인간에게 매우 친숙하지만 컴퓨터에게는 아니다. 둘째 줄 이미지는 전처리 정제를 마친 학습 데이터이다. 정규화된 공간에 각 지역 ID를 기준으로 제3의 공간에 대한 접근성을 데이터화한 것이다. 인간은 이러한 데이터 패턴 인식에 취약하지만, 컴퓨터에게는 최적화된 학습 데이터가 된다.
아래의 이미지는 Boston 지역(87.2 km²)의 제3의 공간의 트렌드를 학습하고 예측한 결과이다. 그리고 LA와 Redlands지역 데이터로 학습된 모델을 동일한 공간에 적용, 예측한 결과 값이다. 주요한 제3의 공간의 밀도 분포들을 한눈에 볼 수 있다. 스케일을 줄여보자.
다음의 이미지는 확대된 Boston 지역(2.2 km²)의 제3의 공간 트렌드를 학습하고 예측한 결과이다. 제3의 공간의 변화 트렌드가 좀 더 높은 해상도로 나타나며, 특별히 특정 공간이 지배적인 지역과, 공간의 특징이 바뀌는 장소들의 트렌드가 더 명확하게 드러나며 특정 패턴을 나타내는 것을 볼 수 있다. 스케일을 더 줄여 특정 장소들에 집중해 보자.
아래의 이미지는 Boston의 12개의 특정 장소를 대상으로, 제3의 공간을 예측한 결과의 확률 분포(음식, 교통, 유틸리티) 값이다. 3개의 도시 데이터로 학습된 모델들이 같은 장소들을 예측한 확률 분포를 볼 수 있다.
검증과 해석의 관점에서 나눌 많은 통찰이 있지만, 특별히 위의 3 장소에 집중해서 이야기해보자. 위의 좌측에 위치한 이미지는 Boston의 South Station이다. Boston과 LA 학습 모델은 높은 확률로 교통을 예측했다. 하지만 Redlands 모델은 편의시설로 예측했다. 아마도 Boston과 LA 대도심지의 경우 도심지의 제3의 공간의 트렌드와 교통 네트워크의 패턴이 주요하게 작용된 것 같다. Redlands 모델의 경우 전형적인 미국 서부 외곽 도시로서 걷는 것은 사실상 불가능하고, 대중교통보다는 자가용에 의존해야 하기 때문에 도심지와 다른 분포가 형성됐다고 이해할 수 있다. 이는 앞서 세운 “제3의 공간의 발달과 분포는 도시의 특성을 내제하고 있다.”는 가설의 내용의 설명해주고 있다.
가운데 예측 값을 살펴보면, LA 모델의 경우 음식 관련 장소가 높은 확률로 나타난다. Boston과 LA가 비교적 비슷한 공간 분포를 보이지만 이 경우는 어떤 주변 장소들이 이 장소에 다른 예측 값을 가져왔는지 가설을 세우고 다시 검증을 통해 두 도시의 근본적 다름을 제3의 공간 분포/밀도 패턴으로 설명할 수 있다. 마지막 우측의 결괏값을 보면, Boston 모델의 경우 매우 균일한 제3의 공간의 확률 분포를 보여준다. 즉 모든 장소의 접근성이 용이한 공간으로 읽을 수 있다. LA 모델은 음식점이 높게 나왔다. 아마도 Boston 모델에서 봤듯이 모든 공간이 접근이 수월한 장소가 LA 다운타운에 밀도 있게 분포된 장소와 비슷한 패턴을 보인다고 해석할 수 있다. Redlands 모델의 경우 예측대로 교통이 매우 적은 확률로 나왔다. 이는 도시에 산발적으로 분산되어 있는 편의시설의 분포 패턴이 강하게 작용됐다고 가설을 만들 수 도 있다.
Boston 지역 데이터로 모델 학습을 최적합 시킨 후, 동일한 방식으로 LA와 Redlands 모델로 비교 분석을 하였다. 각각의 모델들은 주어진 데이터에 의해 적합이 된 것으로 그 학습한 데이터의 틀로 그 결과를 해석하는 것이 기준이 될 수 있다. 왜 비슷한가? 비슷한 도중에 어떤 공간들이 변화되는가? 혹은 왜 같은가? 왜 다르다고 예측하는가? 어떤 메트릭이 더 필요한가? 결과에 어떤 영향을 미치는가? 등의 질문을 계속 던지며, 앞선 과정들을 순환적으로 수행하며, 모델을 미세 조정해 나간다. 그 과정에서 다양한 시각과 생각하지 못한 통찰을 얻을 수도 있다.
이 리포트는 제3의 공간 데이터로 학습된 예측 모델을 다루고 있다. 하나의 도시에서 포착되는 제3의 공간 트렌드를 더 강화시키거나, 과거에서부터 발전되는 방향성을 이해하거나, 서로 다른 도시들의 트렌드 특징을 비교 분석하여 같게 만들거나 다르게 만들 때 통찰을 얻을 수 있다. 뿐만 아니라 거리의 역사성, 문화성, 장소성, 이벤트, 주변 지역과의 연관성, 보행자 경험 등의 정성적 데이터(Qualitative Data)를 계산 가능한 수체계의 범주로, 즉 메트릭으로 투영(Projection)하여 모델을 확장할 수 있고, 이는 형이상학적 가설, 질문, 문제를 다루어 낼 수 있는 공간 분석 모델 구현과 정교한 보정이 가능한 신뢰도 높은 프로세스로 나아갈 수 있다.
전통적인 프로그래밍 방식에서는 프로그램이 잘못되었을 때 에러를 반환함으로, 디자이너로 하여금 그 에러의 수정이 강제된다. 연역적 방식은 보편적으로 작은 단위의 명시적 함수들을 만들어 조합하고 테스트함으로써 복잡한 알고리즘을 설계하는 방식을 취하기 때문에, 오류 수정에 용이하고 각각의 함수들을 높은 수준으로 구현할 수 있다. 다시 말해 에러를 포함한 함수를 직접 수정하여 결과를 손쉽게 바로 잡을 수 있다는 것이다. 그러나 귀납적 프로그래밍으로 대표되는 머신러닝의 경우, 결과적으로 에러를 포함한다고 하더라도 특정 결괏값을 무조건 반환한다. 즉 데이터와 학습된 모델의 파라미터에 의해 기계적으로 결과를 내놓는 것이다. 따라서 결과를 이해할 때, 에러를 수정할 때, 가설의 정확한 이해와 그에 따른 데이터의 선택과 정제 과정 그리고 선택된 인공지능 모델, 학습, 적합, 그리고 평가에 걸친 전반의 과정이 그 검증 대상이 되어야 한다. 그렇지 않으면, 원래 오류를 반환하여 수정이 필요함에도 불구하고, 사용자들은 잘못된 값을 인공지능이 준 결과라 믿고 사용하는 경우도 왕왕 있다. 특별히 디자인 프로세스 중에서 명확하게 답과 목적이 있는 단을 제외한 디자이너 스스로도 평가가 애매한 문제에 인공지능을 적용한다면, 더더욱 신중하게 그 과정들을 합리적으로 논리적으로 설계를 해야 그 결과의 신뢰도를 높일 수 있다는 것이다.
인공지능은 분명 인간지능을 뛰어넘는 특이점에 곧 도래할 것이다. 하지만 영화, 대중매체, 유행, 몇몇의 사업가 혹은 마케터들에 의해 치우친 편견과 상상력을 바탕으로 인공지능을 정리했다면, 작금의 인공지능 도구와 기술이 오해될 경향이 매우 높다. 디자이너에게 있어 인공지능은 특정 문제를 해결하는 마법 상자가 아닌, 인공지능이 답을 주었다고 믿는 것이 아닌, 인간의 창의성을 위협하는 것이 아닌, 앞서 살펴본 것처럼 목표를 기술하고 데이터를 모으고 정제하여 그 정확도를 높이는 전반의 과정, 즉 데이터 프로세스의 한 방법이고 결과이다. 마치 디자이너가 콘셉트를 가지고, 사이트를 장악하고, 논리적 사유를 펼쳐 건축물을 구체적으로 디자인해 나가듯, 인공지능을 이해함에 있어 가설(질문, 목적)과 그에 따른 데이터 가공하는 프로그래밍의 한 방법으로 본다면 두려움과 오해 없이 그 기술과 방법론을 디자인의 창작 도구로 십분 활용할 수 있을 것이다.
이 리포트에서 설명된 모든 프로세스의 소스코드는 아래의 참조를 확인하기 바란다. 많은 경우 글보다 소스코드를 통해 이해와 응용이 수월할 수 있다. 공개된 소스코드를 스스로의 프로젝트 적용해 볼 때, 프로세스의 형식적인 차이를 보일 수 있지만 내용적 측면에서는 공통으로 적용이 가능하다.
현상에서 통찰로, 직관에서 수치로, 암묵에서 명시로, 경험에서 모델로...
이러한 계산학(Computation)적 접근 방법은 새로운 방법이 아니다. 기존의 전통적인 암묵적 방식들을 보다 정교하고 명시적으로 기술하는 도구와 이를 활용하는 방법론, 사고체계로 정리하면 좋다. 이 프로젝트에서는 제3의 공간 데이터를 중심으로 다루었지만, 환경, 조경, 건축, 도시 디자인 산업에서, 계획 단계부터 시공 후 사후 관리까지 많은 데이터가 필요되고, 소비되고, 생성되고, 수정되어 간다. 직관에 의존한 암묵적 방식을 데이터라는 디자인 재료와 함께 명시적 프로세스로 증강시키고, 디자이너의 직관, 즉 인간지능과 인공지능과의 대결구도가 아닌, 도구로서의 상호 보안, 발전한다는 시각 그리고 사고의 전환이 촉구되는 패러다임, 그 패러다임 변화의 중심에 작금의 디자이너들은 서 있다고 볼 수 있다.
디자인 재료(빅데이터), 도구(코드, 인공지능)의 활용
역사적으로 새로운 재료가 소개될 때마다, 그 재료를 다루는 도구가 개발, 소개되고, 정교해지며, 그 재료가 주는 창작 범위와 환경을 바탕으로 디자인 산업은 발전해 오고 있다. 디자인의 전통적 재료 개념을 좀 더 확장해 보면, 21세기의 새로운 디자인 재료는 무엇일까? 바로 데이터이다. 우리에게 코드(Code)와 알고리즘(인공지능)이라는 도구로 그 데이터를 다루며, 기존의 디자인 방법론을 증강시킬 수 있을 뿐 아니라, 경험하지 못한 새로운 가능성을 열어주고 있는 지금이다. 더 많은 디자이너가, 우리 앞에 놓인 새로운 재료와 도구에 의한 창의성 발휘에, 심장이 뛰기를 바란다. 데이터 기반 사회가 디자이너에게 주는 기회와 요구되는 능력을 포착, 준비하여 4차 산업 혁명의 파도가 나를 덮치는 쓰나미가 아닌 새로운 기회로 타고 넘어갈 수 있기를 기대하며, 도시 분석 프로세스에서 데이터의 활용에 대한 프로젝트 소개를 마친다.
참조:
Lee, N. (2021). Understanding and Analyzing the Characteristics of the Third Place in Urban Design: A Methodology for Discrete and Continuous Data in Environmental Design. In: Yuan, P.F., Yao, J., Yan, C., Wang, X., Leach, N. (eds) Proceedings of the 2020 DigitalFUTURES. CDRF 2020. Springer, Singapore. https://doi.org/10.1007/978-981-33-4400-6_11
Oldenburg, R., Brissett, (1982). D.: The third place. Qual. Sociol. 5(4), 265–284
Lee, Namju. (2022). Computational Design, Seoul, Bookk, https://brunch.co.kr/@njnamju/144
Lee, Namju, (2022). Discrete Urban Space and Connectivity, https://nj-namju.medium.com/discrete-urban-space-and-connectivity-492b3dbd0a81
Woo. Junghyun, (2022). Numeric Network Analysis for Pedestrians, https://axuplatform.medium.com/0-numeric-network-analysis-47a2538e636c
Lee, Namju, (2022). Computational Design Thinking for Designers, https://nj-namju.medium.com/computational-design-thinking-for-designers-68224bb07f5c
Lee, Namju. (2016). Third Place Mobility Energy Consumption Per Person, http://www.njstudio.co.kr/main/project/2016_MobilityEnergyConsumptionMITMediaLab
Source Code: https://github.com/NamjuLee/Third-Place-Prediction-Report-V2022
Lee. Namju, (2018). Design & Computation Lecture and Workshop Series https://computationaldesign.tistory.com/43
발표 & 비디오 & 플러그인:
Analyzing Third Place, Paper Presentation & Panel Discussion at DigitalFUTURES 2020 - link
Demo, for Third Place Mobility, MIT Media Lab - link
Review, Third Place, Media Lab, (Korean) - link
Addon, Numerical Urban Utility - link, Addon ink