공간 빅데이터를 우리 일상에 와 닿게 설명하려면
사례로 풀더라도 명확한 개념 정리가 우선
사진=픽사베이주제를 받았을 때 난감했다. 예상치 못했기도 하고 개념도 낯설었다. 다른 기술은 들어보거나 다르게라도 써봤다. 공간정보나 빅데이터는 들어본 용어였다. 그러나 공간 빅데이터는 익숙지 않았다. 공간정보, 빅데이터 맥락에서 벗어나지 않는 용어였지만. 이를 이야기하려면 공간정보와 빅데이터 속성을 짚어야 하니 작업 기간이 길었다. 찾아볼 자료가 많았다. 사례도 중요하고, 개념도 잘 짚고 가야 하니까. 주말 내내 작업했다. 내용도, 과정도 어려웠지만 쓰길 잘했다는 생각이 드는 주제다. 데이터는 중요하다. 독자도 데이터에 관심이 많다.
공간 빅데이터는 연구자마다 개념 정의가 조금씩 다르다. 정리하면 '사람 또는 집단 활동에 대한 구체적 정보, 위치정보와 장소성을 지닌 빅데이터'라고 할 수 있다. 명확한 개념을 활용하고 싶다면 난 2014년 국토연구원 자료를 참고할 것을 권하고 싶다. 구글링하면 나온다. 이 주제로 글을 쓴 이유는 해당 기업이 한 정부부처의 공간 빅데이터 분석 플랫폼을 운영하고 있기 때문. 이는 전국의료이용지도를 구축하거나 지역자치단체의 도시재생을 모니터링하는 데 활용됐다.
이 주제가 어려웠어도 그나마 쓸만했던 이유는 이미지 인식 기술처럼 자료가 풍부했기 때문이다. 믿을만한 논문이나 보고서가 좀 있었다. 국토교통부, 국토연구원, 한국국토정보공사, 대한공간정보학회에서 공간정보와 빅데이터를 다룬 자료를 많이 냈다. 정부와 산하 기관에서 공식 자료를 많이 내니 믿을 만하다. 정부나 공공기관 정보의 중요성을 실감했다(공유주방이나 마이크로 모빌리티 기사를 쓸 때는 행정안전부와 서울시 통계가 도움됐다). 이 분야에 저명한 연구자도 있다. 여기서 배운 게 많았다. 사례는 언론 보도가 풍부했다.
괜히 런던 그림 넣어보기. 사진=픽사베이내가 이 글을 쓸 때 가장 씨름했던 부분은(다른 글도 그렇지만) 서두, 개념 정의와 기술의 필요성이었다. 공간 빅데이터는 개념이 특히 중요했다. 공간 빅데이터를 이야기하려면 공간정보와 빅데이터를 각각 설명해야 한다. 글 후반부 사례를 더 쉽게 이해하려면 데이터 속성도 미리 짚어야 했다. 정형 데이터, 비정형 데이터 같은. 난 사전 지식이 없는 사람 눈높이로 글을 쓰기 때문에(그게 글을 쉽게 쓰는 데 더 도움될 수 있으니) 그것도 설명해야 한다고 판단했다. 그러고 보니 이런 개념 정의에 언론 보도 도움도 컸다. 네이버 지식백과도.
글 구성은 '서두-공간정보, 빅데이터, 공간 빅데이터 개념 정의-공간 빅데이터 분석 필요성-정부부처 분석 플랫폼 기능-활용사례' 이렇게 이뤄졌다. 첫 단추가 꿰는 건 늘 어렵다. 챗봇이나 AI 콘텐츠를 쓸 때는 코로나 19 이후 비대면 사회와 연결고리가 있어서 이를 자주 언급했다. 그러나 이번 콘텐츠는 데이터라서 결이 달랐다. 물론 돌아보면 코로나 19와 관련된 것도 있지만. 이 글에서 큰 의미를 두고 이야기할만한 건 아닌 듯했다. 시의성 있는 소재로 끌고 와야 조금이라도 더 볼 텐데.
큰 주목을 끌만한 소재는 아니지만 서울시 올빼미 버스 탄생 사례가 일상 내용이라서 끌어오기 괜찮았다. 올빼미 버스는 공간정보와 빅데이터를 잘 활용한 성공사례로도 꼽히고. 내게도 익숙했다. 새벽에 퇴근할 때 회사 근처에서 이 버스를 종종 봤다. 퇴근할 때는 아니지만 나도 때때로 이 버스의 덕을 봤다. 해외에도 심야버스가 있다. 영국 심야버스도 우리처럼 번호에 N이 붙었다. 심야버스는 그야말로 서민의 발이다. 밤에 일하는 사람들이 많이 타니까. 새벽 첫차처럼 고단한 삶이 여기도 묻어나 있다.
사진=픽사베이올빼미 버스 의미와 탄생 배경을 짚으면서 글을 시작했다. 이게 탄생하는 데 공간정보와 빅데이터가 큰 역할을 했음을 강조했다. 어떤 공간정보와 빅데이터가 쓰였는지도. 그다음으로 공간정보와 빅데이터가 어떤 데 활용되는지 다른 사례를 언급했다. '차 없는 거리 행사' 실효성을 조사하거나 CCTV 설치 최적지와 안심길을 분석하는 등. 이어 정부의 '공간 빅데이터 체계 구축사업'을 언급하면서 국가에서 관심 갖고 키우는 사업임을 드러냈다. 지역사회 정책을 합리적으로 결정하는 데 공간 빅데이터가 중요함을 보여주려는 목적이었다.
서두에는 이 글을 쓰는 이유와 글의 핵심 내용이 담기면 좋다. 글을 쓰는 이유에는 이게 중요한 까닭과 요즘 어떤 시의성이 있는지 넣으려고 한다. 그런 맥락에서 공간정보와 빅데이터를 분석하는 까닭을 이 재료 속성 자체에 집중해서 서두에 간략히 언급했다. 모바일 시대에 데이터가 폭증하고, 세상에 존재하는 모든 정보의 80%가 위치나 공간과 관련돼 있어서 공간정보도 풍부하다는 것. 세상을 더 정확히 이해하고, 정부는 국정현안에 대응하며, 지자체는 시민의 삶에 도움되는 정책을 수립하는 데 이게 쓰일 수 있다는 것. 재료도 많고 쓸모도 풍부하다는 게 그 이유가 될 수 있다. 근데 이를 정확히 분석하는 기술도 필요하다고.
이어서 본론 1부터 개념 정리에 들어갔다. 여러 용어가 등장하는 주제라서 교통정리를 잘해야 했다. 공간정보는 뭐고, 빅데이터는 뭐고, 공간 빅데이터는 이것과 무슨 관련이 있는지. 어떤 글이든 개념 정리가 정말 중요하다. 논문에서도 개념 정리부터 먼저 하니까. 그 개념을 정확히 설명하는 건 더 중요하다. 그러나 여러 정의가 난립할 때는 가장 안전하고 믿을만한(?) 자료에 기대는 것도 좋다. 내 경우에는 국가 공간정보에 관한 법률과 국토연구원 보고서가 그 예였다.
사진=픽사베이익숙한 용어부터 먼저 정리하면 친근할 듯했다. 빅데이터 개념을 먼저 정의했고 이어서 공간정보를 설명했다. 공간정보는 도형정보와 속성정보로 나뉜다. 공간정보 자체 정의만 말하면 개념이 추상적으로 느껴진다. 이에 도형정보와 속성정보 정의도 함께 다뤘다. 그림을 그릴 수 있게 하려는 취지다. 이를 토대로 공간 빅데이터 개념을 설명했다. 이는 공간정보와 빅데이터를 아울렀기 때문에 공간정보와 빅데이터 개념을 먼저 다뤘어야 했다.
개념 정의는 여기서 그치지 않았다. 데이터의 세 가지 유형도 설명했다. 글 후반부에 이 내용이 나오기 때문에 여기서 같이 다루는 게 좋겠다고 판단했다. 정형 데이터, 반정형 데이터, 비정형 데이터. '빅데이터 분석대로 미래는 이루어진다'라는 책은 정형 데이터 예를 설명할 때 도움됐다. 의미가 와 닿을 수 있도록 각 데이터의 사례도 같이 언급했다. 공간 빅데이터의 쓸모도 여기서 같이 다뤘다. 공공분야와 민간분야, 해외사례, 국내 사례를 같이 담았는데 안종욱, 이미숙, 신동빈 교수님의 논문이 큰 도움이 됐다.
이어지는 본론 2에서는 공간 빅데이터를 분석해야 할 이유를 다뤘다. 사회는 복잡하고, 여러 문제가 쌓여있으며, 각자 요구는 다양하고, 미래 사회는 불확실하다는 점. 여러 이해관계를 아우르고 갈등을 조정하며 미래에 대비하려면 현황을 정확히 파악해야 한다. 데이터는 그 재료고. 공간 빅데이터에는 현장정보가 있다는 점. 또 이 데이터는 빠르게 팽창하고 있다는 점. 정부 자료가 풍부해서 글에 큰 도움이 됐다. 분석 필요성을 논증할 때도. 정부가 공간 빅데이터를 공공부문에 도입했을 때 부가가치와 효과를 일목요연하게 잘 정리했다.
사진=픽사베이이어서 해당 기업의 공간 빅데이터 분석 플랫폼 의의와 특징, 기능, 활용사례를 설명했다. 앞서 공간정보나 데이터 유형을 짚고 갔는데 이건 TMI는 아니었다. 속성정보와 비정형 데이터 같은 것도 이런 플랫폼으로 분석할 수 있어야 하니까. 이 단락에서도 국토연구원 자료가 많은 도움이 됐다. 국가단위로 대규모 데이터를 분석하고, 공공정책에 활용하려면 통합분석활용체계가 필요하다는 점. 여기에는 데이터 시각화, 시공간 분석, 시뮬레이션이 있어야 한다는 점. 이는 복잡한 데이터를 보기 쉽게 이해하는 데 중요한 기능이다. 이 요건을 짚으니 해당 기업의 분석 플랫폼 의의가 돋보이는 듯했다. 이런 기능을 지원하고 있으니까. 이런 기능이 필요하다고 주장한 이들은 이 분야 전문가들이니까. 힘이 실리는 느낌.
그다음 세부 기능과 강점을 언급했다. 여기서도 개념과의 투쟁(?)은 계속됐다. 융합 데이터나 공간 하둡, 지오코딩, 시맨틱 검색엔진 이런 건 중간에서 개념을 짚어줘야 한다. 글을 쓰면서 질문을 많이 한 건 플랫폼 기능과 강점이었다. 여기만의 경쟁력, 강점이 더 두드러졌으면 해서 추가 설명을 요청했다. 쓰고 나서 피드백받은 것도 주로 이 부분. A는 이렇게 말했는데 B는 다르게 이해하는 경우가 발생했다. 아크 GIS라는 공간 분석 솔루션 기능과 관련된 내용. 다행히 피드백 과정에서 이를 바로 잡았다. 피드백은 정말 중요하다. 이어서 활용사례를 설명하고 글을 요약하면서 마무리했다.
느낌적 느낌인데 이 주제는 다른 기술 콘텐츠보다 관심 갖는 사람이 더 있는 듯했다. 난 딱딱한 주제라고 봐서 가독성이 부족할 거라고 생각했다. 빅데이터는 21세기 원유이며, 어딜 가나 데이터 활용이 중요하고, 많은 이들이 이를 분석하면서 의미를 도출하는 데 관심 있다 보니 그런가 보다 했다. 공간 빅데이터는 민간분야에서도 쓰일 게 많으니까. 특히 오프라인 매장? 이후 '문과생, 데이터 사이언티스트 되다', '절대 성공하지 못할 거야', '아이디어 불패의 법칙'을 읽고 나서 나도 그 중요성에 눈을 더 떴다. 내 인생 데이터든, 일할 때 데이터든.
피터 틸의 '제로투원'이 마음에 들어서 넣었다. 제로투원에서 난 독과점보다 얼마 전 내 동기가 글에서 썼듯 내 삶에서 0을 1로 만들어야 할 걸 더 생각하고 싶다. 사진=픽사베이일단 데이터를 모아야 한다는 것. 인생에 있어선 행동 데이터일 수 있고. 근데 그 데이터도 풍부하지는 않다. 살면서 너무 많은 실험을 하기 어렵기 때문이고. 소소한 것 이것저것 시도할 수 있지만. 그게 아니라면 엄청 에너지를 요하기 때문이다. 나이 들면 부담스럽고. 가장 잃을 게 없으면서 위험부담이 적은 시기에 던질 수 있는 주사위를 최대한 던져보는 것도 필요하다 싶다. 또 데이터를 쌓아만 두지 않고 잘 분석해야 한다는 것. 데이터만 보면 안 되고 그 데이터 당사자에게 의미도 확인해야 할 듯. 정량 데이터와 정성 데이터의 필요성?
이런저런 콘텐츠를 접하고, 데이터 사이언티스트 역할을 접하다 보니 새삼 데이터 콘텐츠를 쓰길 잘했다는 생각이 들었다. 처음엔 어려워 보여서 주저하는 마음이 들었지만. 쓰는 과정에서 배운 게 많고. 쓰고 나서 다른 걸 이해하는 데 자양분이 된 주제라서. 또 이와 관련해 사람들이 관심도 있으며, 더 알고 잘 활용하고 싶은 분야이기 때문에 다른 주제를 쓰는 것도 좋을 듯하다. 갑자기 CDP가 돌아가며 음악이 나와서 지금 약간 무섭다. 전자책 단말기에 '고스트 터치'라는 이상 현상이 나타나듯 집에 있는 CDP도 그런 듯. 여기 누가 있나?