*이 글은 AI Data Insight 9호에 실린 글을 브런치에 다시 공개하는 글입니다.
환경에 관련된 데이터셋은 주로 환경이나 기상 관련된 기관이 모아 놓은 데이터셋이 가장 기초 데이터들이다. 이에는 미국의 연방해양대기청(NOAA), 나사(NASA), 유럽우주기구(ESA), 국가 재사용 에너지 연구소(NREL) 등 주로 정부 관련 기관이나 국제 연구소 등에서 제공하는 데이터셋이다.
스탠포드 대학교의 인간 중심 인공지능 연구소(HAI)에서 최근 열린 워크숍에서는 컴퓨터 과학자, 수학자, 수문학자, 해양 생물학자, 정치 과학자 등이 모여서 인공지능이 환경과 지속가능성 영역에서 어떻게 사용할 수 있는지를 논의했다.1) 특히 관심을 갖는 기후 변화에 대한 대응 방안을 모색하기 위해 환경 변화를 예측, 탐지, 완화하는 방안에 대한 협력이 필요함을 확인하고, 개인 환경의 웰빙과 환경 정의와 인권 등을 확보하는 방안과 새로운 데이터 스트림을 개방하거나 기존 데이터 스트림을 상호 운용하는 방안을 논의했다.
특히 과거와 같이 공간과 시간의 관점에서 불일치하는 방식이 아니라, 서로 다른 흩어진 데이터셋을 어떻게 통합하는 가가 매우 중요한 주제이며, 여기에는 인간 활동을 포함하는 것이 핵심이다. 지금까지 데이터 스트림을 바탕으로 기후 등의 문제는 기후와 생태계 시뮬레이션을 위한 지구 시스템 모델이나 국가 수자원 모델 등이 있지만, 이제는 환경과 인간 중심의 데이터 스트림을 함께 정합해서 탐구하는 초기 수준에 와있다. 여기에 인공지능의 역할이 있다고 볼 수 있다.
또 다른 측면에서 사회적 선을 위한 인공지능의 역할에 관한 연구들도 환경 문제에 대한 도전을 하고 있다. 구글이 몇 년 동안 ‘구글 홍수 예측 이니셔티브’를 통해 여러 정부와 일하면서 언제 어디서 홍수가 일어나고 이를 예측함으로써 사람들의 안전을 확보하기 위한 연구 역시 이에 해당한다.
이 연구는 인도를 대상으로 추진되었는데, 인도의 중앙수자원위원회와의 파트너십을 통해서 이루어졌으며, 이후에는 방글라데시의 수자원개발위원회와 협업을 했다. 이를 통해 2억5천만 명 이상의 사람들에게 홍수 정보를 보다 정확하게 알릴 수 있게 되었다.2)
하이드로넷(HydroNets)이라고 부르는 이 신경망에는 각종 게이지 데이터, 위성에 받은 데이터를 통해 지반 고도 지도를 좀 더 정확히 확보하고, 물의 흐름을 모델링하면서 범람 지도를 실시간으로 만들어 낼 수 있었다.
공개적으로 개방된 환경이나 기후 데이터를 얻어서 새로운 모델을 시도하는 사람들을 위한 데이터셋 정보 제공은 여러 클라우드에서도 볼 수가 있다. 예를 들어, 구글 클라우드 플랫폼에 가면 기후 관련된 데이터셋 27개를 볼 수 있다.
여기에는 전 세계 지표 관측소의 기온, 강수량을 매일 요약해서 제공하는 GHCN-Daily, 미국 지리 조사국과 나사가 공동으로 랜드샛 위성의 지구 표면 이미지 데이터(4백만 장 이상), NOAA가 제공하는 1842년부터 지금까지 전 세계 허리케인과 사이클론의 위치 및 강도 데이터, ESA가 제공하는 센티넬-2 위성의 고해상도 데이터셋으로 농업, 임업 등 토지 관리 용도에 사용할 수 있는 데이터, NOAA의 NCEI에서 제공하는 1987년부터 현재까지 번개 데이터까지 매우 광대한 데이터들이 환경과 기후 분야의 데이터로 제공된다.
많은 개발자들이 경쟁하는 캐글에서 환경이라는 태그가 붙어 있는 데이터셋은 303개가 존재한다. 이들은 대부분 우리가 지구 환경을 어떻게 악영향을 미치고 있는가를 보여주는 데이터셋이 주를 이루고 있으며, 이를 해결하기 위한 인공지능 기술 개발을 위한 기반으로 활용하고자 한다.
캐글에는 두 개의 경쟁이 올라와 있는데 하나가 구글이 올린 환경 인사이트 익스플로어3)라는 이름이며 이는 전기 사용 배출량을 측정하기 위해 원격 탐지 데이터를 이용하는 방안에 대해 도전을 하는 것이다. 데이터셋 이름은 DS4G이다.
기존의 배출 인자를 확인하는 방법은 시간이 많이 걸리는 데이터 수집에 기반을 두며 세분화된 데이터셋이 부족하기 때문에 발생하는 에러, 지속적이고 반복적으로 데이터를 업데이트하기 어렵고, 지나치게 일반화한 모델링 가설과 연료 사용과 같은 배출 소스에 대한 부정확한 보고에서 만들어지는 에러들이 있었다.
기존 미국 EPA(환경보호국)에서 제시한 배출 인자라 함은 오염 물질을 배출하는 행위에 의해 공기 속으로 배출된 오염 물질의 양과 관련된 대표성을 갖는 값을 의미한다.4) 이는 단위 무게, 부피, 거리, 활동 기간 등으로 나눈 오염 물질의 무게로 보통 표시했다. 예를 들어, 메가그램의 석탄을 태울 때 배출하는 입자를 킬로그램으로 표시하는 것과 같은 것이다.
구글은 이에 대한 대안으로 푸에르토리코를 선정해 그 지리적 경계를 통해 좀 더 정확한 예측 분석을 할 수 있는 시도를 제안했다. 이는 주변과 구분되어 다른 요소와 섞이지 않고, 푸에르토리코 지역의 연료 사용의 특징, 다른 곳과 구별되는 에너지 시스템 등에 의해 원격 탐지 데이터에서 에너지 사용과 오염을 좀 더 구별해 분석할 수 있는 것으로 봤다. 이 과제에 대한 캐글 경쟁은 2020년 2월에 런칭해 3월 24일이 최종 데드라인이었다. 1등에 1만 달러를 포함해 전체 상금이 25,000 달러였다.
DS4G에서 제공한 데이터는 스타터 팩으로 WRI(세계 자원 연구소)의 글로벌 발전소 데이터베이스, 2017년에 발사한 센티넬-5 프리커서 위성에서 측정한 데이터로 구성한 유럽연합/ESA/코페르니쿠스가 제공하는 오프라인 산화질소 분포 데이터, NOAA/NCEP/EMC가 제공하는 글로벌 예보 시스템의 384시간 예측한 환경 데이터, 나사의 글로벌 랜드 데이터 동화시스템(GLADA-2.1) 데이터셋 등이다. 참가자는 필요한 경우, 연료 유형, 전체 소비 연료, 미국 에너지 정보청 (EIA)에서 제공하는 다양한 상품 거래와 관련한 공공데이터를 활용할 수 있다.
캐글에서 확인할 수 있는 또 다른 환경분야 데이터셋은 303종이 있는데, 이 가운데 투표를 많이 받은 것을 보면, 지구 표면 온도 데이터, 미국 오염 데이터, 서울의 공기 오염 수준 데이터, 꿀벌 이미지 데이터, 마드리드의 공기 질 데이터 등이 있다.
이 가운데 지구 표면 온도 데이터셋은 로렌스 버클리 국립 연구소 안에 있는 버클리 지구 연구소에서 공개한 것으로 16개의 이미 존재하는 아카이브에서 얻은 16억 개의 온도 보고를 결합한 것이다. 이는 1750년 이후 지상 기온과 1850년 이후부터 지상 기온의 최고와 최저, 그리고 글로벌 해양 기온에 대한 모든 데이터를 갖고 있다. 좀 더 자세한 정보는 버클리 지구 연구소에서 확인할 수 있다.5)
대학연구소에서도 환경이나 기후 변화에 대응하기 위한 많은 과제가 수행되는데, 그 결과를 데이터셋으로 제공하고 있다. 예를 들어 코넬 대학교의 조류학 연구소는 서반구 전체를 커버하는 500개의 움직이는 지도를 공개했는데, 이는 새 이동을 보여주는 고해상도의 지도이다. 이 지도는 이버드(eBird) 프로그램을 통해 7억 5천만 개의 관측을 모아서 구축했다. 여기에는 약 18만 명의 버드 왓처들이 5년에 걸쳐 610종을 관찰한 것과 나사의 위성 이미지, NOAA의 야간 불빛 데이터 등을 결합한 것이다.6)
캐나다와 영국의 학자들은 환경 과학을 위해 이미지넷과 같은 고급의 표준 데이터셋을 만들자고 제안하고 있다. 인바로넷(EnviroNet)이라고 이름 붙인 이 프로젝트를 통해 지상 관측과 위성 관측 데이터를 기반으로 지역 모델을 만들고, 다양한 사건 특히 아주 극단의 기상 사건의 분류, 지질학에 특화된 시공적인 사건을 추적, 미래 사건을 예측하기 위한 연구를 하기 위한 공동의 데이터셋 구축이 필요하다는 것은 강조했다.7)
환경을 위한 데이터셋 구축은 지금까지 물리적 데이터를 모아서 제공하는 것 이상의 더 복합적이고 새로운 차원의 움직임이 필요할 수 있다. 그런 측면에서 다양한 공공 기관이나 정부 연구소, 나아가 정부 자체의 공동 연구를 위한 새로운 도전이 필요하며, 이는 중장기적으로 추진해야 하는 아주 전략적인 과제가 되어야 한다.
1. HAI, “Environmental Intelligence: Applications of AI to Climate Change, Sustainability, and Environmental Health,” Jul 20, 2020
2. Google AI Blog, “The Technology Behind our Recent Improvements in Flood Forecasting,” Sep 3, 2020
3. https://www.kaggle.com/c/ds4g-environmental-insights-explorer/data
4. EPA, “Air Emissions Factors and Quantification,” https://www.epa.gov/air-emissions-factors-and-quantification/basic-information-air-emissions-factors-and-quantification#About%20Emissions%20Factors 참고
5. http://berkeleyearth.org/archive/data/
6. Cornell Chronicle, “Ornithology lab releases high-resolution migration maps,” Mar 3, 2020
7. Mukkavilli, S. K., et. al., “EnviroNet: ImageNet for Environment,” American Meteorological Society (AMS) Jan 8, 2019