brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Jan 17. 2020

머신러닝을 이용한 고해상도의 "기상예보"강수량 예측

2020년 1월 13일(월) 구글 AI 리서치 블로그

날씨는 평범하고 진지한 방법으로 사람의 일상에 영향을 미칠 수 있으며, 예측의 정밀도는 강하게 날씨를 다루는 방법에 사람들에게 영향을 미칠 수 있습니다. 일기 예보는 주말에 계획된 피크닉 일정을 변경해야 하거나 폭풍이 다가올 때 집을 대피해야 하는 경우에도 다른 경로를 사용해야 하는지 여부를 사람들에게 알릴 수 있습니다. 그러나 정확한 날씨를 예측하는 것은 특히 뇌우와 같이 시간별 규모로 진행되는 지역화된 폭풍이나 사건에 대해 어려울 수 있습니다.


“머신러닝을 이용한 레이더 이미지들로 부터 현재 기상예보 하기에서, 우리는 가까운 미래에 적용되는 고도로 지역화된 “물리적”예측을 만들어 이 문제를 해결하는 강수량 예측을 위한 머신러닝 모델 개발에 대한 새로운 연구를 제시하고 있습니다. 머신 러닝의 중요한 장점은 이미 학습된 모델을 고려할 때 추론이 계산적으로 저렴하여 거의 즉각적이고 입력 데이터의 기본 고해상도에서 예측을 할 수 있다는 것입니다. 0-6 시간 예측에 중점을 둔 이 강수량은 데이터 수집 지연, 개발 초기 단계에서도 기존 모델보다 성능이 우수한 5-10 분의 총 대기 시간으로 1km 해상도의 예측을 생성할 수 있습니다.


전통적인 일기 예보를 넘어 이동

전 세계 기상청에는 광범위한 모니터링 시설이 있습니다. 예를 들어, 도플러 레이더(Doppler rader)는 실시간으로 강수량을 측정하고 기상 위성은 다중 스펙트럼 이미징을 제공하고 지상국은 바람과 강수량을 직접 측정하는 등을 수행합니다. 아래 그림은 미국 대륙의 강수량에 대한 가색 복합 레이더 이미징과 구름으로 덮힌 이미지의 비교하여 정지위성으로 다중 소스 기상 정보의 필요성을 보여줍니다. 비의 존재는 구름의 존재와 관련이 있지만 완벽하게 상관되지는 않으므로 위성 이미지만으로 강수량을 추정하는 것은 쉽지 않습니다.

[그림1]

[그림1]의 상세 설명 - 위: 정지 위성으로 측정된 구름의 위치를 보여주는 이미지입니다. 하단: 도플러 레이더 스테이션에서 측정한 비의 위치를 보여주는 레이더 이미지입니다. (저작권 표시: NOAA, NWS, NSSL)


불행히도 이러한 모든 측정이 전 세계적으로 동일하게 존재하는 것은 아닙니다. 예를 들어, 레이더 데이터는 주로 지상국에서 나왔으며 일반적으로 해양에서는 사용할 수 없습니다. 또한 지역에 따라 적용 범위가 다양하며 일부 지역에서는 위성 범위가 양호하더라도 레이더 적용 범위가 열악할 수 있습니다.


그럼에도 불구하고, 예측 시스템이 모든 것을 통합하는 데 어려움을 겪는 다양한 종류의 관측 데이터가 너무 많습니다. 미국에서는 미국 해양 대기청(NOAA)에서 수집한 원격 감지 데이터가 현재 하루에 100 테라 바이트에 이르고 있습니다. NOAA는 이 데이터를 사용하여 슈퍼 컴퓨터에서 실행되는 방대한 일기 예보 엔진에 1 일에서 10 일의 전 세계 예측을 제공합니다. 이 엔진은 지난 반세기 동안 개발되었으며 대기 역학 및 열복사, 초목, 호수 및 해양 현상 등과 같은 수많은 현상들을 포함하여 물리적 프로세스를 직접 시뮬레이션하는 수치 방법을 기반으로 합니다.


그러나 계산 자원의 가용성은 여러 가지 방법으로 수치적 기상 예측의 힘을 제한합니다. 예를 들어, 계산 요구는 공간 해상도를 약 5km로 제한하는데, 이는 도시 지역 및 농지 내의 날씨 패턴을 해결하기에 충분하지 않습니다. 수치 방법도 실행하는 데 몇 시간이 걸립니다. 예측을 계산하는 데 6 시간이 걸리면 하루에 3-4 회의 실행만 허용하고 6 시간 이상의 오래된 데이터를 기반으로 한 예측이 이루어 지므로 현재 진행 중인 작업에 대한 지식이 제한됩니다. 대조적으로 현재 예측은 특히 교통 경로 및 물류에서 대피 계획에 이르는 즉각적인 결정에 유용합니다.


레이더 대 레이더 예측

우리 시스템이 생성할 수 있는 예측 유형의 전형적인 예로써, 레이더-투-레이더 예측 문제를 고려하십시오: 지난 1 시간 동안 일련의 레이더 이미지가 주어진 경우, 레이더 이미지가 N 시간이 될 시점을 예측하십시오. 범위는 0-6 시간입니다. 레이더 데이터는 이미지로 구성되어 있기 때문에 이 예측을 컴퓨터 비전 문제로 삼아 입력 이미지 시퀀스에서 기상 학적 진화를 유추할 수 있습니다. 이 짧은 시간 규모에서 진화는 두 가지 물리적 프로세스, 즉 구름 운동에 대한 이류(advenction)와 구름 형성에 대한 상승기류(convection)에 의해 좌우되는데, 이 두 가지 과정은 모두 지역 지형과 지리에 크게 영향을 받습니다.


[그림2]

[그림2]의 상세 설명 - 상단 (왼쪽에서 오른쪽으로) : 처음 3 개의 패널은 60 분, 30 분 및 0 분 전에 레이더 이미지를 표시합니다. 예측 지점입니다. 가장 오른쪽 패널에는 60 분 후의 레이더 이미지가 표시됩니다. 왼쪽 아래 : 비교를 위해, 위의 첫 3 개 패널의 데이터에 대류 모델링을위한 광학 흐름 (OF) 알고리즘을 적용하여 유도 된 벡터 필드. 광학 흐름은 1940 년대에 개발 된 컴퓨터 비전 방법이며, 단기 기상 진화를 예측하는 데 자주 사용됩니다. 오른쪽 아래 : OF에 의해 만들어진 예측 예. 왼쪽 하단에서 강우의 움직임을 잘 추적하지만 폭풍의 부패 강도를 설명하지 못합니다.


우리는 데이터 중심의 물리학이 없는(physics-free) 접근법을 사용합니다. 이는 신경망이 대기가 실제로 어떻게 작동하는지에 대한 사전 지식을 통합하지 않고 훈련 예제만으로 대기 물리를 근사화하는 법을 배우게 됨을 의미합니다. 우리는 날씨 예측을 이미지-이미지 변환 문제로 취급하고 이미지 분석의 최신 기술인 컨볼루션 신경망(CNN)을 활용합니다.


CNN은 일반적으로 일련의 선형 레이어(linear sequence of layers)들로 구성되며, 각 레이어는 일부 입력 이미지를 새로운 출력 이미지로 변환하는 일련의 작업입니다. 종종 레이어는 이미지를 일련의 컨볼루션 필터로 컨볼루션 하는 것 외에도 채널 수와 이미지의 전체 해상도를 변경합니다. 이러한 필터 자체는 작은 이미지입니다 (일반적으로 3x3 또는 5x5). 필터는 CNN의 강력한 기능을 구동하므로 에지 감지, 의미 있는 패턴 식별 등과 같은 작업을 수행합니다.


특별히 효과적인 CNN 유형은 U-Net입니다. U-Net은 인코딩 단계로 배열된 일련의 레이어를 가지며, 레이어는 이미지를 통과하는 이미지의 해상도를 반복적으로 낮추고 인코딩 단계에서 생성된 이미지의 저 차원 표현은 디코딩 단계로 더 높은 해상도로 다시 확장됩니다. 다음 그림은 특정 U-Net의 모든 계층을 보여줍니다.

[그림3]

[그림3]의 상세 설명 - (A) U-NET의 전체 구조. 파란색 상자는 기본 CNN 레이어에 해당합니다. 분홍색 상자는 다운 샘플 레이어에 해당합니다. 녹색 상자는 업 샘플 레이어에 해당합니다. 실선은 레이어 간의 입력 연결을 나타냅니다. 점선은 U-NET의 인코딩 및 디코딩 단계를 통과하는 긴 건너 뛰기 연결을 나타냅니다. 점선은 개별 레이어에 대한 짧은 건너 뛰기 연결을 나타냅니다. (B) 기본 계층 내에서의 연산. (C) 다운 샘플 레이어 내 연산. (D) 업-샘플 레이어 내 연산


U-Net에 대한 입력은 지난 1 시간 동안의 관측 순서에서 각 다중 스펙트럼 위성 이미지에 대해 하나의 채널을 포함하는 이미지입니다. 예를 들어, 지난 1 시간 동안 위성 이미지가 10 개 수집되고 각 다중 스펙트럼 이미지가 10 개의 서로 다른 파장에서 촬영된 경우 모델의 이미지 입력은 100 채널의 이미지가 됩니다. 레이더 대 레이더 예측의 경우, 입력은 지난 1 시간 동안 30 분의 레이더 관측 시퀀스로 2 분 간격으로 배치되며 출력에는 N 시간에 대한 예측이 포함됩니다. 미국에서의 초기 작업을 위해 2017 년부터 2019 년까지 미국 대륙의 역사적 관측을 통해 네트워크를 학습했습니다. 데이터는 4주 기간으로 나뉘며, 각 기간의 처음 3주가 교육에 사용되고 네 번째 주는 평가에 사용됩니다.


결과

우리는 세 가지의 널리 사용되는 모델들과 비교합니다. 첫째, NOAA의 HRRR (High Resolution Rapid Refresh) 수치 예측. HRRR에는 실제로 다양한 기상 량에 대한 예측이 포함되어 있습니다. 우리는 그 결과를 최고 품질의 1 시간 강수량 예측이었으므로 1 시간의 총 누적 표면 강수량 예측과 비교했습니다. 둘째, 일련의 이미지를 통해 움직이는 물체를 추적하려고 하는 광학 흐름 (OF) 알고리즘. 이 후자의 접근 방식은 넓은 지역의 전반적인 강우량이 예측 시간 동안 일정하다고 가정하지만 날씨 위반에 적용되는 경우가 많습니다. 셋째, 소위 지속성 모델(persistence model)은 미래에 각 위치가 현재 비가 내리는 것과 같은 비율로 비가 내릴 것으로 가정되는 사소한 모델입니다. 즉, 강수량 패턴은 변하지 않습니다. 비교하기에는 지나치게 단순한 모델처럼 보이지만 날씨 예측의 어려움을 고려하면 일반적입니다.

[그림 4]

[그림4] 상세 설명 - 대략 하루 동안의 예측 시각화. 왼쪽 : HRRR이 예측을 제공하는 빈도에 대한 한계 인 각 시간의 맨 위에 1 시간 HRRR 예측이 작성되었습니다. 센터 : 공중 탐사 결과를 검증하기 위하여 지상 조사로 얻은 정보(Ground truth), 즉 우리가 예측하려고하는 것. 오른쪽 : 우리 모델에 의한 예측. 우리의 예측은 HRRR에 의해 만들어진 공간 분해능의 대략 10 배에서 2 분마다 (여기 15 분마다 표시됨)입니다. 폭풍의 일반적인 움직임과 일반적인 형태를 포착합니다.


우리는 정밀도 및 재현율(PR, Precision and Recall) 그래프를 사용하여 모델을 비교합니다. 자체 분류 기준에 직접 액세스 할 수 있으므로 전체 PR 곡선을 제공합니다 (아래 그림에서 파란색 선으로 표시). 그러나 HRRR 모델에 직접 액세스 할 수 없으며 지속성 모델이나 OF가 정밀도와 회수를 교환할 수 있는 능력이 없기 때문에 해당 모델은 개별 포인트로만 표시됩니다. 아래 그림에서 보듯이, 신경망 예측의 품질은 이 세 가지 모델 모두를 능가합니다 (파란색 선이 다른 모델의 모든 결과보다 높기 때문에). 그러나 예측 수평선이 대략 5-6 시간에 도달하면 HRRR 모델이 현재 결과보다 성능이 뛰어나기 시작한다는 점에 유의해야 합니다.

[그림5]

[그림5]의 상세 설명 - 정밀도 및 재현율(PR) 곡선은 광학 흐름(OF), 지속성 모델 및 HRRR 1시간 예측을 통해 결과(단색 파란색 선)를 비교합니다. Classifier 에 직접 액세스할 수 없으므로 결과에 대한 전체 PR 곡선을 제공할 수 없습니다. 왼쪽: 가벼운 비에 대한 예측. 오른쪽: 적당한 비에 대한 예측.


ML 방법의 장점 중 하나는 예측이 효과적으로 즉각적이라는 것입니다. 즉, 예측은 최신 데이터를 기반으로 하며 HRRR은 1-3 시간의 계산 대기 시간으로 인해 방해를 받습니다. 이는 매우 단기 예측을 위한 컴퓨터 비전 방법에 대한 더 나은 예측으로 이어집니다. 반대로 HRRR에 사용된 수치 모델은 완전한 3D 물리적 모델을 사용하기 때문에 장기적으로 더 나은 예측을 할 수 있습니다. 구름 형성은 2D 이미지에서 관찰하기가 더 어렵기 때문에 ML 방법이 대류성의 프로세스를 학습하기가 더 어렵습니다. 빠른 예측을 위한 ML 모델과 장기 예측을 위한 HRRR이라는 이 두 시스템을 결합하면 향후 작업에 중점을 둔 아이디어로 전체적으로 더 나은 결과를 얻을 수 있습니다. 또한 ML을 3D 관측에 직접 적용하는 방법도 검토하고 있습니다. 그럼에도 불구하고 즉각적인 예측은 실시간 계획, 의사 결정 촉진 및 생명 주기들의 개선을 위한 핵심 도구입니다.


감사의 말

Thanks to Carla Bromberg, Shreya Agrawal, Cenk Gazen, John Burge, Luke Barrington, Aaron Bell, Anand Babu, Stephan Hoyer, Lak Lakshmanan, Brian Williams, Casper Sønderby, Nal Kalchbrenner, Avital Oliver, Tim Salimans, Mostafa Dehghani, Jonathan Heek, Lasse Espeholt, Sella Nevo, Avinatan Hassidim.


원본 제목: 머신러닝을 이용한 고해상도의 "기상예보"강수량 예측(Using Machine Learning to “Nowcast” Precipitation in High Resolution)

게시자 : Jason Hickey, Google Research 수석 소프트웨어 엔지니어

원본 소스: https://ai.googleblog.com/2020/01/using-machine-learning-to-nowcast.html

이 블로그는 2020년 1월 13일(월), 구글 AI 리서치 블로그 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)
매거진의 이전글 모델의 불확실성을 신뢰할 수 있습니까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari