생성형 AI와 Transformer를 활용한 다중 모드

ESG

Apr 19. 2026

Multimodal ultra-short-term probabilistic solar power forecasting with generative AI and Transformer

생성형 AI와 Transformer를 활용한 다중 모드 초단기 확률적 태양광 발전량 예측

이 논문은 초단기 태양광 발전량 예측에서 하늘 이미지(sky image)와 과거 발전량 데이터를 함께 활용하고, 여기에 생성형 AI 기반 비디오 예측과 Transformer 기반 멀티모달 확률예측을 결합한 것이 핵심입니다.

1. 논문의 핵심 한 줄 요약

이 논문은 과거 하늘 이미지와 과거 태양광 발전량을 함께 입력하고,

먼저 생성형 AI로 미래 하늘 이미지를 여러 가지 경우의 수로 생성한 뒤,

그 결과를 Transformer 기반 멀티모달 모델에 넣어 미래 발전량의 확률분포까지 예측하는 프레임워크를 제안합니다.

즉, 단순히 “얼마나 발전할 것인가”만 예측하는 것이 아니라,

“어느 정도 불확실성을 가진 채 얼마 정도 발전할 가능성이 큰가”까지 제시하는 접근입니다.

⸻

2. 연구 배경과 문제의식

태양광 발전은 재생에너지 확대의 핵심이지만, 발전량이 일사량, 구름, 시간대, 계절 등에 따라 급격히 변합니다.

이러한 변동성은 전력계통 운영 측면에서 큰 문제를 만듭니다. 예를 들어 태양광 출력이 갑자기 떨어지면, 계통 운영자는 즉시 예비전원이나 에너지저장장치를 가동해야 합니다. 따라서 몇 분~수십 분 단위의 초단기 예측은 매우 중요합니다.

기존 초단기 태양광 예측은 크게 세 부류로 나뉩니다.

첫째, 과거 발전량·기상 데이터 같은 수치형 시계열 데이터만 사용하는 방법입니다.

둘째, 위성영상이나 하늘 이미지 같은 영상 데이터만 사용하는 방법입니다.

셋째, 수치 데이터와 영상 데이터를 함께 쓰는 멀티모달 방법입니다.

하지만 저자들은 기존 연구에 다음과 같은 한계가 있다고 봅니다.

* 하늘 이미지만으로 미래 발전량을 직접 예측하면, 비슷한 하늘 상태처럼 보여도 실제 발전량은 크게 다를 수 있습니다.

* 하늘 이미지는 연속적인 움직임, 즉 구름의 이동이 중요한데, 단순 CNN이나 ViT만으로는 이 동적 특성을 충분히 반영하기 어렵습니다.

* 일부 확률예측 연구는 구름 이동의 불확실성만 반영하고, 정작 예측 모델 자체의 불확실성은 충분히 반영하지 못합니다.

즉, 이 논문은

“하늘 상태의 미래 변화”와 “예측 모델의 불확실성”을 동시에 반영하는 초단기 태양광 확률예측이 필요하다는 문제의식에서 출발합니다.

⸻

3. 연구의 목표

이 논문의 목표는 미래 일정 시간 구간의 태양광 발전량에 대해,

단일값(point forecast)이 아니라 조건부 확률분포를 추정하는 것입니다.

입력은 크게 세 가지입니다.

* 과거 태양광 발전량 데이터

* 과거 하늘 이미지 데이터

* 시간 정보(시각 등 temporal data)

이 세 정보를 바탕으로 미래 15분, 30분, 60분 후 발전량의 확률분포를 예측합니다.

⸻

4. 제안한 전체 프레임워크 구조

논문의 전체 구조는 크게 3단계입니다. 페이지 4의 전체 아키텍처 도식이 이를 잘 보여줍니다.

4.1 1단계: 생성형 AI 기반 확률적 비디오 예측 모델

과거 하늘 이미지 시퀀스를 입력받아 미래 하늘 이미지 시퀀스를 여러 개 생성합니다.

즉, 미래 하늘 상태를 하나로 단정하지 않고, 여러 가능한 시나리오로 만듭니다.

4.2 2단계: Transformer 기반 멀티모달 확률예측 모델

각 미래 하늘 이미지 시퀀스와 과거 발전량 데이터를 함께 입력하여

미래 발전량의 평균과 분산을 추정합니다.

즉, 발전량의 확률분포 파라미터를 출력합니다.

4.3 3단계: 불확실성 통합

미래 하늘 이미지의 불확실성과 멀티모달 예측 모델의 불확실성을 결합하여

최종적인 태양광 발전량 확률분포를 계산합니다.

이 구조의 장점은 단순 예측보다 훨씬 현실적이라는 점입니다.

실제 태양광 발전량은 구름 이동 때문에 불확실성이 매우 크므로,

운영자는 “예상값”뿐 아니라 “신뢰구간”도 알아야 전력계통 대응이 가능합니다.

⸻

5. 비디오 예측 모델의 세부 내용

논문이 특히 강조하는 첫 번째 기술 축은 미래 하늘 이미지 생성입니다.

이는 세 부분으로 구성됩니다.

5.1 Conv-GRU 기반 motion feature 추출

과거 하늘 이미지들 사이의 차이를 계산한 뒤, CNN과 GRU를 결합한 구조로

구름 이동과 하늘 변화의 시공간적 특징을 추출합니다.

여기서 중요한 점은 단일 이미지가 아니라 이미지 시퀀스의 변화를 본다는 것입니다.

5.2 Neural SDE 기반 미래 motion feature 예측

추출된 motion feature를 바탕으로 Neural Stochastic Differential Equation(SDE)를 이용해

미래의 motion feature를 예측합니다.

이 방식은 확률적 동역학을 반영할 수 있어, 구름 이동처럼 불확실한 동적 현상을 표현하는 데 유리합니다.

5.3 Conditional Diffusion Model(CDM) 기반 미래 하늘 이미지 생성

예측된 motion feature를 조건으로 하여,

조건부 확산모델(diffusion model)이 미래 하늘 이미지를 생성합니다.

확산모델은 노이즈를 점진적으로 제거하며 이미지를 복원하는 방식으로 작동하며,

논문에서는 이를 통해 품질이 높은 미래 하늘 이미지 샘플을 여러 개 생성합니다.

즉, 이 단계의 핵심은

“미래 하늘은 하나가 아니라 여러 가능성이 있다”는 점을 반영해

확률적 시나리오 기반 영상 생성을 수행한다는 것입니다.

⸻

6. 멀티모달 확률예측 모델의 세부 내용

두 번째 기술 축은 Transformer 기반 멀티모달 예측기입니다.

이 모델은 과거 발전량 데이터와 예측된 미래 하늘 이미지 데이터를 함께 사용합니다.

6.1 데이터 임베딩

* 하늘 이미지는 ResNet으로 특징을 추출한 뒤 임베딩합니다.

* 발전량 데이터도 value embedding, positional embedding, temporal embedding을 거쳐 임베딩합니다.

6.2 Encoder

하늘 이미지 특징과 발전량 특징을 concat하여 self-attention으로 처리합니다.

즉, 서로 다른 모달리티의 관계를 학습합니다.

6.3 Decoder

과거 발전량 시퀀스의 일부와 미래 타깃 placeholder를 함께 사용하며,

cross-attention을 통해 encoder의 멀티모달 표현과 결합하여

최종 예측 특징을 만듭니다.

6.4 Gaussian Process Approximation(GPA)

논문은 Transformer 출력 위에 Gaussian Process Approximation을 얹어

미래 발전량의 평균과 분산을 계산합니다.

이는 모델이 자기 예측의 불확실성을 더 잘 표현하도록 만드는 장치입니다.

즉, 이 모델은 단순 회귀가 아니라

“예측값 + 예측 불확실성”을 동시에 출력하는 구조입니다.

⸻

7. 전체 불확실성 추정 방식의 의미

이 논문의 가장 큰 학술적 기여 중 하나는

두 종류의 불확실성을 함께 다룬다는 점입니다.

첫째, 미래 하늘 상태의 불확실성입니다.

같은 현재 하늘 상태에서도 구름의 이동 경로는 달라질 수 있으므로,

미래 하늘 이미지가 여러 샘플로 생성됩니다.

둘째, 멀티모달 예측모델 자체의 불확실성입니다.

같은 입력이라도 모델은 완벽하지 않기 때문에 예측 분산이 존재합니다.

논문은 각 미래 하늘 이미지 샘플에 대해 발전량 확률분포를 만든 뒤,

이들을 평균과 분산 수준에서 다시 통합해 최종 확률분포를 계산합니다.

이 방식은 실무적으로 매우 중요합니다.

왜냐하면 계통 운영자는 “출력이 얼마나 나올지”뿐 아니라

“그 예측이 얼마나 불확실한지”를 기반으로 의사결정을 해야 하기 때문입니다.

⸻

8. 데이터셋과 실험 설계

실험은 중국 Kuitun City의 실제 데이터셋으로 수행되었습니다.

* 기간: 2024년 3월 1일 ~ 2024년 7월 31일

* 시간대: 오전 6시 ~ 오후 10시

* 하늘 이미지 수: 112,599장

* 원본 해상도: 2560×1920

* 학습 효율을 위해 128×128로 축소 사용

또한 데이터 품질 확보를 위해

* 결측치가 포함된 시퀀스 제거

* 일출 전, 일몰 후 시퀀스 제거

* 날씨를 맑음(sunny), 구름(cloudy), 흐림(overcast), 비(rainy)로 분류

* 각 날씨별로 train/validation/test를 나누어 분포 불일치 문제를 완화했습니다.

이 부분은 매우 중요합니다.

날씨 분포가 다르면 딥러닝 모델이 훈련 분포와 다른 테스트 데이터에서 쉽게 무너질 수 있기 때문에,

저자들은 날씨 조건별 분할을 통해 보다 공정한 평가를 시도했습니다.

⸻

9. 평가 지표

9.1 결정론적 예측 지표

* RMSE

* MAE

* SMAPE

9.2 확률예측 지표

* CRPS (Continuous Ranked Probability Score)

* MWIS (Mean Winkler Interval Score)

여기서 CRPS와 MWIS는 단순 평균오차가 아니라,

예측 분포 또는 신뢰구간이 실제값을 얼마나 잘 반영하는지를 평가하는 지표입니다.

즉, 논문이 단순 예측정확도뿐 아니라 불확실성 예측의 질도 엄격히 평가했다는 뜻입니다.

⸻

10. 비교 대상 모델

논문은 제안 모델을 다음 네 가지와 비교합니다.

* Time Series: 과거 발전량만 사용하는 Transformer 기반 시계열 확률예측

* Image Only: 하늘 이미지만 사용하는 모델

* Video Prediction: 미래 하늘 이미지를 먼저 생성하고, 그것만으로 발전량을 추정하는 모델

* Multimodal: 하늘 이미지와 발전량을 함께 쓰지만, 비디오 예측 모듈은 없는 멀티모달 모델

즉, 저자들은

“과거 발전량만 써도 되는가”,

“하늘 이미지만 써도 되는가”,

“멀티모달만으로 충분한가”,

“미래 하늘 이미지 생성까지 포함해야 하는가”를 단계적으로 검증한 것입니다.

⸻

11. 주요 실험 결과: 결정론적 예측 성능

전체 데이터셋 기준으로 제안 모델은 모든 예측 시점에서 가장 좋은 성능을 보였습니다.

대표적으로 15분 후 예측에서 제안 모델(Ours)은

* RMSE: 7.80

* MAE: 4.96

* SMAPE: 0.2843

를 기록했고, 이는 비교모델보다 우수했습니다.

30분, 60분 예측에서도 모두 가장 좋은 수치를 보였습니다.

논문이 특히 강조한 비교는 다음과 같습니다.

* 과거 발전량만 쓰는 방법(Time Series) 대비

15분 예측 RMSE가 20.6% 감소

* 하늘 이미지만 쓰는 방법(Image Only) 대비

15분 예측 RMSE가 47.3% 감소

* 비디오 예측만 활용하는 방법(Video Prediction) 대비

15분 예측 RMSE가 46.2% 감소

이 결과는 매우 분명한 메시지를 줍니다.

1. 하늘 이미지만으로는 부족하다

2. 과거 발전량만으로도 부족하다

3. 두 데이터를 함께 쓰고, 미래 하늘 변화까지 예측해야 가장 성능이 좋다

⸻

12. 날씨 조건별 결과 해석

논문은 날씨 조건별 성능도 따로 분석했습니다.

12.1 맑은 날씨

맑은 날은 일출·일몰 시간을 제외하면 발전량이 비교적 안정적이어서

전체적으로 모든 모델 성능이 상대적으로 좋았습니다.

이 경우 과거 발전량 정보가 특히 유효하며, 제안 모델이 전 구간에서 가장 좋은 결과를 냈습니다.

12.2 구름 낀 날씨

구름 이동으로 태양복사가 크게 흔들려 예측이 어려워집니다.

이때 과거 발전량만 보는 모델은 성능 저하가 뚜렷했고,

제안 모델은 하늘 이미지 정보를 활용해 이를 개선했습니다.

12.3 흐린 날씨(overcast)

태양이 장시간 구름에 가려 발전량 자체가 낮고 변동이 큽니다.

전반적으로 모든 모델이 어려움을 겪었지만,

제안 모델은 15분 및 30분 예측에서 가장 우수했습니다.

12.4 비 오는 날씨

발전량이 낮고 불확실성이 매우 큰 조건입니다.

이때도 제안 모델이 전반적으로 가장 좋거나 동등한 수준의 결과를 보였습니다.

흥미롭게도 비와 흐림 상황에서는 과거 발전량보다 하늘 상태 정보의 기여가 더 커질 수 있음을 보여줍니다.

즉, 날씨가 불안정할수록 멀티모달 접근과 불확실성 반영의 가치가 더 커진다고 볼 수 있습니다.

⸻

13. 주요 실험 결과: 확률예측 성능

확률예측에서도 제안 모델이 가장 우수했습니다.

전체 데이터셋 기준 결과는 다음과 같습니다.

15분 예측

* Ours: CRPS 4.07, MWIS 48.22

* Time Series: CRPS 5.05, MWIS 68.01

* Multimodal: CRPS 4.45, MWIS 64.84

30분 예측

* Ours: CRPS 5.46, MWIS 59.07

60분 예측

* Ours: CRPS 6.90, MWIS 74.11

논문은 특히 다음을 강조합니다.

* Time Series 대비

CRPS가 15분, 30분, 60분 예측에서 각각 19.4%, 13.3%, 13.3% 감소

* Multimodal 대비

CRPS와 MWIS 모두 추가 개선

이 결과는 제안 방법이 단순히 평균 예측이 잘 맞는 수준을 넘어서,

예측구간 자체도 더 현실적이고 신뢰성 있게 제시한다는 뜻입니다.

⸻

14. 시각화 결과의 의미

논문은 95% 신뢰구간을 시각화해 모델별 차이를 보여줍니다.

시각화 분석 결과,

* 맑음·구름 조건에서는 오차가 작아 신뢰구간이 좁아지고,

* 흐림·비 조건에서는 오차가 커져 신뢰구간이 넓어집니다.

즉, 제안 모델은 날씨가 나쁠수록 자동으로 더 넓은 예측구간을 제시하여

불확실성 수준을 상황에 따라 적절히 반영합니다.

반면 다른 모델들은 대체로 불확실성을 과소추정하는 경향이 있었습니다.

특히 Multimodal은 구름 변화로 인한 불확실성을 충분히 반영하지 못했고,

Video Prediction은 이미지 불확실성만 보고 예측모델 자체의 불확실성을 충분히 반영하지 못했습니다.

⸻

15. 논문의 핵심 기여

이 논문의 기여는 네 가지로 정리할 수 있습니다.

15.1 멀티모달 통합

하늘 이미지와 발전량 데이터를 함께 사용하여 초단기 태양광 예측의 정확도를 높였습니다.

15.2 생성형 AI의 도입

확산모델 기반 비디오 예측으로 미래 하늘 이미지 시퀀스를 생성하여

구름 이동의 동적 특성을 더 정교하게 반영했습니다.

15.3 이중 불확실성 반영

미래 하늘 상태 불확실성과 예측 모델 불확실성을 함께 고려하는

보다 완전한 확률예측 프레임워크를 제시했습니다.

15.4 Transformer 기반 확률예측 구조

Transformer와 GPA를 결합해 멀티모달 입력으로부터

발전량의 확률분포를 직접 산출하는 구조를 구현했습니다.

⸻

16. 한계와 향후 연구 방향

논문은 결론부에서 몇 가지 한계도 솔직히 밝힙니다.

16.1 확산모델의 비용 문제

Conditional diffusion model은 이미지 품질은 높지만

모델 크기가 크고 추론 속도가 느리다는 문제가 있습니다.

예를 들어 60분 예측에서는 계산 비용 때문에 시간 해상도를 5분으로 설정해야 했고,

실시간 적용에는 고가 하드웨어가 필요할 수 있습니다.

16.2 물리 기반 지식 미반영

이 연구는 데이터 기반 접근이며,

구름역학, 난류, 유체물리 같은 물리적 메커니즘을 명시적으로 넣지 않았습니다.

저자들은 향후 이러한 물리 제약을 생성모델에 통합하면

더 신뢰성 있는 예측이 가능할 수 있다고 봅니다.

16.3 입력 데이터 확장 필요

현재는 과거 발전량과 하늘 이미지만 사용하지만,

향후에는 위성영상도 함께 통합하여 15분~6시간 범위의 더 포괄적 예측을 목표로 한다고 말합니다.

16.4 대규모 멀티모달 모델로의 확장

저자들은 향후 대규모 언어모델/멀티모달 대형모델과의 결합 가능성도 언급합니다.

즉, 범용적 추론능력을 가진 대형모델 기반의 초단기 태양광 예측으로 확장할 가능성을 제시했습니다.

⸻

17. 결론 정리

이 논문은 초단기 태양광 발전량 예측에서

기존의 단일 데이터 기반 접근을 넘어,

하늘 이미지 + 과거 발전량 + 생성형 AI + Transformer + 확률예측을 결합한 통합 프레임워크를 제안했다는 점에서 의미가 큽니다.

특히 중요한 시사점은 다음과 같습니다.

* 초단기 태양광 예측은 영상정보와 발전량정보를 함께 써야 성능이 좋아집니다.

* 단순 점예측보다 확률예측이 전력계통 운영 측면에서 훨씬 실용적입니다.

* 생성형 AI는 단순 이미지 생성용이 아니라, 미래 기상 상태의 다중 시나리오 생성 도구로도 매우 유용합니다.

* 불확실성을 “하늘 상태”와 “모델 자체” 양쪽에서 함께 다뤄야 현실적인 예측이 가능합니다.

결국 이 논문은 태양광 발전 예측을

단순한 회귀 문제가 아니라 불확실한 미래 상태를 다루는 멀티모달 확률추론 문제로 재정의했다는 점에서 학술적·실무적 가치가 높다고 평가할 수 있습니다.

⸻

Source :

* Xiong, B., Chen, Y., Zhao, X., Su, Z., Fu, J., Chen, D., Zhang, D.

“Multimodal ultra-short-term probabilistic solar power forecasting with generative AI and Transformer”, Advances in Applied Energy, 20, 100250, 2025. 업로드 파일 기준.

#jcncchatesgx

#지속가능성보고연구소

#공공기관esg경영

#esg창업

#지속가능성보고

#제이씨앤컴퍼니

#기후테크

#ESG공시

#ESG

#임팩트투자

#ESG보고서

keyword