딥러닝의 세계에서 깊은 모델을 학습시키는 것은 오랫동안 난제였다. 역전파 알고리즘의 발명으로 다층 신경망을 학습시킬 수 있게 되었지만, 레이어가 많아질수록 학습이 제대로 이루어지지 않는 현상이 발견되었다. 이것이 바로 '소멸하는 그라디언트(Vanishing Gradient)' 문제다.
소멸하는 그라디언트 문제는 역전파 과정에서 그라디언트 값이 네트워크의 앞쪽 레이어로 갈수록 기하급수적으로 작아지는 현상이다. 이는 시그모이드 같은 활성화 함수와 깊은 관련이 있다.
시그모이드 함수의 미분값은 입력이 0에서 조금만 멀어져도 매우 작아진다. 입력이 ±4만 되어도 미분값은 거의 0에 가까워진다. 이 작은 미분값들이 역전파 과정에서 계속 곱해지면서, 앞쪽 레이어에 도달할 때는 거의 0에 수렴해버린다.
이 문제가 심각한 이유는 모델의 학습 방식에 있다. 딥러닝에서 파라미터 업데이트는 그라디언트에 비례하여 이루어진다. 그런데 앞쪽 레이어의 그라디언트가 거의 0이라면, 해당 레이어의 가중치들은 거의 업데이트되지 않는다.
레이어가 10개만 되어도, 앞쪽 레이어의 가중치들은 사실상 학습이 이루어지지 않고 초기 랜덤 값에 가깝게 유지된다. 이는 결국 깊은 신경망의 이점을 무효화시킨다.
소멸하는 그라디언트는 네트워크 내 학습 불균형을 초래한다. 출력층에 가까운 레이어들은 빠르게 학습되는 반면, 입력층에 가까운 레이어들은 거의 학습되지 않는다.
이는 심각한 문제다. 앞쪽 레이어는 기본적인 특징을 추출하는 중요한 역할을 하는데, 이 부분이 제대로 학습되지 않으면 뒤쪽 레이어가 아무리 잘 학습되어도 전체 모델의 성능은 높아질 수 없다. 엉망인 입력으로는 좋은 출력을 만들 수 없기 때문이다.
이 소멸하는 그라디언트 문제는 1980년대 후반 역전파 알고리즘이 발명된 이후, 2010년대 초반까지 딥러닝 발전의 큰 장애물이었다. 1986년 제프리 힌튼이 역전파를 신경망에 적용했지만, 레이어가 많아지면 학습이 잘 되지 않는 문제 때문에 딥러닝은 2차 AI 붐 이후 침체기를 맞았다.
실제로 이 시기에는 2~3개의 레이어만 가진 얕은 신경망만 실용적으로 학습이 가능했다. 사람의 지능에 근접하는 AI를 만들려는 시도는 이 한계를 넘지 못했다.
2010년대에 들어서며 이 문제를 해결하는 여러 혁신이 등장했다:
ReLU 활성화 함수: 힌튼 교수가 제안한 ReLU(Rectified Linear Unit)는 소멸하는 그라디언트 문제의 돌파구가 되었다. ReLU는 입력이 양수일 때 미분값이 1로 일정하기 때문에, 그라디언트가 소멸하지 않고 앞쪽 레이어까지 전달될 수 있다.
아키텍처 혁신: LSTM과 같은 순환 신경망 구조는 덧셈 연산을 도입하여 그라디언트가 소멸하는 것을 방지했다. 곱셈만으로는 값이 급격히 작아지지만, 덧셈이 있으면 정보가 더 효과적으로 전달된다.
이러한 혁신으로 2010년 이후 딥러닝은 폭발적으로 발전했다. 레이어 수십 개는 물론, ResNet과 같은 아키텍처에서는 150개 이상의 레이어를 가진 모델도 효과적으로 학습할 수 있게 되었다.
소멸하는 그라디언트 문제를 해결하면서 AI는 3차 붐을 맞이했다. 딥러닝이 이미지 인식, 자연어 처리 등 다양한 분야에서 혁명적인 성능을 보이기 시작한 것이다.
현재의 AI 발전은 이런 기술적 장벽을 하나씩 극복해온 결과다. 역전파 알고리즘은 신경망 학습의 기초를 마련했고, ReLU와 같은 혁신은 더 깊은 학습을 가능하게 했다.
딥러닝의 역사는 문제를 발견하고, 이해하고, 극복하는 과정의 연속이었다. 소멸하는 그라디언트 문제의 해결은 그 중에서도 가장 중요한 돌파구 중 하나였으며, 오늘날 우리가 경험하는 AI 기술의 혁신은 이런 기초적인 난제들을 해결한 덕분에 가능해졌다.