ResNet과 SENet의 혁신적 설계 원리
CNN 분야에서 깊은 네트워크 설계의 핵심 혁신들을 살펴보며 발견한 인사이트들을 정리해봤다. 특히 vanishing gradient 문제를 해결하고 정보 흐름을 최적화하는 아키텍처 디자인 원리가 흥미로웠다.
1. 층이 깊어질수록 학습이 더 어려워지는 역설
이미지넷 챌린지를 보면 2014년까지는 레이어 수가 약 20개 정도였던 네트워크가 주류였다. 더 깊은 네트워크가 이론적으로는 더 복잡한 특징을 포착할 수 있지만, 실제로는 학습 파라미터 증가와 vanishing gradient 문제 때문에 성능 향상이 제한되었다. 이 한계를 돌파한 것이 ResNet으로, 152개 레이어까지 확장하며 에러율을 3.57%까지 낮췄다.
2. Identity Shortcut이 ResNet의 핵심
ResNet의 가장 중요한 혁신은 residual learning 개념이다. 기존 CNN에서는 입력 x를 여러 레이어 F(x)를 통과시켜 변환했지만, ResNet에서는 F(x)+x 형태로 원본 입력을 shortcut connection으로 직접 출력에 더한다. 이 간단한 아이디어가 깊은 네트워크의 학습을 가능하게 만든 핵심이다.
3. Residual block이 gradient 흐름을 보존하는 메커니즘
기존 네트워크에서는 backpropagation 시 gradient가 여러 레이어를 통과하며 점점 작아지는(multiply) 구조였지만, ResNet의 identity shortcut은 덧셈(add) 연산을 통해 gradient가 직접 흐를 수 있는 경로를 제공한다. 수식적으로 보면 ∂L/∂xₗ에 항상 identity term이 더해져, gradient가 0이 되는 것을 방지한다.
4. Bottleneck 구조의 파라미터 효율성
ResNet-50 이상의 모델에서는 두 개의 3x3 convolution 대신 1x1→3x3→1x1 구조의 bottleneck을 사용한다. 이는 단순히 레이어를 늘리는 것이 아니라, 256→64→256 채널 패턴으로 파라미터 수를 크게 줄인다. 예를 들어, 두 개의 3x3 convolution은 약 72K 파라미터가 필요하지만, bottleneck 구조는 약 68K 파라미터만 필요하면서도 더 깊은 네트워크와 더 많은 non-linearity를 제공한다.
5. Downsampling 시의 shortcut 조정. ResNet에서 feature map 크기가 변할 때(stride=2 적용 시), identity shortcut을 그대로 사용할 수 없다. 이때는 1x1 convolution과 stride=2를 적용하거나 zero padding을 사용해 차원을 맞춘다. 이런 세부 설계도 성능에 중요한 영향을 미친다.
6. SENet이 가져온 channel 간 관계 모델링
기존 CNN은 로컬한 공간 정보(3x3, 5x5 등의 커널)에만 초점을 맞췄지만, SENet은 channel 전체의 글로벌 정보를 모델링한다. Squeeze-Excitation 블록은 각 channel의 중요도를 동적으로 조정함으로써 네트워크가 더 정보에 집중할 수 있게 한다.
7. SE 블록의 세 단계 구조. SENet은 세 가지 단계로 channel 간 정보를 재조정한다:
Squeeze: 각 channel별로 전체 픽셀의 평균을 계산해 channel당 하나의 값으로 압축
Excitation: 두 개의 FC 레이어와 non-linearity를 통해 channel 간 관계를 학습
Recalibration: 학습된 가중치로 원래 feature map의 각 channel을 스케일링
8. 플러그인 방식의 아키텍처 개선. SENet의 가장 큰 장점은 기존 CNN 구조를 크게 변경하지 않고도 쉽게 적용할 수 있다는 점이다. 이는 모듈식 설계의 좋은 예로, ResNet과 같은 기존 모델에 SE 블록을 추가하는 것만으로도 성능을 크게 향상시킬 수 있다.
딥러닝 아키텍처의 발전은 단순히 레이어를 늘리는 것이 아니라, 정보 흐름을 최적화하는 방향으로 진화해왔다. ResNet의 identity mapping과 SENet의 channel recalibration은 네트워크가 더 효율적으로 학습하고 중요한 특징에 집중할 수 있게 하는 핵심 메커니즘이다. 이런 원리는 이후 EfficientNet, MobileNet 등 현대 CNN의 설계에도 계속 영향을 미치고 있다.