딥러닝 네트워크의 기본 원리와 계산 과정

by 송동훈 Hoon Song

딥러닝의 핵심은 여러 층의 레이어를 통과하며 데이터가 점점 더 정교한 특징을 추출해내는 구조에 있다. 이 과정을 하나씩 살펴보겠다.


딥 뉴럴 네트워크의 구조와 의미


딥 뉴럴 네트워크(DNN)는 여러 개의 히든 레이어로 구성된 멀티레이어 퍼셉트론이다. 레이어가 많아질수록 네트워크는 더 복잡한 패턴을 학습할 수 있게 된다. 중요한 점은 '딥'이라는 말이 단순히 노드의 수가 많다는 의미보다는 여러 레이어를 가지고 있다는 의미를 강조한다.

Screenshot 2025-04-13 at 11.01.41 PM.png

싱글 레이어 퍼셉트론은 XOR 같은 복잡한 문제를 해결할 수 없지만, 레이어를 추가한 멀티 레이어 퍼셉트론은 훨씬 복잡한 문제를 해결할 수 있다. 레이어가 깊어질수록 각 노드가 찾아내는 특징(feature)은 입력 데이터에 대한 더 좋은 표현을 만들어낸다.


포워드 패스 계산 과정


딥 네트워크에서는 포워드 패스(forward pass)와 백 프로파게이션(back propagation) 두 단계가 반복된다. 포워드 패스는 현재 네트워크 웨이트로 입력값을 받아 출력값을 계산하는 과정이다.

Screenshot 2025-04-13 at 11.07.02 PM.png


계산 과정을 행렬로 표현하면:

X(입력 벡터)에 W(웨이트 행렬)를 곱하고 b(바이어스 벡터)를 더한다

그 결과에 활성화 함수(시그모이드 등)를 적용한다

이 과정을 모든 레이어에 반복한다

Screenshot 2025-04-13 at 11.17.12 PM.png

웨이트 행렬 W의 크기는 [입력 노드 수 × 출력 노드 수]이고, 바이어스 벡터 b의 크기는 [출력 노드 수]이다.

비선형성의 중요성


네트워크에서 활성화 함수의 비선형성은 매우 중요하다. 만약 비선형 활성화 함수(시그모이드 같은)를 사용하지 않고 선형 함수만 사용한다면, 아무리 레이어를 많이 쌓아도 결국 하나의 선형 함수와 동일한 표현력을 갖게 된다.

Screenshot 2025-04-13 at 11.10.35 PM.png

선형 함수들을 아무리 합성해도 여전히 선형 함수가 되지만, 비선형 함수를 합성하면 훨씬 더 복잡한 함수를 표현할 수 있다. 이것이 딥 네트워크가 복잡한 패턴을 학습할 수 있는 핵심 이유다.


시그모이드 함수의 특성


시그모이드 함수는 딥 러닝에서 중요한 활성화 함수다. 주요 특징은:

연속 함수이며 미분 가능하다

출력값이 0과 1 사이로 제한된다

Backpropagation 계산이 간단하다

Screenshot 2025-04-13 at 11.07.02 PM.png

이런 특성들 때문에 시그모이드는 전통적으로 많이 사용된 활성화 함수다.


소프트맥스 함수


소프트맥스 함수는 주로 분류 문제의 출력 레이어에서 사용된다. 특징은:

모든 출력값이 0과 1 사이가 된다

모든 출력값의 합이 1이 된다 (확률 형태)

Screenshot 2025-04-13 at 11.23.47 PM.png

시그모이드만 사용하면 각 출력값이 0과 1 사이지만 합이 1이 아니라서 확률처럼 해석하기 어렵다. 소프트맥스는 출력값들을 확률 형태로 변환해준다. 이는 실제 확률은 아니지만, 확률처럼 해석할 수 있어 분류 문제에서 유용하다.


학습 과정의 본질


딥 네트워크의 학습은 결국 웨이트와 바이어스 파라미터를 찾는 과정이다. 총 파라미터가 수천, 수만, 심지어 수백만 개에 이를 수 있다. 이 파라미터들을 조정해 Cost 함수(실제 출력과 예측 출력 간의 오차)를 최소화하는 것이 목표다.

Screenshot 2025-04-14 at 12.09.11 AM.png

Cost 함수를 최소화하기 위해 Backpropagation 방법을 사용한다. 이는 오차를 네트워크의 뒤에서 앞으로 전파하면서 각 파라미터가 오차에 기여한 정도를 계산하고, 이를 바탕으로 파라미터를 업데이트하는 과정이다.


결국 딥 러닝은 데이터를 통해 이 수많은 파라미터들을 자동으로 학습하는 방법이며, 이것이 복잡한 패턴을 인식할 수 있는 강력한 모델을 만드는 핵심이다.

keyword
일요일 연재
이전 02화인공지능의 기본을 이해하는 방법