LLM에서 사용하는 하이퍼 파라미터 이해하기

Jul 23. 2025

딱딱한 명령어만 알아듣던 예전의 컴퓨터들과 달리, 지금의 AI는 마치 사람처럼 자연스럽게 대화를 이어가고, 감정까지 이해하는 듯한 반응을 보이죠. 이런 놀라운 능력 뒤에는 인간의 언어를 이해하고 처리하려는 오랜 기술적 도전의 산물인 자연어 처리(NLP) 기술이 숨어 있습니다.

딥러닝 모델을 학습할 때에는 단순히 학습 데이터만 신경 쓴다고 해서 충분하지 않습니다. 우리가 요리를 할 때 좋은 재료만 있다고 맛있는 음식이 저절로 만들어지지 않는 것처럼 말이죠. 양념을 얼마나 넣을지, 불의 세기를 어떻게 조절할지 같은 '조절 능력'이 중요합니다.

모델에 많은 데이터를 학습시키는 것만으로는 학습이 효과적으로 이루어지기 어렵습니다. 학습이 효과적으로 진행되기 위해서는 하이퍼파라미터(Hyperparameter)를 적절히 설정해 주어야 합니다. 하이퍼파라미터는 모델이 학습하는 과정 자체를 조절하는 변수들로, 가중치(Weights)와 편향(Biases)처럼 모델이 스스로 조정하는 값이 아니라 사용자가 직접 설정해 주는 값입니다.

하이퍼파라미터를 올바르게 설정하는 것은 모델의 정확도 향상과 손실 최소화 관점에서 학습 속도, 최적화 과정에서의 과적합(Overfitting) 및 과소적합(Underfitting) 방지 등에 매우 중요한 영향을 미칩니다. 본 글에서는 딥러닝 모델의 핵심적인 하이퍼파라미터의 종류와 역할에 대해 자세히 살펴보겠습니다.

ChatGPT, 이렇게 똑똑해지는 데 '숨겨진 비결'이 뭐예요?

우리가 매일 쓰는 ChatGPT 같은 거대 언어 모델(LLM)들도 결국은 이 하이퍼파라미터라는 '조율사' 덕분에 그 똑똑함을 발휘합니다. 수많은 책과 인터넷 정보로 열심히 공부(학습)하는 것도 중요하지만, 어떻게 공부할지 그 방법론을 결정하는 것이 훨씬 더 중요하단 뜻입니다.

예를 들어볼까요? ChatGPT가 너무 많은 문장을 한 번에 보면서 학습하면(Batch Size), 안정적이긴 하지만 학습 속도가 너무 느려질 수 있습니다. 반대로 너무 조금씩 보면, 전체적인 문맥을 놓칠 수도 있습니다. 또, 단어를 이해하는 '보폭'을 너무 크게 잡으면(Learning Rate) 섬세한 뉘앙스를 놓칠 수 있고, 너무 작게 잡으면 배우는 데 오랜 시간이 걸릴 수 있습니다.

이처럼 하이퍼파라미터는 ChatGPT가 방대한 언어 데이터를 얼마나 효과적으로 흡수하고, 얼마나 정확하게 이해해서, 얼마나 자연스러운 대답을 만들어낼 수 있는지에 직접적인 영향을 미칩니다. 이 '조율사'들이 없다면, 아무리 많은 데이터를 줘도 ChatGPT는 지금처럼 우리와 유연하게 소통하지 못했을 것입니다.

이제부터 이 중요한 '조율사'들이 각각 어떤 역할을 하는지 하나씩 자세히 살펴보겠습니다.

Epochs

에포크는 AI 모델이 전체 학습 데이터를 몇 번 반복해서 공부할지 결정하는 값입니다. 예를 들어, 에포크가 10이라면, 모델이 똑같은 학습 데이터를 10번 반복해서 보면서 배우게 됩니다.

너무 적게 보면 (과소적합): 마치 시험 범위가 너무 넓어서 몇 번 훑어보지도 못하고 시험장에 간 것과 같아요. 학습이 부족해서 중요한 패턴을 충분히 익히지 못하고, 결과적으로 문제도 잘 못 풀겠죠. 이걸 과소적합(Underfitting)이라고 부릅니다.

너무 많이 보면 (과적합): 반대로 너무 똑같은 문제만 풀고 또 풀어 마치 답을 외우듯이 공부하는 경우입니다. 훈련 데이터는 완벽하게 맞추지만, 막상 새로운 유형의 문제(새로운 데이터)가 나오면 당황해서 잘 풀지 못합니다. 이걸 과적합(Overfitting)이라고 합니다.

Q. 과적합은 왜 문제일까요?

AI가 학습 데이터의 아주 세세한 부분까지 너무 완벽하게 외워버려서, 실제 세상의 다양한 데이터를 만났을 때 오히려 제대로 대응하지 못하는 현상입니다. 마치 모의고사 문제는 다 맞추는데, 실제 수능에서는 전혀 다른 문제에 당황하는 것과 비슷하죠. 그러면 실제 사용 시 크게 의미가 없게 됩니다.

모델이 과적합되는 걸 막기 위해 똑똑하게 학습을 멈추는 기술도 있습니다. 조기 종료라는 방법은 AI가 새로운 문제(검증 데이터)에서 더 이상 점수가 오르지 않거나 오히려 떨어지기 시작하면, '아, 이제 그만 배워도 되겠구나!' 하고 학습을 자동으로 멈추는 기능입니다. 덕분에 쓸데없이 공부 시간을 낭비하지 않고, 실제 성능이 가장 좋은 지점에서 학습을 마칠 수 있습니다.

Learning Rate

AI가 문제를 풀 때, 자기가 생각한 '예측 답'이 있습니다. 그리고 실제로 우리가 '진짜 정답'이라고 생각하는 것도 있습니다. AI는 자기가 낸 '예측 답'이랑 '진짜 정답'이 얼마나 다른지 점수를 매겨봅니다. 마치 우리가 받아쓰기 시험을 보고 '몇 개 틀렸나?' 하고 세어보는 것과 똑같습니다. 틀린 개수가 많을수록 점수가 좋지 않을 겁니다. 이 점수를 AI 세계에서는 '손실(Loss)'이라고 부릅니다. '손실'이 크다는 건 AI가 아직 잘 모른다는 뜻으로 볼 수 있습니다.

이제 AI는 이 나쁜 점수('손실')를 보고 '어떻게 하면 다음번에는 틀린 개수를 줄일 수 있을까?' 하고 고민하게 됩니다. 이때 자기 머릿속에 있는 지식들, 즉 '가중치'라는 걸 조금씩 바꿔봅니다. '이 부분은 좀 더 중요하게 생각해야겠네', '이 부분은 덜 중요하게 봐야겠네' 하면서 스스로를 조절하는 겁니다.

'학습률'은 바로 이 '가중치'를 바꿀 때, 얼마나 크게 바꿀지 정해주는 값입니다.

학습률이 크면: 한 번에 지식을 '확' 고쳐버립니다. 너무 급하게 바꾸면 엉뚱한 방향으로 갈 수도 있습니다.

학습률이 작으면: 지식을 아주 '조금씩' 살금살금 바꾸게 됩니다. 너무 천천히 바꾸면 배우는 데 시간이 오래 걸릴 수 있습니다.

학습률은 학습 속도를 조절하는 파라미터로, 가중치와 편향을 업데이트할 때 한 번에 이동하는 크기를 결정합니다. 학습률이 너무 크면 학습이 불안정해져 최적값을 지나치는 경우가 발생할 수 있고, 너무 작으면 학습 속도가 느려지며 최적값에 수렴하는 데 많은 시간이 소요됩니다. Adaptive Learning Rate 기법(예: Adam, RMSprop)이나 Learning Rate Scheduling을 활용하면 학습 중 자동으로 적절한 학습률을 조절할 수도 있습니다.

Batch Size

배치 크기는 AI 모델이 한 번에 몇 개의 문제를 모아서 공부할지 결정하는 값입니다. 마치 학원에서 시험 대비를 할 때, 모든 문제를 한꺼번에 풀지 않고 몇 문제씩 묶어서 풀지 정하는 것과 비슷합니다.

배치 크기가 크면 (많은 문제를 한 번에): AI는 데이터를 '덩어리'로 보고 안정적으로 배우는 편입니다. 마치 모든 시험 문제를 통째로 외우려는 것처럼 계산해야 할 양이 많아서 학습 속도가 느려질 수 있습니다.

배치 크기가 작으면 (조금씩 나눠서): 데이터를 '쪼개서' 조금씩 보면서 배우니 학습 속도는 빠를 수 있습니다. 하지만 문제마다 답이 조금씩 흔들릴 수 있어 학습이 다소 불안정해질 수도 있습니다.

Q. ChatGPT는 어떻게 데이터를 볼까요?

ChatGPT 같은 AI는 텍스트를 '토큰'이라는 가장 작은 단위로 쪼개서 처리합니다. 그래서 배치 크기가 32라면, 32개의 문장(또는 문장 조각)을 한 번에 모아서 학습하는 식입니다. 예를 들어 “Hello, how are you?” → [hello, how, are, you, ?] 와 같이 5개 토큰으로 구분되며, 배치 크기 32일 경우 32개의 문장에서 추출된 모든 토큰이 한 번의 학습에서 사용됩니다.

에포크(Epochs)와 배치 크기는 연결되어 있습니다. 앞서 에포크가 '전체 공부 횟수'라고 했습니다. 한 번의 에포크에서 AI는 전체 학습 데이터를 배치 크기만큼 나눠서 순서대로 공부합니다. 만약 전체 데이터가 10,000개인데 배치 크기가 32라면, AI는 한 에포크 동안 약 312번의 '배치 학습'을 거치며 전체 데이터를 한 번 다 보게 되는 거예요. 한 번의 에포크가 끝나면, 다시 처음부터 배치 샘플링을 시작해서 또다시 전체 데이터를 학습합니다.

배치 크기는 아래와 같이 크게 세 가지 방식으로 설정할 수 있습니다.

전체 배치 학습 (Batch Gradient Descent): 모든 데이터를 한 번에 학습 (계산 비용이 큼)

미니배치 학습 (Mini-batch Gradient Descent): 일부 데이터를 선택하여 학습 (가장 일반적으로 사용)

확률적 경사 하강법 (SGD, Stochastic Gradient Descent): 배치 크기를 1로 설정하여 매우 빠르게 학습

일반적으로 16~512 사이의 배치 크기가 많이 사용되며, GPU 성능에 따라 적절한 값을 선택하는 것이 중요합니다. 예를 들어, 이미지 크기가 32×32 픽셀, RGB(3채널)일 경우 각 샘플은 32×32×3=3,072개의 픽셀 데이터를 가집니다. 배치 크기가 32라면 3,072×32=98,304개의 픽셀 데이터를 한 번의 학습에서 사용합니다. 이는 AI가 한 번에 32개의 그림을 동시에 보면서 배우는 것이고, 이 32개 그림의 모든 점(픽셀) 정보를 한 번에 처리하는 양이 98,304개라는 뜻입니다.

Noise Regularization

노이즈 정규화는 모델이 노이즈에 더 잘 일반화할 수 있도록 추가적인 랜덤성을 도입하는 기법입니다. 대표적인 방법으로는 Dropout과 Weight Decay가 있으며, 과적합 방지에 효과적이며 데이터가 적을 때 특히 유용합니다.

Dropout (드롭아웃)

AI 모델이 학습 데이터만 너무 완벽하게 외워서, 막상 새로운 데이터를 만났을 때 제대로 답하지 못하는 과적합(Overfitting) 문제가 있습니다. 이런 과적합을 막아주는 똑똑한 방법 중 하나가 바로 드롭아웃(Dropout)입니다. 드롭아웃은 AI 모델이 특정 정보에만 너무 의존해서 외워버리는 걸 막아주는 기술입니다.

Q. Dropout은 어떻게 작동할까요?

AI가 공부(학습)하는 동안, 모델 내부의 일부 뉴런(정보를 처리하는 작은 단위)을 무작위로 '잠시 쉬게' 하거나, 즉 비활성화시키게 됩니다. 예를 들어, 드롭아웃 비율이 0.2라면, 무작위로 20%의 뉴런들이 학습 중 잠시 꺼지는 거죠.

이렇게 하면 AI 모델이 특정 뉴런이나 특정 패턴에 지나치게 의존해서 학습 데이터만 외워버리는 걸 방지할 수 있습니다. 매 학습 스텝마다 다른 뉴런이 비활성화되니, 모델은 정보를 더 다양하고 유연하게 처리하는 능력을 키우게 되고, 결과적으로 새로운 데이터에도 훨씬 더 잘 대응할 수 있게 됩니다.

Weight Decay (가중치 감쇠)

가중치 감쇠(Weight Decay)는 드롭아웃과 함께 AI 모델의 과적합을 막아주는 또 다른 중요한 방법입니다. AI 모델이 학습을 하다 보면, 특정 가중치의 값이 지나치게 커지는 경우가 생길 수 있습니다. 마치 특정 재료만 너무 많이 넣어서 음식 맛이 이상해지는 것처럼, 가중치가 너무 커지면 모델이 학습 데이터의 특정 부분에만 과도하게 집중해서 다른 중요한 정보들을 놓칠 수 있습니다.

가중치 감쇠는 이런 '과한 욕심'을 줄여주는 역할을 합니다. 학습할 때, 가중치 값들이 너무 커지지 않도록 '패널티'를 주는 방식입니다. AI가 계산한 '손실' 값에 이 패널티를 더해서, 가중치가 너무 커지려고 하면 '아, 이러면 안 되겠구나!' 하고 스스로 조절하게 만듭니다. 이렇게 가중치 값들을 적절한 수준으로 유지하면, 모델이 데이터의 일반적인 패턴을 더 잘 학습하게 되어 새로운 데이터에 대한 예측 능력, 즉 일반화 성능이 좋아집니다.

레이어 수

레이어 수는 AI 모델이 얼마나 깊이 있게 생각하고 학습할지를 결정하는 요소입니다. 마치 우리가 문제를 풀 때, 겉핥기식으로 볼지 아니면 아주 깊이 파고들지를 정하는 것과 비슷합니다. 레이어가 많을수록 AI의 '생각하는 층'이 더 많아지는 거고, 이는 AI가 더 복잡하고 섬세한 관계를 배울 수 있게 해줍니다.

레이어가 많으면: AI가 정말 깊이 있는 지식을 배울 수 있지만, 때로는 너무 깊이 들어가서 길을 잃거나(과적합) 학습 자체가 어려워지는 문제도 생길 수 있습니다. 특히 '기울기 소실(Vanishing Gradient)'이라는 현상이 나타날 수 있는데, 이는 AI가 너무 깊은 곳까지 정보를 전달하다가 중요한 배움의 신호가 희미해져서 초기 단계에서는 제대로 배우지 못하는 상황을 말합니다.

레이어가 너무 적으면: AI가 충분히 깊이 생각하지 못하고, 단순한 패턴만 배우게 됩니다. 복잡한 세상의 정보들을 제대로 이해하지 못할 수 있습니다.

결국, AI 모델의 레이어 수는 '깊이 있는 학습'과 '안정적인 학습' 사이에서 적절한 균형을 찾는 것이 중요합니다.

기울기 소실(Vanishing Gradient) 문제는 신경망이 깊어질수록 역전파 과정에서 기울기가 작아져 초기 레이어까지 전달되지 못하는 현상을 의미합니다. 특히 Sigmoid나 Tanh 활성화 함수를 사용할 때 출력값이 좁은 범위로 제한되어 역전파 시 기울기가 작아져 학습이 어려워집니다.

Hidden Units(뉴런 수)

뉴런 수(Hidden Units)는 AI 모델의 각 레이어(생각하는 층) 안에 얼마나 많은 '생각하는 세포'가 들어있는지를 결정하는 값입니다. 우리 뇌에 수많은 뉴런이 모여 복잡한 생각을 하듯이, AI 모델도 이 뉴런들이 많으면 많을수록 더 복잡하고 섬세한 패턴을 학습할 수 있게 됩니다.

뉴런 수가 많으면: AI가 더 많은 정보를 동시에 처리하고, 더 세밀한 관계를 파악할 수 있습니다. 마치 복잡한 문제를 해결하기 위해 더 많은 전문가를 투입하는 것과 비슷합니다. 하지만 그만큼 계산해야 할 양이 많아져서 AI가 배우는 데 시간과 에너지가 더 많이 필요해집니다.

뉴런 수가 너무 적으면: AI가 충분히 많은 정보를 처리하지 못해서 복잡한 패턴을 제대로 배우지 못할 수 있습니다. 마치 중요한 정보를 놓치거나, 문제를 너무 단순하게만 바라보는 것과 같을 수 있습니다.

일반적으로 AI 모델을 만들 때는 첫 번째 레이어의 뉴런 수를 가장 크게 설정하고, 뒤로 갈수록 점차 줄여나가는 방식을 많이 사용합니다. 예를 들어, [512 → 256 → 128 → 64 → 32]처럼 뉴런 수를 줄여나가면서 정보를 압축하고 핵심을 파악하는 방식으로 작동하는 방식입니다.

Activation Function

활성화 함수는 AI 모델의 뉴런(생각하는 세포)이 계산을 마친 후, 그 결과를 다음 뉴런으로 넘겨줄 때 '어떤 형태로 넘겨줄지' 결정하는 중요한 장치입니다. 마치 우리가 뭔가를 배우고 나서, 그 지식을 친구에게 말해줄 때 단순하게 전달할지, 아니면 감정을 담아서 이야기할지 결정하는 것과 비슷합니다.

Q. 활성화 함수가 왜 필요할까요?

우리가 사는 세상은 아주 복잡합니다. '예' 아니면 '아니오'처럼 단순하게 나눌 수 없는 일들이 훨씬 많습니다. 만약 AI가 단순한 '직선' 관계만 이해할 수 있다면, 복잡한 세상의 정보들을 제대로 파악하지 못할 것입니다.

비선형성이란, 입력과 출력 사이의 관계가 단순한 직선이 아니라 곡선처럼 복잡하게 변할 수 있다는 의미입니다. 예를 들어, 이미지에서 단순히 '눈'과 '코'를 감지하는 것을 넘어, 이들이 모여 '사람 얼굴'이라는 복잡한 의미를 만드는 관계는 비선형적입니다. 활성화 함수는 이런 비선형적인 관계를 AI가 학습할 수 있도록 도와줍니다. 이 함수 덕분에 AI는 단순한 규칙을 넘어, 데이터 속에 숨겨진 복잡하고 미묘한 패턴들까지 찾아내고 이해할 수 있게 됩니다.

대표적인 활성화 함수들

ReLU (Rectified Linear Unit): 보통 AI 모델에서 가장 많이 쓰는 활성화 함수입니다. 계산이 빠르고 효율적이라서 요즘 AI들이 똑똑해지는 데 큰 역할을 했습니다.

Sigmoid: 결과를 0과 1 사이의 값으로 바꿔줘서, '이것일 확률이 몇 퍼센트'처럼 확률을 예측할 때 유용하게 쓰입니다.

Tanh: 시그모이드와 비슷하지만, -1부터 1 사이의 값으로 바꿔줘서 좀 더 강력한 비선형성을 제공합니다.

활성화 함수는 AI가 딱딱한 숫자 계산을 넘어, 우리처럼 세상의 복잡한 의미와 패턴을 이해하고 표현할 수 있게 만드는 마법 같은 존재라고 할 수 있습니다.

Warmup Steps

Warmup Steps은 AI 모델이 본격적인 학습에 들어가기 전에 '준비운동'을 하는 시간을 주는 단계입니다. 처음부터 너무 빠르게 배우려고 달려들지 않고, 학습 속도를 서서히 높여가면서 안정적으로 학습을 시작하도록 돕는 기술입니다.

Q. 왜 준비운동이 필요할까요?

AI 모델이 학습을 막 시작한 초기에는 아직 아는 게 별로 없어서, 손실(틀린 점수)이 아주 높을 수 있습니다. 이 상태에서 학습률(배움의 보폭)을 너무 크게 설정하면 AI의 머릿속 지식(가중치)이 너무 급격하게 변해서, 오히려 올바른 학습 방향을 찾지 못하고 헤맬 수 있습니다. 마치 초보 운전자가 처음부터 최고 속도로 달리려다가 사고가 날 수 있는 것과 비슷합니다.

웜업 스텝은 이런 문제를 막아줘요. 학습 초반에는 아주 작은 학습률로 천천히 시작했다가, 미리 정해둔 '웜업 스텝' 동안 학습률을 점진적으로 높여주는 방식입니다.

Q. 웜업은 어떻게 진행될까요?

선형 웜업: 학습률을 '일정한 속도'로 서서히 올리는 방식입니다. 마치 자전거를 탈 때 천천히 페달을 밟다가 점점 속도를 올리는 것처럼 진행됩니다.

지수 웜업: 처음에는 아주 천천히 학습률을 올리다가, 시간이 지날수록 '점점 더 빠르게' 학습률을 높이는 방식입니다.

웜업 스텝이 끝나고 AI 모델이 어느 정도 자리를 잡으면, 다시 학습률을 적절한 수준으로 낮춰서 안정적으로 깊이 있는 학습을 계속 진행하게 됩니다.

Gradient Clipping

기울기 클리핑(Gradient Clipping)은 AI 모델이 학습할 때 발생할 수 있는 '기울기 폭발(Gradient Explosion)'이라는 문제를 막아주는 기술입니다. 마치 운전 중에 갑자기 속도가 너무 빨라져서 위험해지는 것을 막기 위해, 자동차의 최고 속도를 제한하는 것과 비슷하다고 생각하시면 됩니다.

Q. '기울기 폭발'이 뭘까요?

AI 모델이 학습하면서 자신의 지식(가중치)을 업데이트할 때, '기울기'라는 값을 사용해서 방향과 크기를 결정합니다. 그런데 이 기울기 값이 어떤 이유로 갑자기 너무너무 커져버리는 경우가 생길 수 있습니다. 이렇게 되면 AI는 올바른 방향으로 조금씩 배우는 대신, 지식을 '아주 과격하게' 바꿔버려서 오히려 학습이 엉망이 되거나 아예 망가져버릴 수도 있습니다. 특히 문장이 아주 긴 텍스트를 처리하는 모델(예전의 RNN 같은 모델들)에서 이런 문제가 종종 발생했습니다.

Q. 기울기 클리핑은 어떻게 막아줄까요?

기울기 클리핑은 이 '기울기' 값이 특정 한계치(최대값)를 넘지 못하도록 제한하는 기술입니다. 우리가 운전할 때 '제한 속도'를 정해두는 것처럼 동작합니다. 이 '최대 기울기 값'을 하이퍼파라미터로 우리가 직접 설정해 줍니다. AI가 계산한 기울기가 이 값을 넘어서면, 자동으로 그 한계치까지만 조절해서 사용하게 합니다. 덕분에 AI는 안정적으로 학습을 계속 진행할 수 있고, 갑작스러운 '지식 폭주'로 모델이 망가지는 것을 방지할 수 있습니다.

가중치 값이 과도하게 커지지 않도록 규제를 추가해 과적합을 방지하는 정규화 방법입니다. 손실 함수에 정규화 항을 추가하여 구현되며, 값이 너무 크면 모델의 표현력이 떨어지고, 너무 작으면 과적합 방지 효과가 낮아집니다.

Momentum (모멘텀)

모멘텀(Momentum)은 AI 모델이 학습할 때 '학습 추진력'을 얻게 해주는 중요한 기술입니다. 마치 무거운 물체를 밀 때, 한 번 힘을 주면 계속 그 방향으로 나아가려는 '관성'이나, 언덕을 내려갈 때 점점 가속도가 붙는 것처럼, AI가 더 빠르고 안정적으로 똑똑해지도록 돕는 역할을 합니다.

Q. 왜 '추진력'이 필요할까요?

AI는 자신의 '틀린 점수(손실)'를 줄이기 위해 가장 좋은 방향으로 조금씩 움직이며 학습합니다. 그런데 이 과정이 때로는 너무 느리거나, 좌우로 흔들리면서 제자리걸음을 할 때가 있습니다. 마치 산을 내려갈 때, 한 발 한 발 너무 조심스럽게만 떼면 시간이 오래 걸리거나, 울퉁불퉁한 길에서 이리저리 흔들리는 것처럼 말입니다.

Q. 모멘텀은 어떻게 도와줄까요?

모멘텀은 AI가 이전까지 움직여왔던 '학습 방향'을 기억해서, 그 방향으로 계속 나아가려는 힘을 실어줍니다. 예를 들어, AI가 계속해서 어떤 방향으로 '똑똑해지고 있다'면, 모멘텀이 그 방향으로 더 빠르게 움직이도록 밀어주는 방식입니다.

덕분에 AI는 학습 속도가 빨라지고, 불필요하게 좌우로 흔들리는 '진동'을 줄여서 더 빠르고 안정적으로 최적의 상태에 도달할 수 있게 됩니다. 특히, 울퉁불퉁한 학습 지형(손실 함수)에서 AI가 특정 지점(지역 최적값)에 갇히지 않고 더 좋은 학습 상태를 찾아 나가는 데 큰 도움을 줍니다.

모멘텀 값이 너무 낮으면: 추진력이 약해서 학습 속도가 여전히 느리거나 진동이 심할 수 있습니다.

모멘텀 값이 너무 높으면: 추진력이 너무 강해서 최적의 지점을 '오버슈팅(overshooting)' 즉, 지나쳐 버리고 다시 돌아오는 비효율적인 상황이 발생할 수도 있습니다.

일반적으로 모멘텀 값은 0.9 정도를 많이 사용하는데, 이는 이전 학습 방향을 90% 정도 반영하겠다는 의미로 해석할 수 있습니다.

결론: AI를 똑똑하게 만드는 '숨겨진 노력', 하이퍼파라미터

이제 AI가 우리처럼 똑똑해지고 자연스럽게 대화할 수 있는 비결 중 하나인 '하이퍼파라미터'에 대해 알아보았습니다. 마치 훌륭한 요리사가 재료와 양념의 비율, 불의 세기를 섬세하게 조절하듯이, 이 하이퍼파라미터들은 AI 모델이 얼마나 잘 배우고 성장할지 결정하는 아주 중요한 '조율사' 역할을 합니다.

만약 이 '조율사'들이 제대로 설정되지 않으면 어떨까요? AI는 학습이 부족해서 중요한 걸 놓치거나(과소적합), 너무 많은 걸 외워버려서 새로운 상황에 약해질 수 있습니다(과적합). 학습 속도가 너무 느려지거나, 아예 엉뚱한 방향으로 헤맬 수도 있습니다.

결국, 우리가 지금 만나는 ChatGPT처럼 놀랍도록 똑똑하고 유능한 AI는 단순히 데이터만 많이 넣는다고 만들어지는 게 아닙니다. 개발자들이 수많은 실험과 노력을 통해 이 하이퍼파라미터들을 가장 최적의 값으로 찾아내고 조절했기에 가능한 일입니다.

복잡한 계산 방식은 몰라도 괜찮습니다. 하지만 이렇게 AI가 더 똑똑해지기 위해 얼마나 많은 '숨겨진 노력'과 '섬세한 조율'이 필요한지를 이해하는 것만으로도, 우리는 AI를 더 깊이 이해하고 미래를 함께 만들어갈 수 있는 한 걸음을 내딛게 될 것입니다.

keyword

Brunch Book 수, 토 연재

연재 쉽게 이해하는 ChatGPT

전체 목차 보기

이전 09화LLM 모델의 학습은 어떻게 진행되는가?LLM의 토큰이 대체 뭔가요?다음 11화