답을 찾아가는 최적화 알고리즘

by 멘토사피엔스

“ChatGPT는 어떻게 이렇게 정확하게 대답할 수 있을까요?”


처음 ChatGPT를 접하신 분들이 가장 많이 하시는 질문입니다. 마치 사람이 말하는 것처럼 술술 대답하는 이 AI도 사실은 ‘수학’과 ‘반복 학습’으로 이루어진 계산기와 같습니다. 이 계산기를 똑똑하게 만드는 핵심 기술 중 하나가 바로 최적화 알고리즘입니다.


최적화 알고리즘의 역할


쉽게 말하면, 최적화 알고리즘은 AI가 똑똑해지도록 매번 답이 조금씩 더 나아지게 만드는 방법입니다. 사람도 시험을 보며 틀린 문제를 다시 풀어보며 점수를 올리듯, AI도 데이터를 보며 ‘틀린 부분’을 찾고 고치면서 점점 더 똑똑해집니다.


최적화 알고리즘은 마치 길을 잃은 등산가가 가장 높은 산꼭대기에 도달하기 위해 사용하는 나침반과 같습니다. 이 산꼭대기는 정확한 예측값, 즉 최적값을 의미합니다. AI는 산꼭대기(정답)를 찾기 위해 매번 조금씩 방향을 바꿔가며 올라갑니다. 너무 빠르게 가면 길을 잃고, 너무 느리게 가면 시간이 오래 걸립니다. 최적화 알고리즘은 이 등산가에게 ‘나침반’을 주어, 가장 빠르고 효율적으로 정상에 오르게 도와주는 역할을 합니다.


앞서 신경망의 주요 구성요소를 보면서 신경망에 대해 이해하는 시간을 가졌습니다. 최적화 알고리즘은 신경망이 데이터를 보고 더 나은 답을 내도록 만드는 핵심 엔진입니다. 신경망이 데이터를 입력받아 예측값을 만들면, 이 예측값이 실제 정답과 얼마나 차이가 나는지를 손실 함수가 계산합니다. 이때 최적화 알고리즘은 손실 값이 줄어들도록 신경망 내부의 가중치와 편향을 조금씩 조정해 나갑니다.


마치 연습 문제를 풀 때 틀린 문제의 이유를 찾아 풀어보며 점수를 올리듯, 최적화 알고리즘도 예측의 오차를 줄이기 위해 가중치와 편향을 조절하며 신경망이 더 나은 예측을 하도록 반복적으로 학습시킵니다. 이 과정을 통해 신경망은 데이터의 패턴을 더 잘 파악하고, 새로운 데이터를 만나도 더 정확하게 예측할 수 있게 됩니다.


결국, 신경망이 데이터를 보고 배우는 과정에서 ‘어디를, 얼마나 조정할지’를 구체적으로 실행해 주는 것이 바로 최적화 알고리즘의 역할입니다.


Q. 최적화 알고리즘과 손실함수의 차이점은?

딥러닝 모델의 성능을 좌우하는 중요한 요소 중 하나가 바로 최적화 알고리즘입니다. 이 알고리즘은 모델의 가중치와 편향을 조정하여 손실 함수(Loss Function)의 값을 최소화하도록 돕는 역할을 합니다. 데이터의 특성이나 학습 목표, 모델의 크기에 따라 선택하는 알고리즘이 달라질 수 있으므로, 최적화 알고리즘의 선택은 모델의 성능과 학습 효율성에 큰 영향을 미칩니다.


손실 함수(Loss Function)는 모델이 얼마나 틀렸는지를 측정해 주는 채점표입니다.


예를 들어, 신경망이 “이 사진은 고양이야”라고 예측했는데 실제로는 강아지였다면, 손실 함수는 “얼마나 틀렸는지” 점수를 매겨 알려줍니다. 손실 값이 클수록 예측이 많이 틀렸다는 의미이고, 손실 값이 작을수록 예측이 잘 맞았다는 의미입니다.


반면, 최적화 알고리즘(Optimizer)은 이 손실 값을 줄이기 위해 신경망 내부의 가중치와 편향을 어떻게 조정할지 구체적으로 실행해 주는 역할을 합니다. 즉, “틀린 이유가 무엇인지” 손실 함수가 알려주면, 최적화 알고리즘은 “그러면 어디를 얼마나 고치면 될지”를 계산해 내부 매개변수를 조금씩 조정해 나갑니다.


비유로 표현하면, 손실 함수는 시험을 보고 점수를 알려주는 채점표, 최적화 알고리즘은 점수를 올리기 위해 어떤 부분을 더 공부할지 알려주고 연습을 반복하도록 돕는 코치입니다.


이 과정을 반복하면서 손실 값이 점점 낮아지고, 신경망은 더 정확한 예측을 할 수 있게 됩니다. 즉, 손실 함수는 ‘얼마나 틀렸는지’를 측정, 최적화 알고리즘은 ‘어떻게 고칠지’를 실행하는 역할로 구분됩니다.


모델을 설계할 때 최적화 알고리즘을 선택하고 준비된 데이터를 학습하는 과정에서 사용된 최적화 알고리즘에 따라 가중치가 다르게 업데이트됩니다. 학습 후 성능 평가 결과에 따라 모델에 적합한 최적화 알고리즘으로 변경할 수도 있습니다. 본 글에서는 기본적인 최적화 알고리즘부터 최근 발전된 알고리즘까지 설명해 보고자 합니다.


기본 최적화 알고리즘


경사 하강법(Gradient Descent)


경사 하강법은 딥러닝에서 가장 기본적이고 오래된 학습 방법입니다. 모델이 예측을 한 뒤, 얼마나 틀렸는지(손실)를 계산하고, 이 틀림의 정도를 줄이기 위해 가중치와 편향을 조금씩 조정해 가는 방법입니다. 여기서 ‘경사’는 산을 내려가는 경사처럼 손실 값이 낮은 방향으로 조금씩 이동한다는 뜻입니다. 즉, 산꼭대기(손실이 큰 상태)에서 출발해 손실이 낮은 계곡을 찾아 내려가는 과정과 비슷합니다.


경사하강법은 구조가 간단하고 이해하기 쉽습니다. 그러나 계산할 때 전체 데이터를 모두 사용하므로 속도가 느리고, 산 아래로 내려가다가 작은 웅덩이(지역 최적값)에 빠져 더 낮은 계곡(더 나은 최적값)을 못 찾을 수 있습니다.


배치 경사 하강법(Batch Gradient Descent)


이 방법은 경사 하강법과 거의 같지만, ‘배치’라는 이름처럼 한 번의 학습마다 전체 데이터를 한꺼번에 사용해 평균 경사를 구해 업데이트합니다. 예를 들어, 모든 학생의 시험 점수를 평균 내어 공부 방향을 정하는 것과 같습니다.

안정적으로 학습이 진행되며, 수렴 속도가 빠릅니다. 그러나 매번 모든 데이터를 계산해야 하므로 속도가 느리고 메모리 사용량이 큽니다.


확률적 경사 하강법(Stochastic Gradient Descent, SGD)


SGD는 위의 두 방식의 단점을 보완한 방식입니다. 이 방법은 전체 데이터를 사용하지 않고, 한 번의 학습마다 한 개의 데이터(또는 작은 데이터 묶음)만 사용해 가중치를 업데이트합니다.


예를 들어, 모든 학생의 점수를 보고 공부 방향을 정하는 대신, 한 명의 학생의 점수를 보고 바로 공부 방향을 조정하는 것과 같습니다. 속도가 빠르고, 작은 웅덩이(지역 최적값)에 갇히지 않고 더 좋은 값으로 이동할 가능성이 높습니다. 그러나 너무 자주 방향을 바꿔서 최적값 주변을 왔다 갔다 하는 진동 현상이 일어나 수렴이 불안정할 수 있습니다. 진동현상은 최적값 주변을 큰 값으로 왔다갔다 하기 때문에 안정적으로 특정 값에 수렴하지 못하는 현상을 의미합니다.


개선된 최적화 알고리즘


모멘텀(Momentum)


모멘텀은 SGD의 단점을 보완하기 위해 고안된 개선된 최적화 알고리즘입니다. SGD는 데이터를 빠르게 업데이트해 속도는 빠르지만, 최적값 주변에서 왔다 갔다 하는 진동 현상 때문에 안정적으로 수렴하기 어렵습니다.


여기서 모멘텀은 “이전 방향을 기억해, 더 효율적이고 빠르게 이동”하도록 돕는 역할을 합니다. 예를 들어 자전거를 탈 때, 페달을 한 번 밟고 나면 관성 덕분에 앞으로 계속 나아가는 것과 비슷합니다. 페달을 밟은 힘(이전 기울기 방향)을 기억하고, 다음에 움직일 때 더 쉽게 앞으로 나아가는 것이 모멘텀의 원리입니다.


모멘텀 최적화 알고리즘은 다음과 같은 장점이 있습니다.

진동 현상 완화: 최적값 주변에서 왔다 갔다 하던 움직임을 줄여 더 안정적으로 수렴합니다.

속도 향상: 가야 하는 방향으로 계속 밀어주기 때문에 더 빠르게 최적값에 도달할 수 있습니다.

언덕을 넘도록 도움: 작은 지역 최적값에 갇히지 않고, 관성의 힘으로 더 좋은 최적값을 찾도록 돕습니다.


그렇지만 모멘텀의 크기가 너무 크면 최적값을 지나쳐 버리거나 불안정해질 수 있고, 너무 작으면 관성 효과가 약해져 속도가 느려집니다. 그래서 보통은 학습 초기에는 작은 모멘텀 값으로 시작해 모델이 안정적으로 학습하도록 돕고, 학습이 어느 정도 진행되면 모멘텀을 높여 빠르게 최적값에 도달하도록 조정합니다.


Adagrad (Adaptive Gradient Algorithm)


Adagrad는 “데이터의 특성과 매개변수의 사용 빈도”에 따라 학습 속도를 달리하는 똑똑한 알고리즘입니다. 딥러닝 모델에는 수많은 매개변수(가중치)가 있습니다. 그런데 어떤 매개변수는 학습 중 자주 업데이트되고, 어떤 것은 거의 사용되지 않는 경우도 많습니다.


Adagrad는 자주 업데이트되는 매개변수는 학습률을 점점 줄이고, 드물게 업데이트되는 매개변수는 학습률을 크게 유지합니다. 여기서 학습률(Learning Rate)은, “모델이 한 번 학습할 때 가중치를 얼마나 크게 또는 작게 업데이트할지를 결정하는 값”입니다. 딥러닝 모델은 “예측”을 잘하기 위해 가중치(Weight)를 계속 조정해 나갑니다. 이때 얼마나 크게 조정할지를 결정하는 것이 학습률입니다.


예를 들어 많이 등장하는 단어는 이미 모델이 잘 알고 있으니 작은 걸음으로 천천히 배우게 하고, 거의 등장하지 않는 희귀 단어는 빨리 학습하도록 큰 걸음으로 배우게 해 주는 것입니다. 이 방식 덕분에 Adagrad는 희소한 데이터 학습(드물게 등장하는 데이터 패턴 학습)에 매우 유리합니다.


그러나 단점도 있습니다. Adagrad는 학습을 거듭할수록 학습률이 점점 줄어들어 어느 순간 학습률이 너무 작아져 학습이 멈추는 현상이 발생할 수 있습니다. 즉, 오랫동안 학습이 필요한 복잡한 데이터셋이나 대규모 모델에서는 학습 속도가 너무 느려져 최적값을 찾기 어렵게 될 수 있습니다.


RMSProp (Root Mean Square Propagation)


RMSProp은 Adagrad의 단점을 보완한 개선된 최적화 알고리즘입니다. 앞서 Adagrad는 학습이 계속될수록 학습률이 너무 작아져 학습이 멈춰버리는 문제가 있었습니다. RMSProp은 이 문제를 해결하기 위해 최근 기울기에 더 큰 가중치를 두어 학습률을 조절합니다.


즉, 최근의 기울기 변화는 크게 반영하고, 오래된 기울기 정보는 작게 반영해 학습률을 조절합니다. 이렇게 하면 학습률이 너무 작아지지 않아 학습을 계속 진행할 수 있게 되고, 수렴 속도도 안정적이 됩니다.


Adagrad가 한 번 배운 것은 절대 잊지 않아 점점 조심스럽게 움직이다 멈춰버린다면, RMSProp은 최근 배운 것에 더 신경을 쓰면서도 과거의 정보는 점차 잊어가며 균형을 맞추어 걸어가는 학습자라고 할 수 있습니다.


RMSProp는 일정한 학습률을 유지하며 안정적이고 효율적으로 학습할 수 있습니다. 그러나 학습률과 관련된 하이퍼파라미터(학습률, 감쇠 계수 등)를 잘 설정해 주어야 하며, 적절한 값을 찾는 과정이 다소 복잡할 수 있습니다.


Adam (Adaptive Moment Estimation)


Adam은 모멘텀과 RMSProp의 장점을 결합한 최적화 알고리즘으로, 현재 딥러닝 분야에서 가장 널리 사용되고 있습니다. 빠르고 안정적인 학습이 가능하여 다양한 딥러닝 문제(텍스트 생성, 이미지 인식 등)에 잘 작동합니다. 초보자부터 전문가까지 대부분의 프로젝트에서 기본값처럼 사용되는 알고리즘입니다.


Adam은 두 가지를 동시에 처리합니다:

모멘텀: 기울기의 이동 방향을 기억해 다음 업데이트에 반영하여 속도를 높이고 진동을 줄입니다.

적응형 학습률: RMSProp처럼 매개변수별로 학습률을 조절하여, 효율적이고 안정적인 학습이 가능하게 합니다.


Adam은 길을 잃은 등산가가 최신 지도(GPS)와 과거 경로(발자국)를 함께 참고해 가장 빠르고 안전한 길을 찾아 정상에 오르는 것과 같습니다. GPS는 현재 방향(모멘텀)을 확인하고 발자국은 각 경로의 특성(적응형 학습률)을 확인합니다. 이를 통해 실수를 줄이고 빠르게 목표에 도달하게 도와줍니다.


Adam은 빠른 수렴 속도를 보여주며 다양한 데이터와 모델에 범용적으로 사용 가능합니다. 또한 하이퍼파라미터 튜닝에 덜 민감한 편리함이 있습니다. 다만 복잡한 손실 함수에서는 지역 최적값(Local Minima)에 머물 가능성이 있습니다. 또한 특정 상황에서 일반 SGD보다 최종 성능이 낮을 수 있어, 추가 점검이 필요할 때도 있습니다.


Nadam (Nesterov-accelerated Adaptive Moment Estimation)


Nadam은 Adam 알고리즘에 ‘Nesterov 모멘텀’을 결합한 개선형 최적화 알고리즘입니다. 일반 모멘텀은 현재 위치에서 기울기를 계산해 어느 방향으로 가야 할지 결정합니다. 그러나 Nesterov 모멘텀: 한 발짝 앞서서(예상 위치) 기울기를 계산해 더 정확한 방향으로 이동합니다. 즉, 미래를 미리 엿보고 가는 것이라 생각하시면 됩니다.

Adam이 빠른 자전거라면, Nadam은 빠른 자전거에 내비게이션(예측) 기능이 추가된 버전으로, 길을 미리 살펴보고 핸들을 돌리기 때문에 더 빠르고 안정적으로 목표(최적값)에 도달할 수 있습니다.


Nadam은 Adam보다 더 빠르고 안정적으로 학습이 수렴합니다. 복잡한 데이터에서도 효율적으로 작동합니다. 그러나 구조가 조금 더 복잡해지고, 연산 비용이 약간 증가합니다. 간단한 문제에서는 Adam과 큰 차이를 보이지 않을 수도 있습니다.


Nadam은 빠른 수렴과 안정성을 동시에 원할 때 유용한 선택지이며, 초보자가 Adam 사용에 익숙해진 후 시도해 보기 좋은 발전형 알고리즘입니다.


Adam vs Nadam

Nadam은 Adam의 성능을 개선한 알고리즘입니다. 그러면 현재 어떤 알고리즘이 더 범용적으로 사용되고 있을까요?

스크린샷 2025-06-28 오후 6.45.23.png


현재까지는 Adam이 압도적으로 범용적입니다. 대부분의 공식 튜토리얼·예제 코드가 Adam을 기본값으로 삼고, 연구 벤치마크에서도 “새로운 옵티마이저의 비교 대상”으로 채택되고 있습니다.


Nadam은 “Adam + Nesterov” 조합 덕분에 빠른 초기 수렴을 노릴 때 선택되지만, 프레임워크 기본값이 아니라는 점, 추가 하이퍼파라미터 튜닝 부담이 있다는 점 때문에 채택률이 낮습니다.


실무적 관점에서는 처음엔 Adam으로 시작해 학습 곡선을 확인합니다. 그리고 초반 수렴 속도가 너무 느리거나, 일정 구간 이후 발산한다면 Nadam(또는 AdamW)으로 스위치하여 비교해 보는 전략이 가장 흔히 쓰입니다.


LAMB (Layer-wise Adaptive Moments)


LAMB는 초대규모 언어 모델(BERT, GPT-3, PaLM 등)을 학습할 때 자주 쓰이는 옵티마이저입니다. ‘Adam의 장점 + 레이어별 학습률 스케일링’을 결합해, 수십억 개 파라미터와 수 만 단위 배치(batch) 크기에서도 안정적으로 학습이 진행되도록 고안되었습니다.


왜 ‘레이어별 학습률’이 필요할까요?


딥러닝 모델은 레이어마다 파라미터 벡터의 크기∙통계가 크게 다릅니다. 모든 레이어에 동일한 학습률을 주면, 어떤 레이어는 과하게(발산), 어떤 레이어는 턱없이 적게(학습 지연) 업데이트되는 불균형이 생깁니다. LAMB은 각 레이어의 L2 노름(‖w‖) 을 참고해 “큰 레이어는 조금 더 크게, 작은 레이어는 조금 더 작게” 학습률을 자동 조절합니다.


Adam처럼 1·2차 모멘텀( $m_t,;v_t$ )을 구해 적응형 기울기를 계산합니다. 그리고 그 값을 레이어별 파라미터 노름에 맞춰 스케일링합니다. 마지막으로 스케일된 업데이트 값을 적용해 가중치를 갱신하게 됩니다.


LAMB는 다음과 같은 장점이 있습니다.

초대규모 배치 학습(예: batch size 32 K 이상)에서도 손실이 튀지 않고 잘 수렴

동일 시간 기준, Adam / AdamW 대비 학습 단계수를 크게 줄일 수 있어 대규모 클러스터 비용 절감

파라미터 수가 급격히 다른 Transformer 계열 모델에서 레이어별 균형 잡힌 학습 가능


반면 아래와 같은 단점도 존재합니다.

내부에서 노름 계산이 한 번 더 들어가므로 메모리·연산이 소폭 증가

작은 모델·소규모 배치에서는 AdamW와 큰 차이를 보이지 않을 수 있음

하이퍼파라미터(전역 학습률, β₁·β₂, weight decay)를 여전히 세밀하게 조정해야 최적 효과


LAMB는 BERT·GPT류 사전학습(pre-training)을 수백 ~ 수천 GPU/TPU로 병렬 학습할 때 사용합니다. 동일 자원으로 학습 속도를 최대한 끌어올리고 싶은 초대규모 비전 · 멀티모달 모델들입니다.


즉 LAMB는 초대규모 모델(BERT, GPT-3 등)에 적합한 알고리즘으로, 각 레이어의 매개변수 벡터 크기를 고려하여 학습률을 조정합니다. 각 레이어마다 다른 학습률을 적용해 효율성을 높이며, 초대규모 언어 모델에서 성능을 향상시킵니다.


AdaBelief


AdaBelief는 Adam의 변형 알고리즘으로, 이름 그대로 ‘신념(Belief)’처럼 기울기의 변화를 더욱 신뢰성 있게 반영하여 학습의 안정성과 속도를 개선합니다.


Adam은 평균 기울기(1차 모멘텀) 과 평균 제곱 기울기(2차 모멘텀) 를 사용해 적응형 학습률을 계산합니다. 다만, 2차 모멘텀이 실제 기울기의 크기를 기준으로 학습률을 조절하기 때문에, 기울기 변화가 거의 없는 평탄한 구간에서도 불필요하게 학습률이 유지되어 최적값 근처에서 진동하거나 느리게 수렴하는 문제가 발생할 수 있습니다.


AdaBelief는 이 문제를 해결하기 위해 2차 모멘텀 계산 시 평균 기울기와 실제 기울기 간의 차이(불확실성)를 반영합니다.

기울기의 변화가 크면 → 불확실성이 크다고 판단 → 빠르게 학습하여 빠른 수렴을 유도

기울기의 변화가 작으면 → 불확실성이 적다고 판단 → 학습률을 줄여 안정성을 확보

하는 방식으로 학습률을 동적으로 조절합니다.


AdaBelief는 아래와 같은 장점이 있습니다.

Adam의 빠른 수렴 속도는 유지하면서도, 최적값 근처에서 안정적으로 학습

복잡한 손실 함수, 비정형 데이터 등에서도 안정적인 수렴 성능 발휘

일반적으로 Adam보다 더 나은 테스트 정확도와 일반화 성능을 보임


반면 아래의 단점이 존재합니다.

Adam과 비교해 연산량은 거의 동일하지만, 초기 하이퍼파라미터(학습률, β₁, β₂) 튜닝이 필요

특정 데이터셋·모델에서는 성능 차이가 크지 않을 수 있음


AdaBelief는 아래와 같은 환경에서 사용되고 있습니다.

Adam을 사용 중이지만 최적값 근처에서 진동하거나 수렴이 느린 문제가 발생할 때

빠른 학습과 안정성을 동시에 필요로 하는 중·대규모 모델 학습 시

다양한 태스크(분류, 회귀, NLP, 비전)에서 Adam보다 조금 더 높은 일반화 성능이 필요한 경우


Lion (EvoLved Sign Momentum)


Lion은 2023년 Google이 발표한 최신 딥러닝 최적화 알고리즘으로, 이름 그대로 EvoLved Sign Momentum의 약자입니다. 기존의 대표적 옵티마이저인 Adam, SGD는 기울기의 크기(값)와 방향(부호)를 모두 고려하여 가중치를 업데이트합니다. 반면, Lion은 기울기의 부호(+, -)만 사용해 업데이트 방향을 결정합니다.


이를 통해 얻을 수 있는 핵심 이점은 다음과 같습니다.

메모리 사용량 절감: 크기 정보를 사용하지 않기 때문에 파라미터 업데이트 시 필요한 메모리 용량이 감소합니다.

계산 속도 향상: 부호(+, -)만으로 업데이트 방향을 결정하여 연산이 간단해지고 속도가 빨라집니다.

효율적인 대규모 학습: GPT-3, GPT-4, PaLM, Gemini 등 초대규모 모델의 학습에서도 적은 리소스로 효율적인 업데이트가 가능해, 최신 초대규모 모델의 파인튜닝 및 재학습 환경에서 유리합니다.


Lion은 기울기의 부호에 따라 가중치 증가/감소 방향을 결정합니다. 모멘텀을 결합해 진동 현상을 최소화할 수 있고 간결한 구조 덕분에 하이퍼파라미터 튜닝 부담이 적습니다.


반면에 다음과 같은 단점이 존재합니다.

부호만 활용하기 때문에 특정 상황에서 미세한 최적값을 탐색하는 정밀도는 떨어질 수 있음

아직 Adam, LAMB처럼 범용적으로 사용되지는 않아 사례와 문서가 부족한 편


Lion은 GPU 메모리가 한정된 환경에서 대규모 모델 학습 시나 초대규모 언어 모델 파인튜닝 시 빠르고 효율적으로 학습할 때, 그리고 Adam, SGD 학습 속도가 느리거나 메모리 부족 문제가 있는 경우 대안으로 활용 가능합니다.


결론


최적화 알고리즘은 딥러닝 모델의 성능을 결정짓는 숨은 설계자와 같습니다. 데이터를 얼마나 잘 학습해 원하는 답을 뽑아낼 수 있느냐는, 어떤 최적화 알고리즘을 선택하고 어떻게 활용하느냐에 달려 있습니다.


일반적으로는 Adam 알고리즘이 가장 널리 사용됩니다. 속도와 안정성, 범용성 측면에서 균형이 잘 맞아 대부분의 모델 학습에 활용하기 좋습니다.


그러나 초대규모 언어모델(ChatGPT, Gemini, Claude, PaLM 등)과 같은 거대한 모델을 다룰 때는 Lion, LAMB과 같은 최신 알고리즘이 더욱 적합합니다. 특히 Lion은 간단하면서도 빠르고 메모리 효율이 뛰어나 대규모 모델을 빠르고 가볍게 학습시키는 데 유리합니다.


마치 ChatGPT가 자연스럽게 대화를 이어갈 수 있는 것은 수많은 데이터를 잘 배우고 기억하도록 이러한 최적화 알고리즘이 보이지 않는 곳에서 균형을 잡아주고 있기 때문입니다.


앞으로 ChatGPT나 생성형 AI를 이해하고자 할 때, ‘최적화 알고리즘이 어떤 역할을 하고 있으며 어떤 것이 쓰이는가?’를 함께 생각해 본다면, AI의 동작 원리를 한층 더 쉽게 이해할 수 있을 것입니다.


keyword
수, 토 연재
이전 06화급속하게 생성형 AI 서비스가 늘고 있는 이유는?