손실 곡선 뒤에서 '조용히' 지혜를 쌓는 AI의 학습

내부능력은 밖으로 보이지 않아도 차곡차곡, 조용한 특징 학습

Dec 14. 2025

대규모 언어 모델(LLM)의 신비로운 능력, 특히 학습 과정에서 발생하는 ‘깨달음의 순간’에 대한 깊이 있는 분석을 다시 한번 들고 찾아왔습니다.

UC 샌디에이고 연구팀의 실험결과인 “Quiet Feature Learning in Algorithmic Tasks”는 AI 학습에 대한 우리의 고정관념을 완전히 깨트렸습니다. 핵심은 바로 조용한 특징 학습(Quiet Feature Learning)이라는 개념입니다.

이번 글에서는 이 핵심 개념이 구체적으로 무엇을 의미하며, 연구팀이 어떤 결정적인 증거를 찾아냈는지 예시와 함께 살펴보겠습니다.

손실이 평평할 때도, 모델은 ‘필수 부품’을 조립 중

연구팀의 실험 결과, 트랜스포머 모델을 알고리즘 문제로 훈련할 때 손실 곡선은 오랫동안 바닥에 머무는 느린 단계를 거친 후, 임계점에서 갑자기 손실이 폭락하는 빠른 단계로 진입했습니다.

여기서 가장 중요한 발견은 이 느린 단계, 즉 손실이 거의 떨어지지 않고 평평한 구간에도 모델의 내부에서는 이미 문제 해결에 필수적인 중요한 계산들을 착실히 배우고 있었다는 점입니다. 이것이 바로 우리가 “조용히 배운다”라고 부르는 현상입니다.

손실 곡선으로는 진전이 없어 보였지만, 모델은 내부적으로 핵심 로직을 구성하고 있었던 것입니다.

예시: 이진 덧셈과 ‘올림 비트(Carry Bit)’

연구팀이 제시한 가장 명쾌한 예시는 이진 덧셈 문제입니다. 두 개의 n비트 이진수 (예: 1011 + 1101)로 인간이 덧셈을 하듯, 모델은 오른쪽 비트부터 순차적으로 더하면서 올림비트를 정확하게 계산하여 다음 비트에 전달해야만 최종 정답을 맞힐 수 있습니다. 올림 비트 하나라도 틀리면 전체 결과가 오답이 됩니다.

연구팀은 훈련 중 손실이 거의 떨어지지 않는 느린 단계에서, 선형 프로브(Linear Probe)라는 분석 도구를 사용하여 모델의 내부 표현을 테스트했습니다. 목표는 “이 모델이 지금 올림 비트를 제대로 계산하고 나타내고 있나?”를 확인하는 것이었습니다.

손실이 바닥을 기고 있을 때도, 모델은 이미 올림 비트를 정확하게 인코딩하는 내부 표현을 형성하고 있었습니다. 이것이 바로 '조용한 특징(Quiet Feature)'입니다.

왜 손실은 떨어지지 않았을까요?

이 조용히 학습된 캐리 계산 능력이 아직 완벽하게 '연결'되거나 '정렬'되지 않았기 때문입니다. 일부 비트의 올림 계산은 맞았을지 몰라도, 모든 비트의 올림 계산이 유기적으로 연결되어 완벽한 정답을 도출하기에는 아직 부족했습니다. 하나라도 틀리면 오답이므로, 전체 출력 손실에는 큰 변화가 없었던 것입니다.

그러다가 훈련이 진행되어 이 조용히 배운 올림 계산들이 서로 완벽하게 연결되는 임계점에 도달하면, 갑자기 모든 비트가 맞아떨어지면서 손실이 급격히 폭락하는 빠른 단계가 나타나게 되는 것입니다.

인과적으로 필수적이었던 '조용한 학습'

이 특징들이 단순히 우연히 나타난 것이 아니라 문제 해결에 인과적으로 필수적이었음은 다음과 같은 실험으로 증명되었습니다.

연구팀은 이 조용히 형성된 특징을 모델에서 인위적으로 지워버리는 실험을 진행했습니다. 그 결과, 이후 아무리 훈련을 계속해도 모델의 성능은 크게 망가졌습니다. 즉, 손실 곡선에는 보이지 않았던 이 '조용한 특징'이 없으면 결국 문제를 풀 수 없었다는 명확한 증거가 확보된 것입니다.

이것이 바로 이 특징을 "조용하지만, 인과적으로 필수적인(Causally Essential)" 특징이라고 부르는 이유입니다.

다른 알고리즘 문제에서도 동일하게 관찰!

이러한 현상은 다른 복잡한 알고리즘 문제에서도 동일하게 나타났습니다.

• 너비 우선 탐색(BFS): 모델은 이미 큐(Queue)에 어떤 정점이 들어 있는지를 알 수 있는 내부 표현을 가지고 있었지만, 아직 전체 탐색 순서를 완벽하게 출력하지는 못했습니다.

• 최대 연속 부분합: 카데인(Kadane) 알고리즘의 핵심 중간 변수인 max_ending_here 값을 이미 내부적으로 계산하고 있었지만, 최종 최대값을 도출하는 부분에서 오류가 있어 손실은 평평했습니다.

마무리: 손실을 넘어 내부를 들여다봐야

이 연구는 AI 훈련에 있어 매우 중요한 교훈을 남겼습니다.

1. 섣부른 조기 종료는 금물: 손실 곡선이 평평하다고 해서 모델이 학습을 멈췄다고 착각하고 훈련을 일찍 중단해서는 안 됩니다. 그 안에서 모델은 '깨달음'의 순간을 준비하며 핵심 로직을 조립하고 있을 수 있습니다.

2. 새로운 진척 지표의 필요성: 단순한 손실 값 외에, 선형 프로빙(Linear Probing)과 같은 도구를 활용하여 모델 내부의 중간 특징이나 계산 회로가 제대로 형성되고 있는지를 모니터링해야 합니다.

결국 이 논문은, 트랜스포머 모델이 바보처럼 보이는 동안에도 알고리즘의 핵심 원리를 하나하나 내재화하고 있다가, 모든 퍼즐 조각이 딱 맞는 순간에 홀연히 문제를 풀어낸다는 사실을 과학적으로 입증했습니다.

keyword

미미니 직업 회사원

지식 공유가 즐거운 내향형 인간

팔로워 80

매거진의 이전글현업에서 굴리는 AI 에이전트의 진짜 모습 AI 에이전트도 '거거익선'일까?매거진의 다음글