brunch

대형 언어 모델이 스스로 똑똑해지는 법

SEAL 프레임워크의 매력적인 이야기

by 미미니

당신의 스마트폰이 새로운 앱을 설치할 때마다 스스로 사용법을 익히고, 심지어 더 효율적으로 동작하도록 자신을 업그레이드한다면? 이제 대형 언어 모델(LLM)이 바로 그런 능력을 갖추기 시작했어요! MIT 연구진이 발표한 논문 Self-Adapting Language Models​​​에서 소개된 SEAL(Self-Adapting LLMs) 프레임워크는 언어 모델이 스스로 데이터를 만들고, 학습 방식을 조정하며, 더 똑똑해지는 방법을 제안합니다. 이 글에서는 SEAL의 매력을 풀어보며, 왜 이 기술이 AI의 미래를 바꿀 수 있는지 알려드릴게요.


SEAL: 언어 모델의 ‘셀프 공부법’


SEAL은 언어 모델이 마치 똑똑한 학생처럼 행동하도록 만드는 기술이에요. 학생이 시험을 준비할 때 교과서 내용을 그대로 외우는 대신, 자신만의 노트를 만들어 핵심을 정리하고, 문제를 풀어보며 공부법을 최적화하잖아요? SEAL도 비슷해요. 이 프레임워크는 모델이 새로운 정보(예: 새로운 사실이나 과제)를 받으면, 그 정보를 자가 편집(self-edit)이라는 형태로 재구성해요. 이 자가 편집은 모델이 학습할 데이터를 생성하거나, 학습 방법(예: 학습률, 훈련 횟수)을 지정하는 지침이에요. 그리고 이 과정을 강화 학습(Reinforcement Learning, RL)으로 최적화해서 모델이 더 나은 성과를 내도록 돕죠.

쉽게 말해, SEAL은 언어 모델이 스스로 “어떻게 공부하면 더 잘할까?“를 고민하고, 자신에게 맞는 학습 전략을 짜는 능력을 부여해요. 마치 AI가 자신의 ‘공기놀이 공부법’을 개발하는 셈이죠!


SEAL의 두 가지 놀라운 능력

SEAL은 두 가지 주요 도메인에서 그 빛을 발해요: 지식 통합(Knowledge Incorporation)과 퓨샷 학습(Few-Shot Learning)이에요. 각각이 어떤 의미인지, 그리고 왜 멋진지 살펴볼게요.


1. 지식 통합: 새로운 사실을 내 머릿속에!

언어 모델이 새로운 정보를 배워야 해요. 예를 들어, “지구 온난화에 관한 최신 기사”를 읽고 그 내용을 기억해야 한다면? SEAL은 기사 내용을 그냥 외우는 대신, 그 내용을 바탕으로 논리적 함의(implications)나 질의응답(QA) 형태로 데이터를 재구성해요. 예를 들어, 기사에 “지구 온난화로 빙하가 녹고 있다”는 문장이 있다면, SEAL은 “빙하가 녹는 원인은 무엇인가? 지구 온난화” 같은 질문을 만들어내죠. 이 데이터를 사용해 모델의 가중치를 미세 조정(SFT)하면, 모델이 문맥 없이도 질문에 답할 수 있게 돼요.

SQuAD 데이터셋에서 SEAL은 문맥 없이 질문에 답하는 정확도를 33.5%에서 47.0%로 끌어올렸어요. 심지어 GPT-4.1이 만든 합성 데이터(46.3%) 보다 더 나은 성과를 냈죠! 이건 작은 모델이 거대 모델을 이긴 쾌거예요.


2. 퓨샷 학습: 적은 예제로도 척척!

ARC-AGI라는 벤치마크는 모델이 몇 개의 예제만 보고 새로운 패턴을 학습해야 하는 어려운 과제예요. 예를 들어, 그림 퍼즐 몇 개를 보고 규칙을 찾아내는 식이죠. SEAL은 주어진 예제를 바탕으로 데이터 증강(예: 그림 회전, 크기 조정)과 최적화 설정(학습률, 훈련 횟수)을 스스로 선택해요. 이 과정은 마치 학생이 “이 문제는 그림을 뒤집어보면 쉽게 풀리겠네!“라고 깨닫는 것과 비슷해요.

SEAL은 ARC 과제에서 성공률을 0%(기본 In-Context Learning)와 20%(RL 없는 자가 편집)에서 72.5%로 대폭 향상했어요. 완벽한 인간 설정(100%)에는 미치지 못했지만, 이건 AI가 스스로 학습 전략을 짜는 데 성공했다는 멋진 증거죠.


SEAL의 비밀 무기: 강화 학습


SEAL의 핵심은 강화 학습이에요. 모델은 자가 편집을 생성한 뒤, 그 편집으로 학습한 결과가 얼마나 좋은지(보상)를 평가받아요. 이 보상은 모델이 하위 작업(예: 질문 답변 정확도)에서 얼마나 잘했는지로 결정되죠. 강화 학습은 모델이 더 나은 자가 편집을 만들도록 정책을 점차 개선해요. 논문에서는 ReST-EM이라는 간단한 RL 방법을 사용했는데, 이는 좋은 자가 편집만 골라서 학습하는 방식이에요. 이 과정은 마치 학생이 시험에서 틀린 문제를 분석하고 공부법을 개선하는 것과 비슷하죠.


왜 SEAL이 멋질까?


1. 스스로 생각하는 AI: SEAL은 모델이 단순히 주어진 데이터를 받아들이는 대신, 데이터를 재구성하고 학습 전략을 설계하도록 해요. 이건 AI가 더 주체적으로 사고하는 첫걸음이에요.

2. 효율성: SEAL은 LoRA(저랭크 어댑터)를 사용해 가볍게 가중치를 업데이트하므로, 거대한 모델을 통째로 재학습시키는 것보다 훨씬 효율적이에요.

3. 확장 가능성: 논문은 데이터 벽(data wall)이 다가오고 있다고 언급해요. 곧 인간이 만든 텍스트가 고갈될 2028년쯤, SEAL 같은 기술은 모델이 스스로 데이터를 생성해 학습을 이어가게 할 거예요.


한계: 아직 갈 길이 멀다!


SEAL은 멋지지만, 몇 가지 도전 과제가 있어요:

치명적 망각: 새로운 정보를 배우다 보면 이전 지식을 잊어버리는 문제가 발생해요. 예를 들어, 새로운 기사를 학습한 후 이전 기사 내용을 잊을 수 있죠. 이를 해결하려면 기억 유지 전략이 필요해요.

계산 비용: 자가 편집을 평가하는 데 시간이 꽤 걸려요(30~45초). 이건 마치 학생이 공부법을 테스트할 때마다 시험을 다시 치르는 것과 비슷해요.

문맥 의존성: 현재는 명시적인 질문-답변 쌍이 있어야 RL이 가능해요. 하지만 미래에는 모델이 스스로 평가 질문을 만들어낼 수 있다면 더 많은 데이터에 적용할 수 있을 거예요.

그러나, 미래에는 SEAL이 지속적 학습(continual learning)이나 에이전트 시스템(agentic systems)에 적용될 수 있어요. 예를 들어, AI가 학술 논문을 읽고 스스로 요약, 질문을 만들고, 그걸 학습해 더 똑똑해질 수 있죠. 혹은 환경과 상호작용하며 실시간으로 자신을 개선하는 AI도 가능할 거예요!


마무리: AI의 셀프 업그레이드 시대


SEAL은 언어 모델이 정적인 도구에서 벗어나, 스스로 배우고 성장하는 존재로 나아가게 하는 첫걸음이에요. 이 기술은 마치 AI에게 “너만의 공부법을 찾아봐!“라고 말하는 것과 같아요. 연구진은 SEAL이 데이터가 부족한 세상에서 AI의 성장을 이어가게 할 잠재력을 가지고 있다고 믿어요. 앞으로 SEAL이 어떻게 발전할지, 그리고 우리 삶에 어떤 변화를 가져올지 기대되지 않나요?

keyword
매거진의 이전글AI가 '악당'이 되는 순간: 오정렬 현상