18. 파운데이션 모델의 특징

4장 파운데이션 모델이 여는 로봇의 새로운 가능성

Nov 13. 2025

physicalai-멀티모달AI와-로봇-top2.png

파운데이션 모델이라는 용어는 2021년 미국 스탠퍼드 대학의 화이트페이퍼 "On the Opportunities and Risks of Foundation Models"에서 처음 제안된 뒤, 오늘날 인공지능 연구의 핵심 개념으로 자리잡았습니다.

파운데이션 모델은 대규모 데이터로 학습된 범용 모델로 하나의 모델을 다양한 하위 작업에 재활용할 수 있다는 점에서 기존의 머신러닝 모델과 구분됩니다.

대표적인 특징은 3가지입니다.

1. 하나의 모델로 폭넓은 작업 수행 가능

2. 연산/데이터/모델 규모 간의 스케일링 법칙 존재

3. 텍스트 외의 멀티모달 데이터(이미지/음성/센서 등)에도 적용 가능

⑴ 하나의 모델로 폭넓은 작업 수행

LLM(대규모 언어 모델)을 비롯한 파운데이션 모델의 활용 구조는 크게 두 단계로 나뉩니다.

1. 사전학습 (Pretraining)

2. 적응학습 (Adaptation)

1. 사전학습 (Pretraining)

인터넷, 위키, 논문, 이미지, 코드 등 대규모 데이터에 이용해 "다음 단어 예측"이나 "마스크 복원" 같은 자기지도학습(Self-Supervised Learning)으로 학습합니다. 즉, 사람이 직접 라벨을 달지 않아도 데이터 자체로부터 의미 표현(feature representation)을 학습하는 구조입니다.

이 과정을 거치면 모델은 언어나 이미지의 일반적 패턴과 개념을 습득하게 되고, 이를 기반으로 새로운 작업에도 손쉽게 확장할 수 있습니다.

2. 적응학습 (Adaptation)

사전학습된 모델은 바로 실무에 쓰기엔 너무 크거나 일반적이기 때문에 특정 작업이나 데이터셋에 맞게 조정하는 과정이 필요합니다. 이 과정을 미세조정(Fine-tuning)이라고 합니다. 다만, 모델이 대규모화될수록 모든 파라미터를 재학습하기엔 계산비용이 매우 크므로 최근에는 효율적인 미세조정 기법들이 널리 사용됩니다.

LoRA (Low-Rank Adaptation): 기존 모델의 파라미터를 그대로 두고, 각 층에 작은 조정용 파라미터만 추가하여 빠르고 가벼운 재학습을 수행합니다. (즉, 전체를 바꾸지않고 조정 레이어만 살짝 수정하는 방식)

이런 접근은 한국에서도 경량 모델 구축이나 사내 데이터 보안 환경에서 자주 사용되고 있습니다.

3. 프롬프트 기반 적응 (Prompt-based Adaptation)

파운데이션 모델에서는 파라미터를 바꾸지 않고 입력방식만 바꿔서 행동을 유도할 수도 있습니다. 이를 프롬프트 엔지니어링(Prompt Engineering)이라고 합니다.

예를 들어,

CLIP같은 비전-언어 모델은 단순히 "사과"라고 입력하는 것보다 "A photo of an apple"처럼 문맥을 추가하면 정확도가 올라갑니다.

언어 모델에서는 "Let's think step by step(한단계씩 생각해 보자)"라는 프롬프트를 사용하면 모델이 논리적인 추론 과정을 스스로 전개합니다. 이를 CoT(Chain-of-Thought)방식이라고 합니다.

이처럼 프롬프트를 설계하는 방식만으로 모델이 새로운 문제를 "생각"하고 해결하는 방식을 달리할 수 있습니다. 또한, 여러 입력 예시를 함께 제시하여 모델이 문맥 속에서 학습하도록 하는 문맥 내 학습(In-Context Learning)기법도 있습니다.

4. 통합적 관점

이제는 작업마다 모델을 새로 만드는 시대가 아닙니다. 파운데이션 모델은 한 번의 대규모 사전학습으로 공통 기반을 형성하고, 그 위에 프롬프트, LoRA, CoT등 다양한 적응기법을 얹는 구조로 진화했습니다.

즉,

"데이터별 맞춤 모델"에서 "모델 하나로 모든 작업"으로 전환된 것이 파운데이션 모델 시대의 가장 큰 변화입니다.

파운데이션 모델은 이제 '훈련된 도구'가 아니라 '적응 가능한 기반'이 되었으며, 이는 로봇, 언어, 시각, 음성 등 모든 AI응용의 중심 패러다임으로 자리잡고 있습니다.

⑵ 계산량/데이터/모델의 스케일링 법칙

파운데이션 모델의 두번째 핵심 특징은 스케일링 법칙(Scaling Law)입니다. 즉, 모델의 계산량(Compute), 데이터 크기(Dataset Size), 모델 파라미터 수(Parameters)가 일정한 비율로 함께 증가할 때, 성능이 예측 가능한 형태로 향상된다는 원리입니다.

- 스케일링 법칙이란

2020년 OpenAI의 논문 "Scaling Laws for Neural Language Models"에서는 언어 모델의 테스트 손실(Test Loss)을 세로축에 계산량, 데이터 크기, 모델 크기를 가로축에 두고 분석했습니다.

그 결과,

모델의 규모를 늘릴수록 손실이 거의 직선적으로 감소한다는 사실이 확인되었습니다.

이 말은 곧, 단순히 모델을 '크게 만들면 좋아진다'가 아니라, 성능 향상과 리소스 증가 간의 관계가 수학적 패턴을 따른다는 의미입니다.

- 세 가지 축의 상화 관계

이 세 요소는 독립적이지 않습니다. 모델을 크게 해도 데이터가 부족하면 과적합(overfitting)이 발생하고, 데이터가 충분해도 계산자원이 부족하면 학습이 제한됩니다.

즉, "계산량 - 데이터 - 모델 규모"의 군형이 최적 성능의 핵심입니다.

- 시각적 해석

논문 그래프에 따르면, 각 요소의 로그 스케일(log scale)에서 손실(loss)은 거의 직선 형태로 감소합니다.

왼쪽 그래프: 계산량(Compute) 증가 → 손실 구준히 감소

가운데 그래프: 데이터셋 크기 증가 → 모델의 일반화 성능 향상

오른쪽 그래프: 파라미터 수 증가 → 모델 복잡도 향상

이 세 그래프는 "규모를 키우면 성능이 오른다"는 단순 명제가 아닌, 확장(scale-up)이 예측 가능한 수익률을 가진 투자행위임을 보여줍니다.

스케일링 법칙은 글로벌 AI기업만의 이론이 아닙니다. 한국에서도 모델 효율을 극대화하기 위해 다음 전략들이 병행되고 있습니다.

LoRA/Quantization으로 파라미터 효율 개선

고품질 한국어 데이터셋(KoAlpaca, Polyglot, Modu Corpus emd)

GPU 클라스터 최적화로 계산 효율 향상

즉, 단순히 '큰 모델'을 만드는 것이 아니라, 동일한 리소스 안에서 최대 성능을 끌어내는 균형적 확장 전략이 중요합니다.

스케일링 법칙은 모델의 크기와 데이터, 계산량이 함께 커질 때 성능이 일정한 패턴으로 향상된다는 경험적/수학적 법칙입니다.

이 법칙은 오늘날 AI발전의 근간으로 "얼마나 크기"보다 "어떻게 효율적으로" 확장하느냐가 파운데이션 모델 시대의 진짜 경쟁력이라고 할 수 있습니다.

⑶ 텍스트 데이터에만 국한되지 않는 응용방법

Transformer 이전에는 데이터 형태에 따라 서로 다른 모델 구조를 써야 했습니다.

MLP → 일반 수치 데이터

CNN → 이미지나 영상

RNN → 시계열, 음성, 언어

즉, 데이터 종류마다 네트워크를 따로 설계해야 합니다.

- Transformer의 등장: 모델의 통합

Transformer는 이런 구분을 사실상 무너뜨렸습니다. 언어처리에서 출발했지만, 구조 자체가 특정 데이터 형태에 종속되지 않기 때문입니다.

입력을 시퀀스(Sequence)로만 정의하면, 텍스트/이미지/음성/센서 데이터 등 어떤 모달리티든 동일한 방식으로 다룰 수 있습니다. 이로써 AI 모델은 "데이터별 전용 모델"에서 "하나의 범용구조"로 이동하게 되었습니다. 이 현상을 모델의 균질화(Homogenization)라고 부릅니다.

- 멀티모달 모델의 확산

균질화된 구조 덕분에, 서로 다른 형태의 데이터를 결합한 멀티모달(multimodal) 모델이 폭발적으로 등장했습니다.

이제 하나의 Transformer 구조 위에서 텍스트 명령을 해석하고, 이미지를 분석하며, 심지어 로봇의 행동까지 제어할 수 있습니다.

- 의미하는 변화

Transformer의 등장은 단순한 성능 향상이 아니라, AI모델 설계 패러다임 자체의 전환이었습니다.

"데이터마다 모델을 따로 만든다" → "모든 데이터를 하나의 구조로 다룬다"

이로써, 언어 모델이 이미지 설명을 생성하거나 로봇이 언어명령을 이해하는 일도 자연스러워졌습니다.

Transformer는 언어 전용 모델이 아닌 범용 구조를 제시했습니다. 이로 인해 모달리티 간 경계가 사라졌고, 텍스트, 이미지, 음성, 센서 데이터를 하나의 모델로 통합할 수 있게 되었습니다. 결과적으로 기반 모델의 응용범위는 "언어 → 멀티모달 → 실제 세계"로 확장되었습니다.