17. 딥러닝에서 파운데이션 모델로

4장 파운데이션 모델이 여는 로봇의 새로운 가능성

Nov 12. 2025

physicalai-멀티모달AI와-로봇-top2.png

파운데이션 모델은 본질적으로 '거대한 신경망(Neural Network)'으로, 대규모 데이터셋을 통해 학습된 AI 모델을 의미합니다. 이번에는 이런 '거대함'이 구체적으로 무엇을 뜻하는지, 그리고 왜 지금 다양한 산업에서 파운데이션 모델이 핵심 기술로 자리잡게 되었는지를 설명합니다.

⑴ 거대한 신경망

신경망(Neural Network)은 뇌의 뉴런 구조를 수학적으로 표현한 모델입니다. 입력층(Input Layer) → 은닉층(Hidden Layer) → 출력층(Output Layer) 구조로 이루어져 있으며, 각 노드는 가중치(weight)로 연결되어 있습니다.

입력데이터가 들어오면, 각 층을 거치며 비선형 함수를 통해 점점 더 복잡한 특징(feature)을 학습합니다. 이 과정을 순전파(Forward Propagation)라고 하며, 출력값과 실제 정답의 차이를 오차(손실, loss)로 계산합니다. 그 오차를 역으로 전파하여 가중치를 수정하는 과정을 역전파(Backpropagation)라고 부릅니다.

이 반복적인 계산을 통해 모델은 입력과 출력 간의 관계를 스스로 학습하게 됩니다. 즉, '신경망의 학습'이란, 입력값 x가 주어졌을 때, 출력값 y가 최대한 정답에 가까워지도록 내부의 연결 가중치 w를 계속 조정하는 과정입니다.

이러한 구조의 신경망 중, 입력층과 출력층 사이의 모든 노드가 서로 연결된 형태를 다층 퍼셉트론(MLP, Multi-Layer Perceptron)이라고 합니다. MLP는 구조가 단순하지만, 데이터 차원이 높아질수록 파라미터 수가 폭발적으로 증가합니다. 그래서 자동 미분(Automatic Differentiation)을 지원하는 프레임워크(PyTorch, TensorFlow, JAX 등)가 등장하며 복잡한 네트워크를 효율적으로 학습할 수 있게 되었습니다. 이것으로 인해 오늘날의 대형 딥러닝 모델이 현실화된 것입니다.

⑵ 합성곱 신경망 (CNN, Convolutional Neural Network)

기본 MLP 구조는 모든 뉴런이 서로 연결되기 때문에, 이미지나 음성처럼 공간적/지역적 특징이 중요한 데이터에는 비효율적입니다. 이 문제를 해결하기 위해 등장한 것이 합성곱 신경망(CNN)입니다.

CNN은 필터(커널, Kernel)라는 작은 창을 데이터 위에서 이동시키며 특징을 추출합니다. 이 과정에서 필터는 위치에 관계없이 같은 가중치를 공유(가중치공유, weight sharing)하므로 파라미터 수를 크게 줄일 수 있습니다.

예를 들어, 이미지의 일부만을 국소적으로 인식하더라도 "어디에 고양이가 있는지"보다는 "고양이가 포함되어 있는가"에 집중할 수 있습니다. 이런 구조 덕분에 CNN은 이미지 분류, 객체 탐지, 영상 분석 등 시각적 인식 분야에서 표준모델이 되었습니다.

⑶ 딥러닝의 문제와 ResNet의 등장

신경망을 깊게 쌓으면 복잡한 패턴을 학습할 수 있지만, 역전파 중 기울기(Gradient)가 사라지는 기울기 소실 문제(Vanishing Gradient Problem)가 발생합니다. 이 문제를 해결하기 위해 스킵 연결(Skip Connection) 또는 잔차 연결(Residual Connection) 구조가 제안되었습니다. 이는 한 층의 출력을 다음 층으로 바로 전달해, 기울기 정보가 사라지지 않게 하는 방식입니다.

이 구조를 채택한 대표 모델이 바로 ResNet(Residual Network)입니다.

ResNet은

합성곱층(Convolution Layer),

ReLU 활성화 함수,

스킵 연결(Skip Connection)

을 조합해 매우 깊은 네트어ㅜ크에서도 안정적인 학습을 가능하게 했습니다.

ResNet은 18층부터 152층까지 다양한 버전이 있으며, ImageNet 같은 대규모 이미지 데이터셋으로 학습된 가중치가 현재까지도 사전학습(pre-trained)모델로 폭넓게 사용됩니다.

⑷ CNN의 확장: 효율성과 실시간성

CNN 구조는 이후 다양한 응용으로 발전했습니다.

EfficientNet: 제한된 파라미터로 최대 성능을 내도록 설계된 모델

R-CNN/Fast R-CNN/Faster R-CNN/Mask R-CNN: 객체탐지(Object Detection)와 세그멘테이션(Segmentation)에 최적화된 계열 모델

YOLO(You Only Look Once), SSD(Single Shot MultiBox Detector): 실시간(Real-time) 객체 탐지를 위한 단일 패스 구조

특히 YOLO는 이미지 한장을 한번에 처리하며, 객체의 위치와 클래스 정보를 동시에 예측할 수 있을만큼 빠른 속도를 제공합니다.

⑸ 순환 신경망(RNN, Recurrent Neural Network)

시계열 데이터(시간에 따라 변화하는 데이터)를 다루는 대표적인 신경망 구조가 순환 신경망(RNN)입니다. 아래 그림처럼 RNN은 이전 시점의 중간층 값 ht−1과 현재 시점의 입력 xt를 함께 고려하여 출력 ot를 계산합니다. 즉, 과거의 정보를 기억하며 현재의 출력을 예측할 수 있는 구조입니다.

이런 구조 덕분에 RNN은,

센서에서 들어오는 연솓적인 신호,

시간에 따른 주기나 날씨 변화,

단어가 순서대로 이어지는 문장 데이터 등

연속성과 순서를 가진 데이터 처리에 효과적으로 사용됩니다.

- RNN의 구조와 한계

RNN은 시간 순서에 따라 같은 네트워크를 반복적으로 적용합니다. 하지만, 시계열이 길어질수록 학습과정에서 기울기 소실(Vanishiing Gradient)문제가 발생합니다. 즉, 초기에 입력된 정보가 점점 약해져 장기적인 문맥(의존성)을 유지하기 어려운 한계가 생깁니다.

이를 해결하기 위해 게이트(gate) 구조를 추가한 모델들이 나왔습니다.

- LSTM (Long Short-Term Memory)

LSTM은 입력게이트, 출력게이트, 망각게이트의 3가지 게이트를 통해 데이터의 흐름을 제어하고, 중요한 정보는 기억하며 불필요한 정보는 잊도록 설계된 모델입니다.

입력 게이트(Input Gate): 새로운 정보를 얼마나 반영할지 결정

망각 게이트(Forget Gate): 이정 정보를 얼마나 유지할지 조절

출력 게이트(Output Gate): 현재 상태를 얼마나 다음으로 전달할지 제어

이 구조 덕분에 LSTM은 문장 내의 긴 의존 관계를 학습할 수 있어 자연어 처리(NLP) 분야에서 오랫동안 주력 모델로 사용되었습니다.

- GRU (Gated Recurrent Unit)

GRU는 LSTM의 구조를 단순화한 형태입니다. LSTM의 메모리셀을 제거하고 입력 게이트와 망각 게이트를 하나의 리셋 게이트(Reset Gate)로 통합했습니다. 이로써 계산량을 줄이면서도 LSTM과 비슷한 수준의 기억능력을 유지할 수 있게 되었습니다. 즉, GRU는 LSTM의 효율적인 경량버전이라고 볼 수 있습니다.

- RNN에서 Seq2Seq 모델로

RNN은 단순히 시계열을 처리하는데 그치지 않고, 입력시퀀스를 다른 시퀀스로 변환하는 Sequence-to-Sequence(Seq2Seq)구조로 확장되었습니다. 이 구조는 인코더(Encoder)와 디코더(Decoder)로 구성됩니다.

인코더: 입력시퀀스를 받아 전체 의미를 압축한 특징 벡터(feature vector)로 변환

디코더: 이 특징 벡터를 기반으로 새로운 시퀀스를 생성

예를 들어,

영어 문장을 입력받아 한국어로 번역하는 기계번역 모델,

질문을 입력받아 답변을 생성하는 질의응답(QA) 모델

등이 모두 Seq2Seq구조를 활용한 예입니다.

- 어텐션 메커니즘 (Attention Mechanism)

단순한 Seq2Seq 구조에서는 인코더가 긴 입력 시퀀스를 하나의 고정된 벡터로 압축하기 대문에 입력길이가 길어질수록 정보 손실이 발생했습니다. 이를 해결하기 위해 어텐션 메커니즘(Attention Mechanism)이 도입되었습니다.

위 그림에서 디코더는 인코더의 각 시점별 은닉상태 h1,h2,…를 모두 참고하여 출력시점마다 어떤 입력 부분에 집중할지(가중치 at/2)를 학습합니다. 이렇게 계산된 컨텍스트 벡터(Context Vector)는 입력 전체를 요약한 벡터보다 훨씬 풍부한 정보를 담을 수 있습니다.

즉, 어텐션은 RNN기반 Seq2Seq 모델의 정보 손실 문제를 해결한 핵심 아이디어입니다.

⑹ Transformer

Transformer는 2017년 구글 연구진이 발표한 아키텍처로 RNN을 쓰지 않고 어텐션(Attention)만으로 인코더-디코더를 구성합니다. 논문 제목 그대로 "Attention Is All You Need" 핵심은 "입력의 어떤 부분에 집중할지"를 학습으로 결정해 긴 문맥도 병렬로 처리한다는 점입니다.

구조

인코더(Encoder): 토큰 → 임베딩 → 셀프 어텐션 → 피드포워드(FFN) 블록을 여러 번 반복해 특징을 만듭니다.

디코더(Decoder): 토큰 → 임베딩 → 마스크드 셀프 어텐션 → 크로스 어텐션(인코더 출력에 주의) → FFN을 반복해 다음 토큰 분포를 예측합니다.

CNN/RNN 없음: 전부 어텐션 + FFN으로만 구성합니다.

- 어텐션의 계산

입력특징 X에 3개의 가중치 행렬을 곱해 쿼리(Q), 키(K), 밸류(V)를 만듭니다.

그다음 스케일드 닷-프로덕트 어텐션으로 가중합을 구합니다. (여기서 dk는 키/쿼리 차원)

소프트맥스는 각 항의 확률을 정규화합니다.

- 멀티헤드 어텐션 (Multi-Head)

한 세트의 Q/K/V만 쓰지 않고, 여러 헤드를 병렬로 계산해 서로 다른 관점(문법, 위치, 의미 등)에서 정보를 잡아냅니다. 각 헤드 출력을 이어 붙여(concat) 선형 변환으로 합칩니다.

→ 표현력↑, 긴 문장·다중 의미에 강함.

- 셀프 vs 크로스 어텐션

셀프 어텐션(Self-Attention): 같은 시퀀스 내부에서 Q-K-V를 만들어 "자기 자신에게 집중"합니다. 인코더/디코더 둘다 사용합니다.

크로스 어텐션(Cross-Attention): 디코더가 쿼리 = 디코더 상태, 키/밸류 = 인코더 출력으로 만들어 입력 문장에 집중합니다.

- 마스킹(Masked Attention)

디코더 학습 시 미래 토큰을 보지 않도록 어텐션 마스크를 적용합니다.

학습(teacher forcing): 정답 시퀀스를 한꺼번에 넣되, 미래 정보가 보이지 않게 마스킹합니다.

추론: 토큰을 하나 생성할 때마다 다음 입력으로 넣은 오토리그레시브 방식(N번 생성)입니다.

- 인코더/디코더 변형과 한국개발환경에서의 용도

인코더 전용 (BERT 계열): 문장 이해, 분류, 검색 랭킹, 질의 임베딩

디코더 전용 (GPT 계열): 생성(텍스트/코드/대화), 에이전트 플래닝

인코더-디코더(T5/Tranx등): 입력 → 출력 변환(요약, 번역, 구조화), 로봇 명령 언어화 → 행동계획 같은 태스크에 적합

- 왜 Transformer가 표준이 되었나?

병렬 처리: RNN처럼 순차 계산에 묶이지 않아 GPU 효율 최상

긴 문맥 처리: 어텐션이 전 구간 의존성을 직접 학습

스케일에 강함: 데이터/모델을 키울수록 성능이 꾸준히 증가(Scaling Law)

모달리티 확장 용이: 텍스트 외에 이미지, 오디오 포인트클라우드까지 Q/K/V 스킴으로 통합 가능 → 로봇 멀티모달 파이프라인에 착붙임

- 로봇/서비스에 적용팁

명령어 → 행동 시퀀스: 디코더형 LLM으로 언어명령을 고수준 계획으로 변환, 이후 제어 스택으로 디코딩

비전-언어 통합: 인코더(비전) + 디코더(언어/행동)로 장면이해 → 조작 지시 연결

온디바이스 요약 헤드: 긴 로그/센서 스트림을 로컬 임베딩 후, 서버 모델과 크로스 어텐션으로 결합해 비용 및 지연을 절감

Transformer는 어텐션만으로 문맥을 모델링하고, 이를 멀티헤드/마스킹/인코더/디코더 조합으로 확장해 병렬성/표현력/스케일링을 모두 잡았습니다. 텍스트 생성은 물론 언어-비전-행동까지 이어지는 로봇/서비스 아키텍처의 기본 블록으로 채택하기 좋습니다.

⑺ Transformer 기반 모델

Transformer 구조는 이후 수많은 응용 모델의 토대가 되었습니다. 여기서는 그 중 대표적인 4가지 형태 GPT, BERT, T5, ViT/MAE를 중심으로 살펴봅니다.

① 디코더 기반 LLM: GPT

GPT(Generative Pre-trained Transformer)는 Transformer의 디코더 구조만 사용하는 대규모 언어 모델입니다. 2018년 OpenAI에서 처음 공개되었고, "다음 토큰 예측(Next Token Prediction)"방식으로 학습됩니다. 모델은 어텐션 마스크(Attention Mask)를 적용해 미래 단어를 보지 않고 현재 단어를 예측합니다.

발전 흐름을 보면,

2019년 GPT-2: 대규모 파라미터 확장

2020년 GPT-3: 수십억 단어 수준의 학습으로 범용 언어 모델로 진화

2022년 ChatGPT: 대화형 튜닝(RLHF)을 통한 자연스러운 대화

2023년 GPT-4: 멀티모달 입력(이미지, 텍스트)지원 및 논리/추론 능력 강화

2025년 GPT-5: 추론모델과 멀티모달 모델 합쳐진 하이브리드모델

현재 GPT계열은 언어 생성뿐만 아니라, 코드 작성, 문서 요약, 로봇 행동 계획등 다양한 영역의 파운데이션 모델로 자리잡고 있습니다.

② 인코더 기반 LLM: BERT

BERT(Bidirectional Encoder Representations from Transformers)는 2018년 Google이 발표한 인코더 중심의 언어모델입니다.

GPT가 한방향(왼쪽 → 오른쪽)으로 예측하는 반면, BERT는 문장 내 앞뒤 단어를 모두 고려해 양방향 문맥을 학습합니다.

BERT 학습 방식은

입력 문장 내 일부 단어를 마스킹(Masking)

나머지 문맥으로 가려진 단어를 예측(Masked Language Model, MLM)

하는 구조입니다.

이 덕분에 BERT는 문장이해, 감정분석, 개체 인식등 언어이해(NLU)분야에서 강점을 보였습니다. 다만 문장 쌍 비교에는 계산비요이 커서, 이를 개선한 Sentence-BERT는 각 문장을 독립적으로 벡터화해 유사도 계산과 의미검색을 빠르게 수행할 수 있게 했습니다.

③ 인코더/디코더형 LLM: T5

T5(Text-to-Text Transfer Transformer)는 모든 언어 문제를 텍스트입력→텍스트출력으로 통합한 모델입니다. 즉 번역/요약/질의응답 등 모든 과제를 하나의 "입력→출력"구조로 처리합니다.

학습과정에서는 연속된 여러 토큰(스팬, span)을 마스킹하고 디코더가 그 부분을 복원하도록 학습합니다. 이로써 언어생성과 이해를 동시에 수행할 수 있는 범용모델이 탄생했습니다.

T5는 이후 로봇 명령어 해석, 멀티모달 입력 텍스트화등 입력-출력 구조 변환이 필요한 작업에 자주 활용됩니다.

④ 비전 트랜스포머(Vision Transformer, ViT)

Transformer의 개념은 텍스트를 넘어 이미지로 확장되었습니다. Vision Transformer(ViT)는 2020년 Google이 발표한 모델로 이미지를 고정 크기의 패치(Patch)로 나누고 각 패치를 텍스트의 토큰처럼 처리합니다.

각 패치는 벡터로 변환되어 위치 임베딩(Position Embedding)과 함께 Transformer 인코더에 입력됩니다. 이후 출력된 특징 벡터를 통해 이미지 분류(Classification)를 수행합니다. 즉, ViT는 "이미지를 문장처럼 읽는 모델"이라 할 수 있습니다.