20. 다양한 파운데이션 모델

4장 파운데이션 모델이 여는 로봇의 새로운 가능성

Nov 13. 2025

roll φ, pitch θ, yaw ψ

지금까지는 파운데이션 모델(Foundation Model)의 개념과 발전과정에서 나온 딥러닝 기법(Deep Learning Techniques), 생성형 모델(Generative Model)의 특징을 설명했습니다. 이제는 실제 활용 단계로 넘어가 입력 형태(언어, 시각 등)에 따라 구분되는 대표적인 파운데이션 모델들을 정리했습니다.

⑴ 언어 기반 모델(Language-based Foundation Models)

LLM(Large Language Model, 대규모 언어 모델)은 방대한 텍스트 데이터를 기반으로 학습된 거대 신경망 모델입니다. 대부분 Transformer 구조를 기반으로 여러 블록을 쌓아 구성되어 있으며, 학습 데이터는 인터넷 전역에서 수집된 초대형 규모의 텍스트가 사용됩니다.

예를 들어, GPT-3는 Common Crawl등의 데이터셋을 정제해 45TB 이상의 압축 텍스트, 약 4,100억개 토큰으로 학습되었습니다. LLM의 입력과 출력은 크게 2가지로 나뉩니다.

언어 → 언어

언어 → 특징 벡터(Feature Vector)

① 언어 → 언어

'언어 → 언어' 변환에는 번역, 질의응답, 문서요약, 시각질의응답 등이 포함됩니다. 대표적인 모델 예시는 다음과 같습니다.

GPT 시리즈 (OpenAI)

Claude 시리즈 (Anthropic)

LlaMA 시리즈 (Meta)

Gemma 시리즈 (Google)

이들은 모두 CoT(Chain-of-Thought) 프롬프트 방식을 활용해 문제를 단계적으로 추론(step-by-step reasoning)하며 해결할 수 있습니다.

예시: "Let's think step by step."이라는 프롬프트를 주면 모델이 스스로 사고 과정을 분리해 논리적 답변을 생성합니다.

또한, 여기서의 '언어'는 자연어만 의미하지 않습니다. 프로그래밍 언어, 마크업 언어(HTML, XML), 데이터 구조 언어(JSON, YAML) 등 모든 형태의 "문자 기반 구조화 언어"가 포함됩니다.

예를 들어,

Codex (GPT-3기반 모델)는 GitHub의 약 5,400만개 코드 리파지토리를 학습하여 자연어 설명만으로 코드(함수, 클래스 등)를 생성할 수 있습니다.

흰색 부분: 사람이 작성한 코드

노란색 부분: Codex가 자동 생성한 코드

함수 정의나 입력, 출력 예시를 주면 Codex는 그에 맞는 완성된 코드를 작성합니다. 또한, 문맥 학습(In-Context Learning)을 통해 적은 예시만으로도 모델의 성능을 끌어올릴 수 있습니다.

② 언어 → 특징 벡터

언어를 벡터(Feature Vector)형태로 표현하는 모델도 존재합니다. 이들은 텍스트를 잠재 공간(latent space)에 투영하여 문장 간 의미 유사도나 검색 기능을 수행합니다.

대표 모델:

BERT

RoBERTa (BERT확장판, 긴 문장 처리 가능)

또한, 언어 → 언어 LLM에서 중간 표현(Intermediate Representation)을 추출해 특징 벡터로 활용하는 방법도 있습니다. 이 벡터 간의 거리(distance)를 계산하면 문장 유사도 측정, 검색, 분류 작업에 활용할 수 있습니다.

- 로봇응용 측면에서

LLM은 "언어 기반의 상식 지식"을 가지고 있어 추가적인 프롬프트 입력만으로 인지-계획-행동 단계를 자율적으로 수행할 수 있다는 장점이 있습니다.

하지만 LLM에는 할루시네이션(Hallucination) 문제가 존재합니다. 사실과 다른 답변을 생성하는 경우가 있기 때문에 출력의 신뢰성을 확보하기 위한 검증/보정기법이 활발히 연구되고 있습니다.

⑵ 시각 기반 모델 (Vision-based Foundation Model)

LVM(Large Vision Model, 대규모 시각 모델)은 입력과 출력 형태에 따라 다음 2가지로 나뉩니다.

시각 → 특징 벡터

시각 → 인식(Recognition)

① 시각 → 특징 벡터

이미지를 입력받아 잠재 공간의 벡터 표현으로 변환하는 모델입니다. 대표적인 예스는 다음과 같습니다.

R3M (Reusable Representations for Robotic Manipulation)

VC-1 (Visual Cortex-1)

이들은 로봇의 관찰 데이터(예: 작업 장면, 사람의 행동 등)를 저차원 벡터 형태로 표현함으로써 로봇이 "무엇을 보고 있는가"를 효율적으로 학습하도록 돕습니다. 즉, 로봇이 카메라 입력을 받아도 "픽셀 수준"이 아니라 "의미 단위"로 상황을 이해하도록 만드는 구조입니다.

② 시각 → 인식(Recognition)

시각정보를 기반으로 물체를 인식하거나 분류하는 모델입니다. 이 과정은 여러 세부작업(Task, 과제)으로 나뉩니다.

(a) 객체탐지: 이미지 내 물체를 바운딩 박스(Bounding Box)로 표시

(b) 세그멘테이션: 각 픽셀 단위로 클래스 분류

세그멘테이션은 다시 다음으로 구분됩니다.

시맨틱 세그멘테이션 (Semantic Segmentation) → 같은 범주의 픽셀(예: 도로, 사람, 자동차)을 하나의 라벨로 묶음

인스턴스 세그멘테이션 (Instance Segmentation) → 같은 카테고리 내에서도 개별 객체를 구분 (예: 사람A, 사람B)

- 세그멘테이션 모델의 대표 예: SAM 시리즈

Meta AI가 개발한 SAM(Segment Anything Model)은 이미지 세그멘테이션에 특화된 모델로 재학습 없이(Zero-shot) 다양한 이미지에 적용할 수 있습니다.

SAM: 1,100만장 이미지, 11억개 마스크로 학습

Faster SAM: 속도 최적화 버전

Tracking Anything: 영상 내 객체 추적 기능 추가

(a) 세그멘테이션 모델 시리즈(SAM계열)

(b) 물체추적형 SAM응용모델(Tracking Anything)

언어모델은 생각을, 시각모델은 시선을 이해합니다. 파운데이션 모델은 이제 언어와 이미지를 함께 다루며, 로봇 및 AI의 이해력을 근본적으로 확장하고 있습니다.

⑶ 시각과 언어 파운데이션 모델 (Vision-Language Foundation Models)

언어만으로, 혹은 이미지 정보만으로는 세상을 완전히 이해하기 어렵습니다. 그래서 최근 AI 연구의 핵심은 두 정보를 결합한 VLM(Vision-Language Model, 시각-언어 멀티모달 모델)로 옮겨가고 있습니다.

VLM은 LLM과 마찬가지로 인터넷 수준의 초대형 데이터셋(이미지-텍스트쌍)으로 사전학습(pretraining)이 됩니다. 대표적으로 CLIP은 약 4억쌍의 이미지-텍스트 데이터로 학습된 모델입니다.

VLM은 입력과 출력의 형태에 따라 다음 4가지로 분류됩니다.

시각 + 언어 → 특징 벡터

시각 + 언어 → 언어

시각 + 언어 → 시각

시각 + 언어 → 인식

① 시각 + 언어 → 특징 벡터

이 유형의 모델은 이미지와 텍스트를 각각 벡터 형태의 표현(feature vector)으로 변환한 뒤, 두 벡터 간의 유사도(similarity)를 학습합니다.

대표적인 예시가 바로 CLIP(Contrastive Language-Image Pretraining)입니다. CLIP은 텍스트와 이미지가 같은 의미 공간(shared embedding space)에 맴핑되도록 학습합니다.

(a) 대조학습(Contrastive Learning)

텍스트 인코더(Transformer)와 이미지 인코더(ResNet/Vision Transformer)를 사용

각 입력을 벡터로 변환 후, 내적(dot product)을 통해 유사도를 계산

같은 의미의 쌍을 높은 유사도, 다른 쌍은 낮은 유사도를 갖도록 학습

(b) 클래스명을 텍스트 형태로 변환

예: "사과의 사진", "자동차의 사진"처럼 문장화된 텍스트로 특징 벡터를 생성

입력 이미지의 특징 벡터와 각 클래스의 텍스트 벡터를 비교

가장 유사한 클래스를 선택하여 예측

즉, CLIP은 "텍스트로 이미지 분류가 가능한 모델"이라 할 수 있습니다.

- CLIP 파생 모델들

SigLIP: 유사도 계산에 시그모이드 함수를 사용해 학습 효율 개선

GLIP: 이미지 내 여러 객체 영역(region)과 텍스트 설명을 함께 학습하여 객체 검출(Object Detection)성능 강화

② 시각 + 언어 → 언어

이 범주에는 이미지에 대한 설명 생성(Image Captioning), 비전 질문응답(VQA), 시각적 추론(Visual Reasoning) 같은 과제가 포함됩니다.

대표 모델 예시:

BLIP2: 이미지 캡션 생성과 VQA에 특화

Flamingo: 이미지와 언어의 문맥적 연결 학습

OFA, Unified-IO: 다양한 비전-언어 과제를 단일 네트워크로 처리하는 멀티태스크 구조

- Flamingo 모델의 예시

(a) 이미지와 질문을 입력하면, 프롬프트 기반 문맥 내 학습(In-context Learning)으로 적절한 답변 생성

(b) 동일 이미지에 대해 다중 턴 대화(Multi-turn Conversation)진행가능

이처럼 Flamingo는 이미지를 "보고 이해한 뒤 대화까지 가능한"형태로 진화했습니다.

- GPT-4V(GPT-4 Vision)

이미지를 분석하고 텍스트로 설명하거나 추론 가능한 모델

이미지 캡션, VQA, 시각적 추론(VE)등 다중 작업 수행 가능

- GPT-4o(omni)

텍스트, 이미지, 음성까지 동시에 이해하는 완전 멀티모달 모델

시각 기반 대화형 AI의 결정판으로 평가됩니다.

③ 시각 + 언어 → 시각

이 유형은 텍스트를 기반으로 이미지 생성 또는 편집을 수행하는 모델입니다. 즉, "문장으로 그림을 그리는 AI"입니다.

대표모델:

Stable Diffusion

DALL-E

OFA, Unified-IO (다중모달 처리 가능)

이들은 Transformer 아키텍처와 확산 모델(Diffusion Model)을 결합한 구조를 사용합니다.

- Imagen Editor: 구글이 공개한 텍스트 기반 이미지 편집 모델

사용자가 이미지 일부를 마스크(mask)로 지정

그 영역을 텍스트 프롬프트로 수정

예: "강아지의 몸통 → 빨간 우주복으로 변경"

(a) Imagen Editor의 아키텍처

입력 이미지를 마스크 처리하고, 텍스트 프롬프트를 조건으로 이미지 수정

T5인코더와 확산 기반 초해상도(Super Resolution) 모듈을 사용해 64x64 → 256x256 → 1024x1024크기로 점진적 생성

(b) 이미지 편집 예시

마스크: 강아지 몸통 → 프롬프트: "빨간 우주복"

추가 마스크: 오른쪽 공간 → "종이로 만든 로켓"

귀 부분 → "파란 게이밍 헤드폰"

텍스트 한줄로 원하는 요소를 추가/수정할 수 있는 인간의 창작을 시각적으로 구현하는 대표 사례입니다.

④ 시각 + 언어 → 인식

이 모델들은 시각과 언어를 결합해 객체 탐지(Object Detection), 세그멘테이션(Segmentation)등 언어 기반 인식(Recognition)을 수행합니다.

대표모델:

Detic: 이미지-텍스트 쌍 학습으로 탐지 성능 향상

OWL-ViT: 자연어 기반 객체 탐지

ViLD: CLIP구조를 응용해 시각-언어 통합 인식 수행

UniVL: 비전-언어 멀티모달 학습 지원

LSeg: 의미 기반 세그멘테이션

DINOv2: 자기지도(Self-supervised) 학습 기반 멀티모달 확장

특히 DINOv2는 사전 정의되지 않은 객체(오픈 보캐브러리 인식, Open Vocabulary Recognition)도 다룰 수 있어 "보지 못한 물체를 이해하는" 모델로 평가됩니다.

또한, 영상 데이터에도 확장되어, 프레임 단위 입력을 통합하거나 XCLIP, StableVideo처럼 직접 영상 입력 및 생성이 가능한 모델도 등장하고 있습니다.

시각-언어 파운데이션 모델은 '보는 AI'와 '말하는 AI'를 하나로 통합해, 세상을 더 자연스럽게 이해하고 설명할 수 있는 기반을 만듭니다.

⑷ 청각(오디오) 파운데이션 모델

시각/언어 모델에 음성(오디오)를 붙이면, 로봇/에이전트가 듣고, 이해하고, 할할 수 있게 됩니다. 입력/출력 조합별로 정리하면 아래 3가지가 있습니다.

① 음성 + 시각 + 언어 → 특징 벡터

여러 모달리티를 공통 임베딩 공간으로 매핑해 유사도를 계산/검색/정렬하는 타입입니다.

CLAP: CLIP을 오디오로 확장합니다. 오디오-텍스트를 대조학습으로 정렬합니다.

AudioCLIP/Wav2CLIP: 이미지-텍스트-오디오를 한 벡터 공간에 묶어 교차 검색/매칭이 가능합니다.

무엇이 되나?

"사용자가 '전자레인지 삐 소리'라고 말함 → 주방 카메라 프레임에서 해당 이벤트 근처 객체 후보 찾기"

"소리로 장면 검색 (예: 사이렌 소리 → 도로 장면)"

"로봇 로그: 소리, 텍스트, 비전 이벤트를 한 타임라인에서 정합"

② 음성 + 언어 → 언어 (Speech-to-Text)

음성을 문자로 전사하는 라인으로 대표적 모델은 Whisper입니다.

Whisper 핵심

인코더-디코더 구조, 멀티태스크(전사/번역/구간검출)

토큰 흐름 예: SOT → 언어토큰(EN/KO등) → 태스크토큰(TRANSCRIBE/TRANSLATE) → 타임스탬프 → 텍스트

현장 팁(로봇/서비스용)

도메인 키워드 프롬프트 넣어 인식 바이어싱: 예-"컵, 전자레인지, 장바구니, 픽업존"같은 단어를 프롬프트로 선주입 → 현장 명령 인식률↑

온디바이스 VAD(음성활동탐지) + Whisper 조합으로 반응속도/잡음 견고성 확보

한국어 방언/혼합어(영어섞임) 환경에서 문장부호/대소문자 후처리 프라이프라인 권장

③ 음성 + 시각 + 언어 → 음성 (TTS/보이스 변환)

텍스트나 멀티모달 조건으로 음성을 생성/변환입니다.

MusicLM: 텍스트 조건의 음악/사운드 생성

VALL-E: 짧은 샘플로 화자 음색을 모사해 텍스트 → 음성 생성(보이스 스타일 유지)

VAST: 비디오/오디오/자막/텍스트를 묶는 멀티모달 생성/변환 프레임

활용 포인트

로봇 안내/상담 음성 합성(감정/말투 제어)

상황 인지 기반 말투 전환 (소음 크면 발화속도↓/음량↑)

비전 신호(표정/장면)로 프로소디(억양) 조건부 제어

- 한국환경에 맞춘 실전 체크리스트

소음 많은 현장(카페/창고/공장): 지향성 마이크/마이크어레이 + 실시간 노이즈 억제(NR) 필수

혼합어 처리: 한국어 + 영어 브랜드명/약어 많음 → 사용자 사전 운영

윤리/보안: 녹음/전사 저장 시 명시적 동의, 로깅 최소화, PII마스킹

엣지 추론: 반응속도 중요하면 작은 STT/TTS를 엣지에 대형모델은 서버/배치

결론: 오디오까지 붙이는 순간, 에이전트가 '보고-듣고-말하는' 루프를 닫습니다. 로봇/서비스는 멀티모달 임베딩 x STT x TTS 삼각편대로 완성됩니다.

⑸ 3차원 표현 파운데이션 모델 (3D Representation Models)

최근에는 3차원 공간(3D space)을 직접 다루는 파운데이션 모델 연구가 빠르게 늘고 있습니다. 특히 로봇공학 및 디지털트윈, AR/VR 분야에서는 AI가 단순히 "이미지를 이해하는 것"을 넘어 공간을 인식하고 조작하고 생성하는 단계로 발전 중입니다.

입출력 형태에 따라 다음과 같이 분류할 수 있습니다.

3차원 표현 + 시각 + 언어 → 특징 벡터

시각 + 언어 → 3차원 표현

3차원 표현 + 시각 + 언어 → 인식

① 3차원 표현 + 시각 + 언어 → 특징 벡터

이 유형은 3D 데이터(포인트 클라우드, 메쉬 등)를 잠재공간(latent space)상의 특징 벡터(feature vector)로 변환하는 방식입니다. 기존의 CLIP이나 CLAP처럼, 3D 객체-이미지-언어 사이의 관계를 공통 표현 공간(shared embedding space)에서 학습합니다.

대표 모델:

ULIP(Unified Language-Image-Point Cloud Pretraining)

CLIP-goes-3D

활용예시

3D 형태와 텍스트 설명이 일치하는지 비교 (예: "의자"라는 단어 ↔ 3D 모델 매칭)

로봇이 조작할 대상의 형상 기반 분류 및 검색

3D 객체의 특징 벡터를 활용한 로봇 작업 표현 학습

즉, 로봇이 "이건 컵이다"를 단순히 외형으로만 아니라, 공강적 구조와 의미까지 파악할 수 있도록 하는 구조입니다.

② 시각 + 언어 → 3차원 표현

이미지나 텍스트 입력을 바탕으로 3차원 형상(Point cloud 또는 Mesh)을 직접 생성하는 모델입니다.

대표모델: Point-E (OpenAI, 2022)

- Point-E의 2단계 파이프라인

1. 텍스트 → 이미지 (GLIDE 모델)

텍스트 프롬프트를 기반으로 대응되는 이미지를 생성

2. 이미지 → 3D 점군 (Point Cloud Diffusion 모델)

생성된 이미지를 입력으로 받아 3D 포인트 클라우드를 생성

- 예시 프롬프트와 결과

Point-E는 "텍스트 → 이미지 → 3D"로 이어지는 2단계 확산 파이프라인 구조를 통해 언어로부터 직접 3D 형상을 생성하는 모델입니다.

③ 3차원 표현 + 시각 + 언어 → 인식

3D 공간에서 물체의 위치, 형태, 의미를 언어와 결합하여 인식하는 모델입니다. 즉, "이 장면의 왼쪽에 있는 의자를 찾아줘"같은 언어 기반 3D 인식(Language-guided 3D Understnading)을 수행합니다.

대표 모델:

3D-LLM: LLM + 3D 공간 이해 결합

OpenScene: 포인트 클라우드와 이미지의 시맨틱 통합 인식

SpatialVLM: 시각-언어 정보를 공간적 맥락과 함께 처리

특징:

언어 명령을 이용해 3D 장면의 세그멘테이션, 바운딩 박스 추출(Bounding Box), 객체 검색 등을 수행

LLM의 텍스트 이해력과 3D 포인트 인식능력을 융합

로봇에게 "공간 이해력(spatial intelligence)"을 부여

- TexFusion (NVIDIA)

TexFusion은 자연어 프롬프트를 기반으로 3D 모델의 질감(Texture)과 색감(Color)을 자동 생성하는 모델입니다.

작동방식

1. 입력: 텍스트 프롬프트 + 3D 메쉬

2. 출력: 점재 표현 기반 텍스처맵(UV Map)

3. 후처리: 여러 시점(view)에서 노이즈 제거 후 Instant NGP(Neural Field Representation)으로 고해상 텍스처 생성

예시: "a shiny metallic robot head" → 3D 메쉬 표면에 반짝이는 금속 질감 적용

TexFusion은 3D 객체를 언어로 꾸미는 "텍스트 기반 3D 텍스처생성" 모델로 볼 수 있습니다.

3D 파운데이션 모델은 AI가 '보는' 것을 넘어 '공간을 이해하는' 단계로 진입하게 합니다. 로봇, 디지털트윈, AR/VR의 핵심은 결국 "AI가 3차원 세계를 표현하는 법을 배우는 것"입니다.

⑹ 기타 파운데이션 모델

앞에서는 언어, 시각, 음성, 3차원 표현을 중심으로 살펴봤지만, 실제 세계에서는 이외에도 훨씬 다양한 센서 모달리티(sensor modality)가 존재합니다. 가속도 및 각속도를 측정하는 IMU(Inertial Measurement Unit), 손짓/골격 움직임을 추적하는 모션센서, 심지어 열화상(Thermal)이나 자이로/위치 정보까지 이런 데이터들도 모두 AI가 학습 가능한 "언어"가 될 수 있습니다.

① ImageBind & Meta-Transformer

이 두 모델은 "모든 데이터는 하나의 잠재 공간으로 통합될 수 있다"라는 철학을 바탕으로 합니다.

ImageBind

텍스트, 이미지, 오디오, 깊이(depth), 열화상, IMU 등 7개 모달리티를 하나의 공통 표현 공간(shared latent space)에 매핑합니다.

그 결과, "음성 → 이미지 검색"이나 "IMU → 영상 매칭"같은 크로스 모달 연산(cross-modal reasoning)이 가능해집니다.

예시:

열화상 카메라 데이터로부터 장면을 유추하거나

음성을 기반으로 유사한 이미지를 찾고

IMU 데이터만으로 특정 동작 장면을 예측 가능

즉, ImageBind는 CLIP의 확장판이라 할 수 있습니다. "이미지 + 텍스트"를 넘어서 "세계의 모든 감각"을 하나의 공간으로 묶습니다.

Meta-Transformer

다양한 센서입력(이미지, 오디오, 포인트클라우드 등)을 단일 Transformer 아키텍처로 처리하도록 설계된 통합 모델

기존에는 모달리티별 모델이 따로 필요했지만, Meta-Transformer는 입력형태만 다를 뿐 하나의 모델이 전부 처리 가능합니다.

즉, "입력 형식에 구애받지 않는 범용 인식기(Universal Perceiver)"의 개념입니다.

② FoundationPose: 6DoF 포즈 추정 통합 모델

6자유도(6DoF, 6 Degrees of Freedom)는 물체의 위치 (x, y, z)와 회전 (roll φ, pitch θ, yaw ψ)을 포함한 3차원 공간상의 완전한 자세를 의미합니다.

FoundationPose는 이러한 6DoF 자세를 하나의 통합 모델로 추정/추적하는 시스템입니다.

두 가지 상황 모두 지원:

모델 기반(Model-based): 물체의 3D 모델(CAD)이 이미 존재할 때

모델 프리(Model-free): 참조 이미지만 주어졌을 때

실제 응용: 로봇이 "컵이 들어올려 선반 위에 두기"같은 정밀 조작을 할 때, 물체의 위치/자세를 즉시 인식하고 추적 가능

FoundationPose = "모델 기반 + 모델 프리"를 아우르는 범용 6DoF 추정기

③ 인체 동작 및 제스처 생성 모델

언어 명령을 기반으로 사람의 동작 시퀀스를 생성하는 언어 → 모션(Language-to-Motion)계열 모델이 빠르게 발전 중입니다.

대표 모델:

Human Motion Diffusion Model (HMDM)

T2M-GPT

GestureDiffuCLIP

작동원리

입력: "사람이 왼발로 공을 찬다", "손으로 인사한다"와 같은 텍스트 명령

모델: 확산모델(Diffusion Model) 또는 LLM기반 모션 생성기

출력: 시간 순으로 연결된 3D 인체 포즈 시퀀스

- Human Motion Diffusion Model 예시

입력: "a person kicks with the left foot"

출력: 프레임이 지날수록 인체 골격이 왼발 킥 자세로 변하는 시퀀스 (짙은 색일수록 시간 후반 프레임)

이 기술들은 제스처 인터페이스, 메타버스 아바타, 로봇 모션 제어 등에서 "언어를 행동으로 설계하는 시대"를 열고 있습니다.

파운데이션 모델의 끝판왕은 결국 '모든 감각의 통합'입니다. 시각/언어/청각을 넘어, 센서/움직임/공간까지 연결되면 AI는 현실 세계 전체를 이해하고 반응할 수 있게 됩니다.

파운데이션 모델(Foundation Model)은 Transformer 아키텍처를 중심으로 발전했으며, 대규모 데이터셋을 활용한 자기지도학습(Self-Supervised Learning)을 통해 다양한 작업에 공통적으로 활용가능한 범용 표현(Feature Representation)을 학습합니다.