5장 파운데이션 모델을 로봇에 활용하는 방법
로봇이 실제 세상을 보고 이해하려면, 먼저 이미지/영상 같은 저수준 센서 데이터를 처리해야 합니다. 이때 파운데이션 모델(ResNet, CLIP, R3M등)은 한국에서도 기본 레퍼런스로 많이 사용합니다.
활용 방식은 크게 2가지입니다.
1. 특징량 추출(Feature Extraction)
비전 데이터를 잠재공간으로 변환해서
지도 생성
End-to-End 정책학습
등을 바로 쓸 수 있게 하는 방식입니다.
2. 장면 이해(Scene Understading)
주변 환경을 인지해 계획/제어의 보조 정보로 쓰는 방식입니다.
이 두 축이 지금 한국 로봇 연구에서도 가장 많이 채택되는 패턴입니다.
저수준 인식에서 가장 많이 쓰는 모델이 ResNet, MoCo같은 기본 백본이고, 요즘은 CLIP처럼 텍스트+이미지 조합 모델이 사실상 표준이 됩니다.
- R3M
Meta가 공개한 Ego4D(1인칭 비디오)기반 사전학습 모델
한국에서도 조작 데이터 수집 부담을 확 줄여줘서 연구용으로 인기 많음
- CLIPort
한국 로봇 연구자가 실제 많이 따라 하는 구조입니다.
CLIP으로 언어 + 이미지 의미 추출
Transporter Network로 공간 정보 추출
두 스트림 결합해 "빨간 블록을 파란 블록 위에 올려"와 같은 언어 기반 조작 수행
한마디로 "말을 알아듣고 손으로 행동하는 로봇"의 기본 설계도라고 보면 됩니다.
- Socratic Models - LLM/VLM/ALM을 언어로 연결
한국환경에서 특히 와닿는 포인트는 이것입니다.
LLM = 언어 ↔ 언어
VML = 언어 ↔ 이미지
ALM = 언어 ↔ 음성
셋다 언어를 중심축으로 연결가능
AR글래스 기반 보조 서비스나 로봇에게 말로 의도를 전달하는 HRI(Human-Robot Interaction)에도 바로 적용됩니다.
예: 이미지 캡셔닝
전용 모델 없어도 VLM → LLM → VLM 순서로 조합하면 충분히 높은 품질의 캡션 생성이 가능합니다.
예: Egocentric VQA
카메라 프레임 + 음성 → (VLM/ALM 변환) → LLM 추론 = 사람 시점 기반 멀티모달 이해 가능
한국형 주거/사무실 환경에서는 문여닫힘, 전등상태, 전자레인지/정수기/전기밥솥 상태 같은게 중요합니다. 파운데이션 모델(VLM) 기반 접근은 엄청 현실적입니다.
① 이산적 상태 인식
OFA 같은 VQA 모델에
"Is this door open?"
"Is the microwave on?"
처럼 질문하면 바로 Yes/No응답을 줍니다.
깊이 카메라로 해결안되는 유리문, 투명 플라스틱 식기, 물 흐름 같은 것도 잘 잡힙니다.
한국형 적용 예시:
원룸/아파트의 설치형 수납장 문 상태
원두커피 머신 추출 여부
가전(에어컨/세탁기/공공청정기) ON/OFF
② 연속적인 상태 인식
문이 반쯤 열린 건 열림? 닫힘?
양파가 "갈색"이 되는 기준은?
물이 "막 끓기 시작하는" 지점은?
CLIP이나 ImageBind로 이미지 ↔ 텍스트 유사도 값을 연속값으로 추적하면 해결됩니다.
예시:
끓기전 → 막 끓기 시작 → 완전히 끓음
버터 녹기 전 → 부분 녹음 → 완전히 녹음
한국 로봇 요리 스타트업에서도 진짜 필요한 기능입니다.
"저기 있는 상자 좀 가져와!" 이말만으로는 부족하지만, 손가락으로 가치키면 의도 해석이 훨씬 정확합니다.
GIRAF는
음성 → Azure STT
제스처 → MediaPipe + EgoGesture
물체 인식 → SAM + OpenCLIP
최종 계획생성 → LLM
한국형 적용 예시:
고령자 케어 로봇이 제스처 기반으로 물건 전달
산업현장 작업자 보조 로봇
교육용 HRI 로봇의 직관적 UI
제스처를 사용하면 조작 성공률이 70%이상 올라갔다고 보고됨.
한국 로봇 개발 현실에서 진짜 빡센 부분이 Debugging입니다. REFLECT는 이걸 파운데이션 모델로 자동화합니다.
구성은 3단계:
1. 감각 요약
RGB-D + 포인트클라우드 + CLIP 임베딩으로 태스크 중심 Scene Graph 생성 (한국 서비스 로봇에서도 바로 활용가능한 구조)
2. 이벤트 요약
의미 변화, 음성 이벤트, 서브골 도달 시점 등 중요 프레임만 추출해 효율화
3. 서브골 요약
각 서비 목표가 성공했는지 LLM이 판정 → 실패 원인 설명 → 재계획 수립
이건 한국 로봇 스타트업이 트러블슈팅 자동화하는데 바로 쓸 수 있는 프레임워크입니다.
한국 로봇/AI시스템에서 파운데이션 모델은 이렇게 사용됩니다.
1. 저수준 인식: CLIP/R3M/ResNet으로 특징 추출, 장면 이해 강화
2. 언어 중심 멀티모달 통합: LLM/VLM/ALM을 언어로 연결해 HRI 강화
3. 상태 인식 자동화: 가정/사무실/산업환경의 물체/가전/문/밸브 등의 상태인식
4. 연속 상태 추적: 한국형 조리/서비스 작업에서 핵심
5. 제스처 기반 HRI(GIRAF): 손짓 + 말을 이해해 로봇 보조 성능 향상
6. 실패 분석 자동화(REFLECT): 한국로봇개발의 고질적 문제인 태스크 온실 테스트 부담을 줄여줌
©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.
이메일문의: jaewoo@mdrules.dev
AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB