6장 로봇 파운데이션 모델
이전까지
인터넷 텍스트/이미지로 학습된
LLM (언어),
VLM (시각-언어),
멀티모달 기반 모델들
이걸 로봇시스템의 인식/계획에 어떻게 얹어 쓰냐가 중심이었습니다.
하지만 문제는,
1. LLM/VLM은 세상에 대한 상식/언어/시각 지식은 풍부하지만,
"관절을 어떻게 움직여야 균형을 유지하는지"
"그리퍼로 어느 방향에서 잡아야 미끄러지지 않는지"
같은 물리/신체 레벨의 지식은 거의 없습니다.
2. 지금까지 LLM/VLM을 쓴 로봇 시스템도
계획/이해/설명은 LLM/VLM이 하고 실제 모터/팔 제어는 사람이 짠 저수준 제어기 또는 RL 정책에 의존하는 구조가 대부분이었습니다.
그래서 최근에는,
"언어/이미지 기반 '일반지식' + 로봇 몸으로 쌓은 '물리/조작 지식'을 같이 품은 로봇 전용 파운데이션 모델을 만들자!
라는 흐름이 강해졌습니다. 그 부분을 필자는 로봇 파운데이션 모델(Robotics Foundation Model)이라고 부릅니다.
왜 LLM/VLM처럼 "마구 스케일업"하기 어려운가?
인터넷 텍스트/이미지는 싸고 많습니다.
반대로 로봇 데이터는 실제 로봇 + 작업 환경 + 사람 시연/스크립트 + 센서 로그 등 = 하나 찍는데도 돈/시간/인력이 많이 듦.
게다가 로봇은 텍스트, 이미지뿐만 아니라, 힘(force), 접촉(contact), 깊이, 관절 상태 등 훨씬 다양한 모달리티를 다뤄야 합니다.
즉, 데이터 수집 비용 + 모달리티 복잡도 때문에 로봇 파운데이션 모델은 LLM급 스케일링이 쉽지 않습니다.
이번 6장에서는 아래와 같이 진행합니다.
1. 범용 사전학습 로봇 비전 모델 (로봇에서 바로 가져다 쓸 수 있는 시각피처추출기)
2. 로봇용 시각-언어 모델
3. End-to-End 로봇 제어 모델
4. 자주 쓰이는 로봇 파운데이션 모델용 데이터셋
"CLIP, MoCo처럼 일반 비전 모델 말고, 로봇 조작/내비게이션을 염두에 두고 사전학습된 비전 모델들을 봅시다.
이 모델들의 역할은 딱 하나,
시각 입력 → 좋은 특징 (feature representation)
그리고 이 특징이,
모방학습, 강화학습, 플래닝, 맵 구성 등 앞서 다뤘던 모듈들의 입력기반으로 쓰입니다.
여기서 소개하는 대표 라인업은,
① R3M: 1인칭 시점(Ego4D) 기반 CNN(ResNet)형
② MVP: MAE기반 ViT형 (Masked Autoencoder for Robotics)
③ VC-1: MAE기반 ViT + 벤치마크(CortexBench) 제안
R3M은 로봇쪽에서 제일 먼저 "아 이건 진짜 로봇용이다"싶게 나온 대표 비전 베이스라인입니다.
데이터: Ego4D - 사람 시점의 일상 행동 데이터
Ego4D
9개국, 74개 장소
총 3,670시간짜리 1인칭 시점(egocentric) 영상
웨어러블 카메라로 촬용된 "일상 행동" (요리, 정리, 작업 등)
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠