6장 로봇 파운데이션 모델
우선 중요한 부분부터 정리하면,
입력: 이미지/센서/언어지시
출력: 로봇제어값(손끝 위치, 관절 각도, 베이스 속도 등)
구조: 대부분 Transformer + (Diffusion/Tokenization)
데이터: 사람이 텔레오퍼레이션(원격조작)한 로그 + 자동 수집된 오프라인 데이터 대규모 활용
이걸 "End-to-End 로봇 파운데이션 모델/VLA모델"이라고 부릅니다.
MT-Qpt(Google)는 요즘 RT계열로 이어지는 대규모 로봇제어 학습의 원조격입니다.
셋팅:
KUKA 7축 로봇팔 여러 대를 병렬로 돌리면서 트레이 안 물체를 잡고 옮기기, 쌓기, 정렬하기 같은 다양한 조작 태스크 수행
핵심 아이디어:
1. 사람이 데모를 하거나, 로봇이 시도 → 에피소드 데이터 쌓음
2. 최종 상태가 성공인지 실패인지 분류하는 성공 판별기(success detector) 학습
3. 이 성공 판별 출력을 강화학습의 보상으로 사용
4. 각 태스크별로 Q함수 (행동 가치 함수)를 학습 → 정책 개선
현실 데이터 대량 수집의 관건은,
태스크 끝날 때마다 자동 리셋 환경 설계 (트레이를 자동 뒤집어서 물체 초기화 등)
사람 손 안타고 계속 데이터 뽑히게 만드는 인프라
한국에서 실제 로봇 시스템 운영할 때에도 "강화학습"보다 사실 더 어려운 건 데이터 수집 프라이프라인 설계라는 걸 잘 보여주는 사례입니다.
이제부터 본격적으로 요즘 다 나오는 RT패밀리에 대해 알아봅시다.
플랫폼: Google Everyday Robots의 모바일 매니퓰레이터(움직이는 팔 달린 로봇) 13대
데이터: 17개월 동안, 744개 태스크, 13만 에피소스 텔레오퍼레이션 데이터
입력:
- 언어지시
- 예: "맨 위 서랍에서 사과를 꺼내서 조리대 위에 올려줘"
- Universal Sentence Encoder로 문장 임베딩
- 카메라 영상 6프레임
- EfficientNet 기반 CNN으로 특징 추출
- 텍스트 특징을 이미지 피처에 섞을 때 FiLM(Feature-wise Linear Modulation) 사용
출력: 11차원 "행동 토큰"
- 1D: Mode (팔제어/베이스 제어/에피소드 종료)
- 7D: Arm (손끝 위치/자세 + 그리퍼 개폐)
- 3D: Base (이동 + 회전 속도)
- 연속값을 256개의 bin으로 이산화(discretization)해서 Transformer 토큰으로 처리
핵심포인트:
"언어 + 과거 시점 이미지" → "이상화된 행동 토큰 시퀀스"를 모방학습으로 학습한 첫 대형 멀티태스크 정책 모델
RT-2는 RT-1 위에 거대 VLM을 붙여서,
단순 imitation policy가 아니라,
"추론 + 계획 + 제어"까지 한방에 하는 VLA 모델로 확장한 버전입니다.
베이스 VLM:
- PaLM-E (멀티모달 LLM)
- PaLI-X 등 (더 큰 VLM)
- 파라미터 규모: 수십억 ~ 수백억(PaLM-E 12B, PaLI-X 5~55B 등)
데이터:
- RT-1의 로봇제어 데이터 + 웹 기반 시각/언어 QA데이터를 같이 co-finetuning
입력:
- ViT로 처리한 이미지 및 언어지시(Q/A 프롬프트 형태)
출력:
- 행동 토큰 + 텍스트 계획 동시 출력 가능
- 행동 토큰은 다시 연속 제어값(△T, △R)으로 디토크나이즈
중요한 점:
RT-2는 원래 VLM이 갖고 있던 언어 추론 능력을 그대로 가져오기 때문에,
"이미지 보고 어떤 음료가 더 건강한지 판단 → 그걸 가져오게 하기"
"여러 단계의 행동 플랜을 텍스트로 먼저 풀어서(CoT) → 그 뒤 제어 토큰 생성"
같은 사고과정(Chain-of-Thought)기반 제어가 가능합니다.
논문 예시처럼,
입력: 이미지 + "음료를 가져와"
출력:
- "플랜: "7up 캔을 가져온다""
- "행동 토큰: "1143 129 123 145 ...""
이 조합이 사실상 "로봇용 GPT-4 + 제어 토큰 헤드"같은 느낌입니다.
여기서 한단계 더 나간게 RT-X라인입니다.
문제의식
RT-1/2는 Google 내부 데이터(특정 로봇, 특정 환경)에 많이 의존
"전세계 다양한 로봇/실험실 환경 데이터"를 합친 범용 Embodiment 데이터셋이 필요함
그래서 나온게,
Open-X Embodiment (OXE) 데이터셋
21개 기관, 34개 랩
22종 로봇
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠