[피지컬AI]29. End-to-End 로봇제어모델

6장 로봇 파운데이션 모델

by AI개발자

Nov 19. 2025 brunch_membership's

우선 중요한 부분부터 정리하면,

입력: 이미지/센서/언어지시

출력: 로봇제어값(손끝 위치, 관절 각도, 베이스 속도 등)

구조: 대부분 Transformer + (Diffusion/Tokenization)

데이터: 사람이 텔레오퍼레이션(원격조작)한 로그 + 자동 수집된 오프라인 데이터 대규모 활용

이걸 "End-to-End 로봇 파운데이션 모델/VLA모델"이라고 부릅니다.

⑴ 대규모 현실 데이터 기반 제어 사전학습의 시작: MT-Qpt

MT-Qpt(Google)는 요즘 RT계열로 이어지는 대규모 로봇제어 학습의 원조격입니다.

셋팅:

KUKA 7축 로봇팔 여러 대를 병렬로 돌리면서 트레이 안 물체를 잡고 옮기기, 쌓기, 정렬하기 같은 다양한 조작 태스크 수행

핵심 아이디어:

1. 사람이 데모를 하거나, 로봇이 시도 → 에피소드 데이터 쌓음

2. 최종 상태가 성공인지 실패인지 분류하는 성공 판별기(success detector) 학습

3. 이 성공 판별 출력을 강화학습의 보상으로 사용

4. 각 태스크별로 Q함수 (행동 가치 함수)를 학습 → 정책 개선

현실 데이터 대량 수집의 관건은,

태스크 끝날 때마다 자동 리셋 환경 설계 (트레이를 자동 뒤집어서 물체 초기화 등)

사람 손 안타고 계속 데이터 뽑히게 만드는 인프라

한국에서 실제 로봇 시스템 운영할 때에도 "강화학습"보다 사실 더 어려운 건 데이터 수집 프라이프라인 설계라는 걸 잘 보여주는 사례입니다.

⑵ Transformer 기반 End-to-End 제어: Robotics Transformers (RT)

이제부터 본격적으로 요즘 다 나오는 RT패밀리에 대해 알아봅시다.

① RT-1: 자체 로봇 데이터로 학습한 첫 대형 정책 모델

플랫폼: Google Everyday Robots의 모바일 매니퓰레이터(움직이는 팔 달린 로봇) 13대

데이터: 17개월 동안, 744개 태스크, 13만 에피소스 텔레오퍼레이션 데이터

입력:

- 언어지시

- 예: "맨 위 서랍에서 사과를 꺼내서 조리대 위에 올려줘"

- Universal Sentence Encoder로 문장 임베딩

- 카메라 영상 6프레임

- EfficientNet 기반 CNN으로 특징 추출

- 텍스트 특징을 이미지 피처에 섞을 때 FiLM(Feature-wise Linear Modulation) 사용

출력: 11차원 "행동 토큰"

- 1D: Mode (팔제어/베이스 제어/에피소드 종료)

- 7D: Arm (손끝 위치/자세 + 그리퍼 개폐)

- 3D: Base (이동 + 회전 속도)

- 연속값을 256개의 bin으로 이산화(discretization)해서 Transformer 토큰으로 처리

핵심포인트:

"언어 + 과거 시점 이미지" → "이상화된 행동 토큰 시퀀스"를 모방학습으로 학습한 첫 대형 멀티태스크 정책 모델

② RT-2: VLM 사전학습을 붙여 '추론하는 정책'으로 확장

RT-2는 RT-1 위에 거대 VLM을 붙여서,

단순 imitation policy가 아니라,

"추론 + 계획 + 제어"까지 한방에 하는 VLA 모델로 확장한 버전입니다.

베이스 VLM:

- PaLM-E (멀티모달 LLM)

- PaLI-X 등 (더 큰 VLM)

- 파라미터 규모: 수십억 ~ 수백억(PaLM-E 12B, PaLI-X 5~55B 등)

데이터:

- RT-1의 로봇제어 데이터 + 웹 기반 시각/언어 QA데이터를 같이 co-finetuning

입력:

- ViT로 처리한 이미지 및 언어지시(Q/A 프롬프트 형태)

출력:

- 행동 토큰 + 텍스트 계획 동시 출력 가능

- 행동 토큰은 다시 연속 제어값(△T, △R)으로 디토크나이즈

중요한 점:

RT-2는 원래 VLM이 갖고 있던 언어 추론 능력을 그대로 가져오기 때문에,

"이미지 보고 어떤 음료가 더 건강한지 판단 → 그걸 가져오게 하기"

"여러 단계의 행동 플랜을 텍스트로 먼저 풀어서(CoT) → 그 뒤 제어 토큰 생성"

같은 사고과정(Chain-of-Thought)기반 제어가 가능합니다.

논문 예시처럼,

입력: 이미지 + "음료를 가져와"

출력:

- "플랜: "7up 캔을 가져온다""

- "행동 토큰: "1143 129 123 145 ...""

이 조합이 사실상 "로봇용 GPT-4 + 제어 토큰 헤드"같은 느낌입니다.

③ 여러 연구기관 데이터를 모은 RT-X: RT-1-X/RT-2-X

여기서 한단계 더 나간게 RT-X라인입니다.

문제의식

RT-1/2는 Google 내부 데이터(특정 로봇, 특정 환경)에 많이 의존

"전세계 다양한 로봇/실험실 환경 데이터"를 합친 범용 Embodiment 데이터셋이 필요함

그래서 나온게,

Open-X Embodiment (OXE) 데이터셋

21개 기관, 34개 랩

22종 로봇

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership

AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

최근 30일간 20개의 멤버십 콘텐츠 발행
총 20개의 혜택 콘텐츠

최신 발행글

이작가의 멤버십 시작하기

멤버쉽

AI개발자 소속 MDRULES

구독자 74

월간 멤버십 가입 월간 멤버십 가입

이 작가의 멤버십 시작하기

이전 28화[피지컬AI]28. 로봇을 위한 시각언어모델(VLM)[피지컬AI]30. 로봇파운데이션모델용 데이터셋다음 30화