5장 파운데이션 모델을 로봇에 활용하는 방법
핵심 전제부터 살펴보고 진행합니다.
End-to-End 정책("이미지 + 언어 → 행동")을 제대로 학습시키려면 데이터 다양성이 필수입니다.
기존 비전에서는 좌우 반전, 회전, 크롭, 노이즈 같은 단순 이미지 증강이 잘 먹혔는데,
로봇에서는 카메라가 "로봇 몸에 붙어 있다"는 특성 때문에, 단순 2D변환만 하면 로봇 운동학/시점 일관성이 깨진다는 문제가 생깁니다.
또하나 중요한 포인트는
시각-언어 기반 정책이면, 같은 행동에도 말은 바꿔서 할 수 있으니, 이미지뿐만 아니라 언어 데이터증량도 꼭필요합니다.
① 이미지 데이터 확장 (CACTI, GenAug, ROSIE, MOO)
② 언어 데이터 확장 (DIAL)
CACTI는 요렇게 보면 됩니다.
소수의 사람 시연 데이터 + 생성형 모델(Stable Diffusion)로 로봇 시각 환경을 뻥튀기해서 여러 태스크를 한 번에 학습시키는 프레임워크
구조는 4단계로,
1. 수집 (Collect)
사람 시연으로 로봇 조작 데이터를 모은다.
품질은 최대한 높게, 수동 작업량은 최대한 줄이면서 가능한 많이
2. 확장 (Augment)
이미지 일부를 마스크 → Stable Diffusion으로 다른 물체/배경을 생성
예: 같은 책상 위인데, 컵만 다른 모양/색으로 바꿔버리기
물체 배치/환경을 실제로 바꾸지 않고, "시각적으로 다른 상황"을 가상으로 찍어내는 느낌
3. 압축 (Compress)
R3M 같은 사전학습 로봇 비전 모델로 이미지를 저차원 잠재벡터로 인코딩
표현 학습 + 정책 학습을 분리하지 않고 묶어서 효율적으로 학습
4. 훈련 (Train)
입력:
- 언어 잠재 벡터 (태스크 표현)
- 시각 잠재 벡터 (R3M 등)
- 로봇 상태
출력: 액션 (팔/그리퍼 명령 등)
MLP 기반 multi-task imitation learning
즉, 한국환경 기준에서 보면,
실제로 실험 환경을 계속 바꿀 여건이 안되더라도
Stable Diffusion + R3M + 모방학습 조합으로 "가상으로 환경 다양성"을 만들고, 하나의 정책으로 여러 태스크를 커버하는 그림.
GenAug는 CACTI의 "상위호환" 같은 느낌입니다.
주요 차이:
더 고해상도, 더 정교한 이미지 증강
물체/방해물/배경을 역할별로 나눠서 증강
GenAug의 3가지 축:
1. 객체 확장 (Object Augmentation)
특정 물체를 마스크 → Stable Diffusion으로
- 질감(texture)
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠