[피지컬AI]26. 데이터 확장

5장 파운데이션 모델을 로봇에 활용하는 방법

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

핵심 전제부터 살펴보고 진행합니다.

End-to-End 정책("이미지 + 언어 → 행동")을 제대로 학습시키려면 데이터 다양성이 필수입니다.

기존 비전에서는 좌우 반전, 회전, 크롭, 노이즈 같은 단순 이미지 증강이 잘 먹혔는데,

로봇에서는 카메라가 "로봇 몸에 붙어 있다"는 특성 때문에, 단순 2D변환만 하면 로봇 운동학/시점 일관성이 깨진다는 문제가 생깁니다.

또하나 중요한 포인트는

시각-언어 기반 정책이면, 같은 행동에도 말은 바꿔서 할 수 있으니, 이미지뿐만 아니라 언어 데이터증량도 꼭필요합니다.


① 이미지 데이터 확장 (CACTI, GenAug, ROSIE, MOO)

② 언어 데이터 확장 (DIAL)



⑴ 이미지 데이터 확장

① 가장 기본적인 생성 기반 확장: CACTI

CACTI는 요렇게 보면 됩니다.

소수의 사람 시연 데이터 + 생성형 모델(Stable Diffusion)로 로봇 시각 환경을 뻥튀기해서 여러 태스크를 한 번에 학습시키는 프레임워크

구조는 4단계로,

1. 수집 (Collect)

사람 시연으로 로봇 조작 데이터를 모은다.

품질은 최대한 높게, 수동 작업량은 최대한 줄이면서 가능한 많이

2. 확장 (Augment)

이미지 일부를 마스크 → Stable Diffusion으로 다른 물체/배경을 생성

예: 같은 책상 위인데, 컵만 다른 모양/색으로 바꿔버리기

물체 배치/환경을 실제로 바꾸지 않고, "시각적으로 다른 상황"을 가상으로 찍어내는 느낌

3. 압축 (Compress)

R3M 같은 사전학습 로봇 비전 모델로 이미지를 저차원 잠재벡터로 인코딩

표현 학습 + 정책 학습을 분리하지 않고 묶어서 효율적으로 학습

4. 훈련 (Train)

입력:

- 언어 잠재 벡터 (태스크 표현)

- 시각 잠재 벡터 (R3M 등)

- 로봇 상태

출력: 액션 (팔/그리퍼 명령 등)

MLP 기반 multi-task imitation learning

즉, 한국환경 기준에서 보면,

실제로 실험 환경을 계속 바꿀 여건이 안되더라도

Stable Diffusion + R3M + 모방학습 조합으로 "가상으로 환경 다양성"을 만들고, 하나의 정책으로 여러 태스크를 커버하는 그림.


② 객체/방해물/배경까지 정교하게 바꾸는: GenAug

GenAug는 CACTI의 "상위호환" 같은 느낌입니다.

주요 차이:

더 고해상도, 더 정교한 이미지 증강

물체/방해물/배경을 역할별로 나눠서 증강

aiagent0026.jpg

GenAug의 3가지 축:

1. 객체 확장 (Object Augmentation)

특정 물체를 마스크 → Stable Diffusion으로

- 질감(texture)

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI Workflow Architect, LLM Engineer, Vibe Engineering, Claude Code, AI 업무 자동화 컨설팅/AI강의

105 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 37개의 멤버십 콘텐츠 발행
  • 총 106개의 혜택 콘텐츠
최신 발행글 더보기
이전 25화[피지컬AI]25.저수준계획에 파운데이션모델 적용