brunch

[피지컬AI]26. 데이터 확장

5장 파운데이션 모델을 로봇에 활용하는 방법

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

핵심 전제부터 살펴보고 진행합니다.

End-to-End 정책("이미지 + 언어 → 행동")을 제대로 학습시키려면 데이터 다양성이 필수입니다.

기존 비전에서는 좌우 반전, 회전, 크롭, 노이즈 같은 단순 이미지 증강이 잘 먹혔는데,

로봇에서는 카메라가 "로봇 몸에 붙어 있다"는 특성 때문에, 단순 2D변환만 하면 로봇 운동학/시점 일관성이 깨진다는 문제가 생깁니다.

또하나 중요한 포인트는

시각-언어 기반 정책이면, 같은 행동에도 말은 바꿔서 할 수 있으니, 이미지뿐만 아니라 언어 데이터증량도 꼭필요합니다.


① 이미지 데이터 확장 (CACTI, GenAug, ROSIE, MOO)

② 언어 데이터 확장 (DIAL)



⑴ 이미지 데이터 확장

① 가장 기본적인 생성 기반 확장: CACTI

CACTI는 요렇게 보면 됩니다.

소수의 사람 시연 데이터 + 생성형 모델(Stable Diffusion)로 로봇 시각 환경을 뻥튀기해서 여러 태스크를 한 번에 학습시키는 프레임워크

구조는 4단계로,

1. 수집 (Collect)

사람 시연으로 로봇 조작 데이터를 모은다.

품질은 최대한 높게, 수동 작업량은 최대한 줄이면서 가능한 많이

2. 확장 (Augment)

이미지 일부를 마스크 → Stable Diffusion으로 다른 물체/배경을 생성

예: 같은 책상 위인데, 컵만 다른 모양/색으로 바꿔버리기

물체 배치/환경을 실제로 바꾸지 않고, "시각적으로 다른 상황"을 가상으로 찍어내는 느낌

3. 압축 (Compress)

R3M 같은 사전학습 로봇 비전 모델로 이미지를 저차원 잠재벡터로 인코딩

표현 학습 + 정책 학습을 분리하지 않고 묶어서 효율적으로 학습

4. 훈련 (Train)

입력:

- 언어 잠재 벡터 (태스크 표현)

- 시각 잠재 벡터 (R3M 등)

- 로봇 상태

출력: 액션 (팔/그리퍼 명령 등)

MLP 기반 multi-task imitation learning

즉, 한국환경 기준에서 보면,

실제로 실험 환경을 계속 바꿀 여건이 안되더라도

Stable Diffusion + R3M + 모방학습 조합으로 "가상으로 환경 다양성"을 만들고, 하나의 정책으로 여러 태스크를 커버하는 그림.


② 객체/방해물/배경까지 정교하게 바꾸는: GenAug

GenAug는 CACTI의 "상위호환" 같은 느낌입니다.

주요 차이:

더 고해상도, 더 정교한 이미지 증강

물체/방해물/배경을 역할별로 나눠서 증강

aiagent0026.jpg

GenAug의 3가지 축:

1. 객체 확장 (Object Augmentation)

특정 물체를 마스크 → Stable Diffusion으로

- 질감(texture)

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 20개의 멤버십 콘텐츠 발행
  • 총 20개의 혜택 콘텐츠
최신 발행글 더보기
이전 25화[피지컬AI]25.저수준계획에 파운데이션모델 적용