brunch

[피지컬AI]27.범용 사전학습 로봇 비전모델

6장 로봇 파운데이션 모델

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

이전까지

인터넷 텍스트/이미지로 학습된

LLM (언어),

VLM (시각-언어),

멀티모달 기반 모델들

이걸 로봇시스템의 인식/계획에 어떻게 얹어 쓰냐가 중심이었습니다.

하지만 문제는,

1. LLM/VLM은 세상에 대한 상식/언어/시각 지식은 풍부하지만,

"관절을 어떻게 움직여야 균형을 유지하는지"

"그리퍼로 어느 방향에서 잡아야 미끄러지지 않는지"

같은 물리/신체 레벨의 지식은 거의 없습니다.

2. 지금까지 LLM/VLM을 쓴 로봇 시스템도

계획/이해/설명은 LLM/VLM이 하고 실제 모터/팔 제어는 사람이 짠 저수준 제어기 또는 RL 정책에 의존하는 구조가 대부분이었습니다.

그래서 최근에는,

"언어/이미지 기반 '일반지식' + 로봇 몸으로 쌓은 '물리/조작 지식'을 같이 품은 로봇 전용 파운데이션 모델을 만들자!

라는 흐름이 강해졌습니다. 그 부분을 필자는 로봇 파운데이션 모델(Robotics Foundation Model)이라고 부릅니다.


왜 LLM/VLM처럼 "마구 스케일업"하기 어려운가?

인터넷 텍스트/이미지는 싸고 많습니다.

반대로 로봇 데이터는 실제 로봇 + 작업 환경 + 사람 시연/스크립트 + 센서 로그 등 = 하나 찍는데도 돈/시간/인력이 많이 듦.

게다가 로봇은 텍스트, 이미지뿐만 아니라, 힘(force), 접촉(contact), 깊이, 관절 상태 등 훨씬 다양한 모달리티를 다뤄야 합니다.

즉, 데이터 수집 비용 + 모달리티 복잡도 때문에 로봇 파운데이션 모델은 LLM급 스케일링이 쉽지 않습니다.


이번 6장에서는 아래와 같이 진행합니다.

1. 범용 사전학습 로봇 비전 모델 (로봇에서 바로 가져다 쓸 수 있는 시각피처추출기)

2. 로봇용 시각-언어 모델

3. End-to-End 로봇 제어 모델

4. 자주 쓰이는 로봇 파운데이션 모델용 데이터셋


27. 범용 사전학습 로봇 비전 모델

"CLIP, MoCo처럼 일반 비전 모델 말고, 로봇 조작/내비게이션을 염두에 두고 사전학습된 비전 모델들을 봅시다.

이 모델들의 역할은 딱 하나,

시각 입력 → 좋은 특징 (feature representation)

그리고 이 특징이,

모방학습, 강화학습, 플래닝, 맵 구성 등 앞서 다뤘던 모듈들의 입력기반으로 쓰입니다.

여기서 소개하는 대표 라인업은,

① R3M: 1인칭 시점(Ego4D) 기반 CNN(ResNet)형

② MVP: MAE기반 ViT형 (Masked Autoencoder for Robotics)

③ VC-1: MAE기반 ViT + 벤치마크(CortexBench) 제안


⑴ 사람1인칭 시점 영상으로 학습한 로봇 비전 모델: R3M

R3M은 로봇쪽에서 제일 먼저 "아 이건 진짜 로봇용이다"싶게 나온 대표 비전 베이스라인입니다.

ai-robot157.jpg

데이터: Ego4D - 사람 시점의 일상 행동 데이터

Ego4D

9개국, 74개 장소

총 3,670시간짜리 1인칭 시점(egocentric) 영상

웨어러블 카메라로 촬용된 "일상 행동" (요리, 정리, 작업 등)

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 20개의 멤버십 콘텐츠 발행
  • 총 20개의 혜택 콘텐츠
최신 발행글 더보기
이전 26화[피지컬AI]26. 데이터 확장