6장 로봇 파운데이션 모델
"좋은 로봇 모델 + 좋은 아키텍처 x 좋은 데이터셋 x 좋은 수집 하드웨어"
최근 RT-X, Octo, π₀와 같은 VLA/VLM 기반 로봇 모델이 터지는 이유는 Transformer, Diffusion과 같은 모델 구조 덕분이기도 하지만, "쓸만한 로봇 데이터셋이 드디어 제대로 깔리기 시작했다"가 더 큽니다.
특히,
각 연구실이 따로 갖고 있던 조작 데이터들을
공통 포멧(RLDS)으로 맞춰서
하나의 Open-X Embodiment(OXE)로 묶어낸게 게임체인저입니다.
아래는 대표적인 3가지 축입니다.
주도: UC Berkeley
로봇: 비교적 저렴한 WindowX 로봇팔
핵심포인트: 위 그림처럼 표준화된 로봇 셋팅을 정의
공통 카메라 구성: 랜덤 각도로 설치가능한 랜덤 카메라, 깊이 이미지까지 얻는 고정형 깊이 카메라
전세계 랩이 "그냥 이 셋팅 복붙해서 쓰면 바로 데이터 공유 가능"한 구조
BridgeData v2 스펙(2023.8 기준)
24개 환경
13개 스킬
100+ 종류 물체
60,000+ 에피소드
각 에피소드마다 자유 텍스트 기반 언어 지시문(open-vocabulary instruction)포함
수집비율: 84% 사람원격조작(teleoperation), 16% 자동스크립트 실행
한국에서 연구실/기업 간 "같은 로봇 셋팅으로 데이터 공유하자"하면, WindowX, xArm 같은 팔 + RGB-D 카메라 표준 셋팅 하나 잡고 Bridge 스타일로 가면 됩니다.
나온 배경: 각 연구실이 따로 만든 로봇 조작 데이터셋이 쌓였는데 포맷도 제각각이라 대형 모델을 한번에 학습하기 힘듦
OXE가 한 일: 34개 연구실, 60+ 데이터셋을 RLDS라는 통일된 포맷으로 변환해 공개하고 BridgeData, Google RT-1/2 데이터등도 포함
로봇 종류: 단일팔/쌍팔 매니퓰레이터, 모바일 매니퓰레이터, 4족 보행 로봇 등
태스크: 집기/옮기기/놓기 같은 기본 조작부터 삽입, 조립처럼 더 정밀한 태스크까지 포함
RT-1-X/RT-2-X, Octo, OpenVLA, π₀ 같은 최신 모델들이 거의 무조건 이 OXE를 밝고 간다고 보면 됩니다.
한국환경에서 국내판 OXE를 만들려면, 여러 연구실/기업 데이터 포맷을 RLDS 비슷한 구조로 통합되고 공통 메타데이터(로봇타입, 관찰, 행동, 언어지시)를 표준화하는게 관건입니다.
공개: 2024년 3월, OXE 이후
특징: OXE처럼 "여러 로봇/여러 환경"이지만, 단일 표준 로봇셋팅을 중심으로 설계함
파트너: 13개 연구기관
규모: 약 76,000 에피소스
차별점:
- Bridge/OXE보다
- 더 다양한 동작(action) 종류
- 더 다양한 물체 카테고리
- 3인치 카메라 다수 → 여러 시점에서 동시에 촬영
- 환경 수준도 더 "현실적으로 지저분한 집": 다이닝룸, 침실 등
깔끔한 실험실 셋팅이 아니라 실제 생활공간에 가까운 구조
한마디로,
OXE가 "범용 로봇 조작 표준 데이터셋"이면 DROID는 "진짜 집/사무실 같은 고난도 환경까지 커버하는 업그레이드 버전"입니다.
한국도 제품화된 로봇을 만들려면, DROID처럼 집/카페/병원 같은 실제 상용환경에서 데이터 모으는 설계가 중요해집니다.
좋은 데이터셋을 만들려면,
모델도 모델이지만,
"사람이 편하게 잘 가르칠 수 있는 하드웨어"가 진짜 중요합니다.
여기선 대표적인 리더-팔로워형 및 손끝 데이터 수집 장치들을 다룹니다.
ALOHA
개발: 스탠퍼드대학 연구팀
구성:
- 비교적 저렴한 로봇팔 4개 (리더2대 + 팔로워 2대 = 양팔(dual-arm) 시스템
- 3D 프린트/시판 부품 기반, 설계도/제작법 오픈소스 공개
구조: 리더와 팔로워 로봇팔이 거의 동일한 크기로 서로 마주보게 배치, 사람은 리더팔을 직접 조작하면서 눈앞에서 팔로워 팔이 실제 물건을 다루는 걸 바로 확인가능
수집 가능한 태스크 예: 컵 뚜껑 열기, TV리모컨 배터리 교체, 양속이 필요한 정밀조작 등
이 데이터로 ACT(Action Chunking Transformer) 같은 정책을 학습해서, ALOHA가 다양한 태스크에서 잘 동작함을 보여줍니다.
Mobile ALOHA
ALOHA를 이동 로봇 위에 얹은 버전
리더-팔로워가 마치 두 사람이 같이 걷는 것처럼 이동하면서 뒷쪽에서 리더를 조작, 앞쪽 팔로워가 실제 환경에서 조작
데모: 집처럼 꾸민 환경에서 밥푸기, 요리하기 등 "이동+조작" 복합 태스크 수행
한국에서 모바일 매니퓰레이터 데이터 모으려면, Mobile ALOHA스타일의 '걸어다니면서 원격조작'이 꽤 현실적인 옵션입니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠