brunch

[피지컬AI]30. 로봇파운데이션모델용 데이터셋

6장 로봇 파운데이션 모델

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

"좋은 로봇 모델 + 좋은 아키텍처 x 좋은 데이터셋 x 좋은 수집 하드웨어"


⑴ 오픈 로봇 데이터셋의 정비

최근 RT-X, Octo, π₀와 같은 VLA/VLM 기반 로봇 모델이 터지는 이유는 Transformer, Diffusion과 같은 모델 구조 덕분이기도 하지만, "쓸만한 로봇 데이터셋이 드디어 제대로 깔리기 시작했다"가 더 큽니다.

특히,

각 연구실이 따로 갖고 있던 조작 데이터들을

공통 포멧(RLDS)으로 맞춰서

하나의 Open-X Embodiment(OXE)로 묶어낸게 게임체인저입니다.

아래는 대표적인 3가지 축입니다.


① Bridge 데이터셋: "표준셋팅 + 저가 로봇암" 으로 시작한 초기 레퍼런스

ai-robot176.jpg

주도: UC Berkeley

로봇: 비교적 저렴한 WindowX 로봇팔

핵심포인트: 위 그림처럼 표준화된 로봇 셋팅을 정의

공통 카메라 구성: 랜덤 각도로 설치가능한 랜덤 카메라, 깊이 이미지까지 얻는 고정형 깊이 카메라

전세계 랩이 "그냥 이 셋팅 복붙해서 쓰면 바로 데이터 공유 가능"한 구조

BridgeData v2 스펙(2023.8 기준)

24개 환경

13개 스킬

100+ 종류 물체

60,000+ 에피소드

각 에피소드마다 자유 텍스트 기반 언어 지시문(open-vocabulary instruction)포함

수집비율: 84% 사람원격조작(teleoperation), 16% 자동스크립트 실행

한국에서 연구실/기업 간 "같은 로봇 셋팅으로 데이터 공유하자"하면, WindowX, xArm 같은 팔 + RGB-D 카메라 표준 셋팅 하나 잡고 Bridge 스타일로 가면 됩니다.


② Open-X Embodiment(OXE): RT-X를 만든 그 데이터셋

나온 배경: 각 연구실이 따로 만든 로봇 조작 데이터셋이 쌓였는데 포맷도 제각각이라 대형 모델을 한번에 학습하기 힘듦

OXE가 한 일: 34개 연구실, 60+ 데이터셋을 RLDS라는 통일된 포맷으로 변환해 공개하고 BridgeData, Google RT-1/2 데이터등도 포함

로봇 종류: 단일팔/쌍팔 매니퓰레이터, 모바일 매니퓰레이터, 4족 보행 로봇 등

태스크: 집기/옮기기/놓기 같은 기본 조작부터 삽입, 조립처럼 더 정밀한 태스크까지 포함

ai-robot177.jpg

RT-1-X/RT-2-X, Octo, OpenVLA, π₀ 같은 최신 모델들이 거의 무조건 이 OXE를 밝고 간다고 보면 됩니다.

한국환경에서 국내판 OXE를 만들려면, 여러 연구실/기업 데이터 포맷을 RLDS 비슷한 구조로 통합되고 공통 메타데이터(로봇타입, 관찰, 행동, 언어지시)를 표준화하는게 관건입니다.


③ DROID 데이터셋: 더 다양하고 더 현실적인 조작환경

공개: 2024년 3월, OXE 이후

특징: OXE처럼 "여러 로봇/여러 환경"이지만, 단일 표준 로봇셋팅을 중심으로 설계함

파트너: 13개 연구기관

규모: 약 76,000 에피소스

차별점:

- Bridge/OXE보다

- 더 다양한 동작(action) 종류

- 더 다양한 물체 카테고리

- 3인치 카메라 다수 → 여러 시점에서 동시에 촬영

- 환경 수준도 더 "현실적으로 지저분한 집": 다이닝룸, 침실 등

깔끔한 실험실 셋팅이 아니라 실제 생활공간에 가까운 구조

ai-robot178.jpg

한마디로,

OXE가 "범용 로봇 조작 표준 데이터셋"이면 DROID는 "진짜 집/사무실 같은 고난도 환경까지 커버하는 업그레이드 버전"입니다.

한국도 제품화된 로봇을 만들려면, DROID처럼 집/카페/병원 같은 실제 상용환경에서 데이터 모으는 설계가 중요해집니다.



⑵ 데이터 수집을 위한 로봇 하드웨어

좋은 데이터셋을 만들려면,

모델도 모델이지만,

"사람이 편하게 잘 가르칠 수 있는 하드웨어"가 진짜 중요합니다.

여기선 대표적인 리더-팔로워형손끝 데이터 수집 장치들을 다룹니다.


① 리더-팔로워형 데이터 수집의 사실상 표준: ALOHA/Mobile ALOHA

ALOHA

개발: 스탠퍼드대학 연구팀

구성:

- 비교적 저렴한 로봇팔 4개 (리더2대 + 팔로워 2대 = 양팔(dual-arm) 시스템

- 3D 프린트/시판 부품 기반, 설계도/제작법 오픈소스 공개

구조: 리더와 팔로워 로봇팔이 거의 동일한 크기로 서로 마주보게 배치, 사람은 리더팔을 직접 조작하면서 눈앞에서 팔로워 팔이 실제 물건을 다루는 걸 바로 확인가능

수집 가능한 태스크 예: 컵 뚜껑 열기, TV리모컨 배터리 교체, 양속이 필요한 정밀조작 등

ai-robot179.jpg

이 데이터로 ACT(Action Chunking Transformer) 같은 정책을 학습해서, ALOHA가 다양한 태스크에서 잘 동작함을 보여줍니다.


Mobile ALOHA

ALOHA를 이동 로봇 위에 얹은 버전

리더-팔로워가 마치 두 사람이 같이 걷는 것처럼 이동하면서 뒷쪽에서 리더를 조작, 앞쪽 팔로워가 실제 환경에서 조작

데모: 집처럼 꾸민 환경에서 밥푸기, 요리하기 등 "이동+조작" 복합 태스크 수행

ai-robot180.jpg

한국에서 모바일 매니퓰레이터 데이터 모으려면, Mobile ALOHA스타일의 '걸어다니면서 원격조작'이 꽤 현실적인 옵션입니다.


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 20개의 멤버십 콘텐츠 발행
  • 총 20개의 혜택 콘텐츠
최신 발행글 더보기
이전 29화[피지컬AI]29. End-to-End 로봇제어모델