brunch

8. RT-X: 범용 로봇 파운데이션 모델 구축

2장 파운데이션 모델이 로봇에게 끼치는 영향

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

언어를 입력받아 로봇의 동작을 직접 출력하는 모델은 이제 다루는 물체, 환경, 언어 표현이 점점 다양해지고 있습니다. 또한, 이를 수행할 수 있는 로봇의 종류와 동작 형태(variation)도 크게 확장되고 있습니다. 이번에는 이러한 확장의 대표적인 연구인 RT-X(Robot Transformer-X)를 소개합니다.


RT-X의 개요

RT-X는 로봇용 파운데이션 모델(FM for Robotics)을 구축하기 위한 세계 최대 규모의 협업 프로젝트 중 하나입니다.

21개 연구기관

173명의 연구자

22종의 서로 다른 로봇 플랫폼

527개의 동작스킬

160,266개의 태스크

60개의 데이터셋

100만개 이상의 에피소드 데이터


이 방대한 데이터를 통합 학습하여, 로봇의 형태나 환경, 작업 종류에 상관없이 동작가능한 범용 로봇 모델을 구축하는 것이 목표입니다.

ai-robot014.jpg

RT-X의 핵심구조

RT-X는 기존의 LLM이나 시각-언어 모델(VLM)처럼 언어와 이미지만을 입력으로 사용하는 것이 아닙니다. 여기에 로봇의 실제 동작 데이터, 즉, 관절각도(joint angle), 손끝 속도(end-effector velocity), 그리퍼 상태(gripper state)등 물리적 신호까지 통합 입력으로 사용합니다. 한마디로 RT-X는 언어/시각/행동(조작)이 모두 포함된 멀티모달 로봇 파운데이션 모델입니다.

이 구조를 통해 RT-X는 End-to-End 학습방식으로 언어지시 → 인식 → 계획 → 제어까지의 전 과정을 하나의 네트워크로 학습합니다.


학습 목표 및 특징

RT-X의 목표는 단순히 특정 로봇의 성능 향상이 아닙니다. 핵심은 로봇 간 범용성(generalization)입니다.

서로 다른 형태의 로봇이더라도,

동일한 언어지시(예: "컵을 들어 올려 책상 위에 두어라")에 대해 비슷한 행동 패턴을 학습할 수 있도록 설계되었습니다.

즉, 로봇의 하드웨어 구조가 달라도, 공통된 의미공간(semantic space)안에서 태스크를 해석하고 실행할 수 있습니다. 이것은 인간이 "도구를 바꿔도 같은 행동을 수행할 수 있는 능력"과 유사합니다.


파운데이션 모델로서의 의의

RT-X가 보여주는 가장 큰 의미는 다음과 같습니다.

1. 범용성

로봇마다 따로 모델을 학습할 필요가 없는 Cross-Robot Learning 가능

2. 확장성

수십만 개의 태스크를 하나의 네트워크로 통합

3. 학습 효율성

방대한 데이터를 병렬 처리하며 빠르게 수렴하는 대형 네트워크 구조

4. 표현력

언어, 시각, 물리 행동을 통합적으로 이해하는 진정한 멀티모달 인공지능 구현

이처럼 RT-X는 로봇의 파운데이션 모델화(Robot Foundation Modelization)라는 새로운 패러다임을 열었다고 할 수 있습니다.


RT-X의 등장배경과 확장 가능성

RT-X는 "단일 모델로 모든 로봇의 태스크를 수행한다"는 오랜 로봇공학의 이상(ideal)을 현실화하려는 시도입니다. 지금까지 로봇은 각기 다른 플랫폼, 다른 환경, 다른 태스크를 기준으로 별도의 모델을 학습해야 했습니다. 하지만, RT-X는 그 모든 데이터를 통합 학습함으로써 로봇 간 지식 공유(robot knowledge transfer)를 가능하게 만들었습니다.


즉, 한 로봇이 배운 경험이 다른 로봇의 학습 데이터로 바로 활용될 수 있는 구조입니다. 이러한 개념은 향후 한국형 로봇 파운데이션 모델(K-RFM)개발에서도 핵심 방향으로 이어질 가능성이 큽니다. 다양한 제조/서비스/물류 로봇 간 학습 공유가 가능해진다면, 국내 로봇 산업 전반의 개발 속도 또한 비약적으로 가속화될 것입니다.

ai-robot015.jpg


RT-X는 "하나의 모델로 모든 로봇을 학습시키는" 시대의 문을 연 연구입니다. 이는 더 이상 특정 태스크용 로봇이 아닌, 언어로 이해하고, 시각으로 인식하며, 행동으로 학습하는 지능형 로봇 생태계로의 전환을 의미합니다.



©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.

이메일문의: jaewoo@mdrules.dev


AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB


keyword
이전 07화7. GenAug: 생성형 로봇 데이터 증강 기술