brunch

6. 자연어 기반 로봇 제어 모델 CLIPort

2장 파운데이션 모델이 로봇에게 끼치는 영향

by AI개발자
physicalai-멀티모달AI와-로봇-top1.png

앞에서 설명한 것들은 주로 로봇이 주어진 언어 지시를 해석하고, 그에 따라 태스크를 여러 단계로 분해하거나, 환경을 인식한 뒤 동작 계획을 세워 실행하는 구조를 살펴봤습니다.

즉, 전통적인 로봇 시스템은 일반적으로 인식 → 계획 → 제어의 3단계 구조로 작동합니다.

하지만, 최근에는 파운데이션 모델을 활용해 이 과정을 하나의 통합 학습 구조로 단순화하려는 시도가 나오고 있습니다. 그 대표적인 사례가 CLIPort(NVIDIA & Stanford, 2022)입니다.


CLIPort의 핵심개념

ai-robot009.jpg

CLIPort는 자연어 지시를 입력으로 받아 로봇의 관절(arm joints)를 직접 제어하는 통합 모델입니다. 즉, 인식과 동작계획을 분리하지 않고, 이미지와 언어로부터 즉시 로봇 동작을 생성(direct action generation)하는 구조입니다.

이 모델은 시각-언어모델(VLM, Vision-Language Model)을 기반으로 언어표현과 이미지 표현을 동일한 의미 공간(semantic space)에 매핑합니다. 이후 이 공간에서 로봇 팔끝(end-effector)이 어디로 이동해야 하는지를 예측하도록 학습됩니다.

말하자면, "이 컵을 테이블 오른쪽에 옮겨줘"라는 지시를 로봇이 이해하고, 팔을 실제로 그 위치까지 이동시키는 과정을 하나의 신경망 안에서 해결하는 구조입니다.


학습 방식

CLIPort는 테이블탑 환경(작업대 위 물체 조작)을 대상으로 설계되었습니다. 시뮬레이션 환경에서 10개의 서로 다른 조작 태스크를 하나의 모델(single policy network)로 학습했으며, 그 모델을 실제 로봇에 그대로 적용했을 때도 9개의 태스크를 성공적으로 수행했습니다. 즉, CLIPort는 다음과 같은 특성을 보입니다.

ai-robot010.jpg


작동원리

CLIPort는 크게 두 단계로 작동합니다.

1. 언어 및 이미지 특징 추출

언어 지시문과 현재 장면 이미지를 입력받아 CLIP모델을 통해 의미벡터(feature embedding)를 생성합니다.

2. 동작 예측 및 실행

시뮬레이션을 통해 물체 간의 공간적 배치와 상호작용을 학습하고, 그 결과를 바탕으로 로봇팔의 이동경로(픽앤플레이스 포인트)를 직접 계산합니다.

결과적으로, 로봇은 "이미지 + 언어"만으로 어떤 동작을 수행해야 하는지 바로 결정할 수 있습니다. 따라서 별도의 모션 플래너나 인식 모듈이 필요하지 않습니다.


성능과 한계

CLIPort는 시뮬레이션뿐 아니라 실제 로봇에서도 하나의 통합 모델로 다양한 조작 태스크를 수행할 수 있음을 입증했습니다.

컵 쌓기, 색상별 정렬, 물체 옮기기 등

형태/크기/위치가 다른 물체들에 대해 재학습 없이 일반화된 동작 수행이 가능했습니다.

그러나, "문을 열기(open)"나 "병뚜껑을 조이기(tighten)" 등

연속적인 힘 제어나 물리적 상화적용이 필요한 동작에서는 여전히 한계가 존재합니다.


이는 CLIPort가 위치 기반 조작(spatial manipulation)에 강점을 가지지만, 힘(force)이나 접촉(contact)을 정밀하게 다루는 영역은 아직 완전히 해결되지 않았음을 의미합니다.


CLIPort는 자연어 → 이미지 → 동작이라는 새로운 로봇 제어 패러다임을 보여줍니다. 로봇이 더 이상 "지시를 해석하고 계획을 세우는 존재"가 아니라, 언어를 바로 행동으로 변환하는 존재로 진화하고 있다는 의미입니다.

이는 앞으로의 로봇 연구가

계획 알고리즘의 고도화보다는

대규모 언어-시각-행동 통합 학습으로 이동하고 있음을 상징합니다.

ai-robot011.jpg

CLIPort는 "로봇이 언어를 행동으로 바꾸는 시대"의 출발점이라고 할 수 있습니다. 이는 향후 서비스로봇, 제조로봇, 가정용로봇등 다양한 영역에서 직관적 언어 제어 기반 로봇 시스템으로 확장될 가능성을 보여줍니다.


©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.

이메일문의: jaewoo@mdrules.dev


AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB


keyword
이전 05화5. CLIP-Fields: 언어기반 로봇지도 생성모델