brunch

2. LLM기반 로봇 태스크 플래너 SayCan

2장 파운데이션 모델이 로봇에게 끼치는 영향

by AI개발자
physicalai-멀티모달AI와-로봇-top.png

이번에는 파운데이션 모델이 로봇의 구성요소를 어떻게 대체하고 어떤 새로운 태스크 수행을 가능하게 만드는지를 살펴보겠습니다.


파운데이션 모델 중 LLM(대규모 언어 모델)을 활용한 로봇 태스크 플래닝 연구 중 가장 잘 알려진 사례가 SayCan(Google Reasech, 2022)입니다. 이 연구에서 다루는 태스크는 다음과 같습니다.

예를 들어, 사람이 "음료를 쏟았는데 도와줄 수 있나요?"라고 말하면, 로봇이 이 말을 이해하고 실제로 해당작업을 수행하는 것입니다.


기존의 한계점

이전의 로봇은 이런 태스크를 수행하려면 보통 아래와 같은 과정을 거쳤습니다.

1. 언어지시를 문법적으로 분석하여 동사와 명사를 추출합니다.

2. 주변환경을 인식하여 물체를 탐지합니다.

3. 동사-동작매핑을 통해 로봇 동작 시퀀스를 구성합니다.

그러나, 현실에서는 이런 방식으로 거의 동작하지 않습니다. "도와줄 수 있나요?"와 같은 모호한 문장에서는 명확한 동사나 대상객체를 추출하기 어렵습니다. 또한 언급된 물체가 로봇의 인식범위에 항상 존재한다는 보장도 없습니다. 무엇보다 "도와주는 행위"는 단일 동작이 아닌 여러 단계의 연속행위로 구성됩니다. 즉, 기존 로봇 구조로는 수행하기 힘든 태스크입니다.


SayCan의 접근방식

SayCan은 이러한 한계를 해결하기 위해 언어모델(LLM)과 가치함수(Value Function)를 결합하는 구조를 제안했습니다. LLM은 문장을 이해하고 어떤 스킬이 필요한지를 추론합니다. 하지만, LLM만으로는 실제 환경의 제약(위치, 거리, 물체상태 등)을 반영할 수 없습니다. 그래서 SayCan은 사전에 학습된 스킬의 가치 함수를 도입합니다.

스킬: 로봇이 수행할 수 있는 단일 동작 단위(예: 이동, 잡기, 놓기)

LLM은 "언어지시"와 "스킬리스트"를 입력받아 각 스킬이 해당 지시에 얼마나 적절한지를 확률로 출력합니다. 한편, 로봇의 카메라 이미지와 스킬 정보를 입력으로 넣어 각 스킬이 현재 상황에서 얼마나 유효한지를 계산한 가치함수도 학습해 둡니다. 두 확률(LLM기반 확률 x 가치함수 확률)을 곱하면 현재 환경과 언어지시 모두를 고려한 실행 적합도를 평가할 수 있습니다. 이 과정을 반복함으로써 로봇은 연속적으로 다단계 행동을 계획하고 수행할 수 있습니다.

ai-robot002.jpg

실제 예시

예로, "음료를 쏟았으니 도와줄 수 있나요?"라는 지시를 받았을 때, SayCan은 다음과 같은 일련의 동작시퀀스를 추론합니다.

1. 스펀지를 찾는다

2. 스펀지를 잡는다

3. 사용자쪽으로 이동한다

4. 스펀지를 내려놓는다.

5. 완료

이처럼 SayCan은 언어적 모호성을 포함한 자연스러운 지시문을 로봇이 실행가능한 연속동작으로 변환하는 구조를 제시했습니다.


SayCan은 LLM이 본격적으로 로봇분야에 도입된 초기 대표 사례로 언어/시각/행동 간의 연결을 통해 추상적 지시를 실제 물리 동작으로 전환할 수 있음을 입증한 연구입니다. 즉, 특정 물체나 로봇 플랫폼에 종속되지 않고, "언어 이해 기반 태스크 수행"이라는 새로운 패러다임을 열었다는 점이 큰 의미를 지닙니다.

이후 등장한 많은 로봇 연구자들은 SayCan을 기초로 확장되었으며, 현재 파운데이션 모델이 로봇에게 가져온 가장 큰 변화는 언어를 진짜로 이해하고 행당으로 옮길 수 있게 되었다는 점이라고 할 수 있습니다.



©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.

이메일문의: jaewoo@mdrules.dev


AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB


keyword
이전 01화1. 파운데이션 모델과 로봇