brunch

[피지컬AI]24. 고레벨 계획으로의 확장

5장 파운데이션 모델을 로봇에 활용하는 방법

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

여기서 말하는 "고레벨 계획(High-level planning)은,

"언어 지시 이해"

"하위 태스크(subtask)로 분해"

:실행 가능한 행동/코드로 변환"

"실행 중 피드백 받아서 계획 수정"

이 전체 루프를 LLM이 중심이 되어 관리하는 단계를 말합니다.

앞에서 AVLMAPS, VLMaps 같은 건 "지각(perception)"쪽이었다면, 이제부터는 "이해 + 계획 + 코드 생성(planning & acting)" 단계라고 보면 됩니다.


구성 축은 크게 2가지입니다.

1. LLM기반 작업 계획 (Task Planning0

2. 언어 기반 행동/코드 생성 (Behavior/Code Generation)

ai-robot140.jpg

그리고 그걸 진짜 로봇에 적용할 때 필요한 저수준 정책(HULC++)/가치함수(SayCan등)/코드생성(CaP, ChatGPT for Robotics)까지 이어지는 그림입니다.



⑴ LLM을 이용한 기본 작업 계획 파이프라인

LLM 기반 태스크 플래닝 기본 틀은 대략 아래와 같습니다.

1. 언어 지시 → 작업 계획 (텍스트 단계)

GPT-3, Codex와 같은 LLM에 "언어지시 + 예시 작업 계획"을 프롬프트로 넣으면 새 지시에 대해서도 단계별 플랜을 뽑을 수 있음

예:

- 입력: "우유를 따라줘"

- 출력 계획 예시:

1. 냉장고 앞까지 이동

2. 냉장고 문을 연다

3. 우유를 꺼낸다

4. 냉장고 문을 닫는다

5. 컵을 찾는다

6. 컵에 우유를 따른다

2. 텍스트 계획 → 실제 실행 가능한 행동으로 매핑

문제: LLM이 짠 계획은 로봇 행동 primitive랑 바로 안맞을 수 있음.

예시: "냉장고 문을 열어라" 전에 "냉장고 앞으로 이동"이 필요함

해결: 사전에 정의된 행동 리스트(primitive, skill)와 RoBERTa같은 테스트 임베딩 모델을 써서 "LLM이 생성한 문장"과 "등록된 액션 설명문"의 유사도를 계산 → 가장 가까운 행동으로 매핑

3. 계획의 수정/보완

환경 제약, 과거 행동 결과에 따라 계획을 LLM이 다시 수정.

예시: 냉장고 앞에 장애물이 생겼다면 "우회해서 냉장고 앞까지 이동"같은 행동을 추가.

이게 요즘 논문/프로젝트에서 거의 기본 틀로 쓰이는 LLM 플래닝 파이프라인입니다. 한국에서 서비스 로봇을 만들 때도, 이 구조가 사실상 템플릿이라고 보면 됩니다.


⑵ 환경변화에 적응하는 계획: Inner Monologue

기본 LLM 플래닝은 "세상은 내가 짠 계획대로 굴러간다"라는 가정이 강합니다. 그런데 현실은 절대 그렇게 안됩니다.

Inner Monologue는 "실행 중에 생기는 모든 피드백을 자연어로 모아서, LLM 프롬프트에 계속 넣어주는 구조"라고 보면 됨.

핵심 아이디어

LLM이 다음 계획을 짤 때, 단순히 "초기 지시"만 보는게 아니라,

서브태스크 성공/실패 여부

장면 설명 (현재 환경 상황)

사람과의 대화/수정 요청

이런 것들을 내부 독백(inner monologue)형태로 계속 축적해서 프롬픝트에 넣고, 매번 "다음에 할 일"을 다시 생각하게 만드는 구조입니다.

ai-robot141.jpg

피드백 소스 예시

1. 성공 판별 (Success Detection)

서브태스크가 성공했는지 이진 분류 모델 등으로 판정 → "이 행동은 실패했다/성공했다"를 텍스트로 넣어줌.

2. 수동적 장면 설명 (Passive)

객체 인식, 상태 요약 같은 걸 자동 캡션/텍스트로 만들어 LLM에 제공

3. 능동적 장면 설명 (Active)

플래너가 "장애물이 있나?", "방해되는 물체 있나?"같은 질문을 던지고 그에 대한 텍스트 응답을 추가

이렇게 쌓인 텍스트 히스토리가 로봇의 머릿속 독백처럼 동작합니다.


한국 환경에서 쓸 수 있는 케이스

병원/오피스/가정에서 사람이 중간에 말을 바꾸거나, 물건 위치를 바꾸는 상황이 많음

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 20개의 멤버십 콘텐츠 발행
  • 총 20개의 혜택 콘텐츠
최신 발행글 더보기
이전 23화23. 고수준 인식을 위한 파운데이션 모델 응용