브런치북 피지컬AI-멀티모달AI와 로봇 21화

21. 파운데이션 모델을 로봇에 적용방법

5장 파운데이션 모델을 로봇에 활용하는 방법

Nov 13. 2025

physicalai-멀티모달AI와-로봇-top2.png

로봇의 동작 구조는 크게 인지(Recognition) → 계획(Planning) → 제어(Control)의 세 단계로 구성됩니다. 이 기본 구조를 바탕으로, 파운데이션 모델(Foundation Model)이 로봇시스템의 각 단계에 어떻게 적용하여 활용할 수 있는지 알아봅시다.

- 로봇 적용을 위한 5가지 카테고리

파운데이션 모델을 로봇에 적용할 때는 다음 5가지 카테고리로 구분할 수 있습니다.

저수준 인지 (Low-level Recognition)

고수준 인지 (High-level Recognition)

고수준 계획 (High-level Planning)

저수준 계획 (Low-level Planning)

데이터 확장 (Data Augmentation)

이 5가지 카테고리는 로봇이 실제 환경에서 '보고-이해하고-결정하고-움직이는' 전체 흐름을 구성합니다.

- 계층 구조 개요

저수준 인지: 이미지나 3D 포인트 클라우드(Point Cloud)를 이용해 물체 인식(Object Recognition), 시맨틱 세그멘테이션(Semantic Segmentation)등 환경인지에 필요한 기본 정보를 추출합니다.

고수준 인지: 저수준 인식 결과를 바탕으로 지도(Map), 보상(Reward), 동작제약(Motion Constraint)등의 정보로 변환합니다. 이렇게 변환된 정보는 이후의 계획(Planning) 단계에서 활용됩니다.

고수준 계획: 로봇이 수행해야 할 추상적 행동 시퀀스를 결정합니다. 주로 LLM을 사용해 언어 명령을 여러 하위작업으로 분해하거나, 이동 경로 및 작업 순서를 생성합니다.

저수준 계획: 로봇의 관절각도(joint Angle), 엔드이펙터(end-effector)의 위치 및 자세(Position & Orientation)등을 직접 제어하는 단계입니다. 최근에는 파운데이션 모델을 활용해 이 부분까지 데이터 기반 제어 정책으로 학습하는 방식이 발전 중입니다.

데이터 확장: 저수준 인지와 저수준 계획을 연결하기 위한 학습 효율화 기법입니다. 생성형 모델을 이용해 다양한 환경/조명/지시문 변형 데이터를 만들어 로봇의 강건성과 일반화 성능을 향상시킵니다.

- 5가지 구성요소와 상호관계

이 5가지 카테고리는 계층적으로 연결되어 있으며, 그 상호작용은 위 그림의 개념도처럼 표현됩니다.

저수준 인지는 센서입력을 받아 환경을 이해하고,

고수준 인지는 이 정보를 구조화된 표현(지도/보상 등)으로 변환합니다.

고수준 계획은 이를 바탕으로 언어 명령을 해석해 행동 시퀀스를 설계하고

저수준 계획이 실제 로봇의 동작으로 전환합니다.

마지막으로 데이터 확장은 이 모든 단계를 촉진하는 학습 기반 연결 고리 역할을 합니다.

- 4가지 대표 구조

파운데이션 모델이 실제 로봇 시스템에서 적용되는 대표적인 4가지 구조는 다음과 같습니다.

① LLM 기반 행동 생성형 (High-to-Low Integration)

고수준 계획(LLM) → 저수준 제어까지 직접 연결

언어 명령을 받아 행동시퀀스를 생성하고 로봇동작으로 전환

② 시각 인식 중심형 (Vision-centric Approach)

저수준 인식 → 저수준 계획

카메라/센서 정보를 바탕으로 보상 함수나 제어 정책을 구성

강화학습/경로 최적화 등에 활용

③ 언어-시각 통합형 (Multimodal Integration)

고수준 인식 ↔ 고수준 계획 간 상호작용

시각 + 언어 입력을 함꼐 활용해 지도작성, 시맨틱 맵 구축, 작업 목표 설정 등 수행

④ 데이터 증강 기반 학습형 (Augmented End-to-End Learning)

저수준 인식 ↔ 저수준 계획을 직접 연결

생성형 모델로 시뮬레이션 데이터나 변형된 환경 데이터를 만들어 학습의 다양성과 정확도를 향상시킴

파운데이션 모델은 로봇의 '눈-뇌-손'을 모두 연결하는 지능 엔진입니다. 인식(Seeing), 계획(Thinking), 제어(Acting), 학습(Learning)을 하나의 모델 생태계로 통합하는 것이 바로 로봇 AI의 다음 진화 단계입니다.

©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.

이메일문의: jaewoo@mdrules.dev

AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB

GAEBAL AI - 네이버톡톡

AI개발, LLM개발, 강의문의

http://talk.naver.com/ct/w5umt5#nafullscreen

keyword

Brunch Book

피지컬AI-멀티모달AI와 로봇

피지컬AI-멀티모달AI와 로봇

전체 목차 보기 (총 30화)

멤버쉽

AI개발자 소속 MDRULES

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

월간 멤버십 가입 월간 멤버십 가입

이전 20화20. 다양한 파운데이션 모델22. 저수준 인식에서의 파운데이션 모델 활용다음 22화